Nous analysons la capacité de deux LLMs – GPT-4o et Claude Sonnet 3.5 – à transcrire des documents manuscrits historiques sous forme de tableau et comparons leurs performances à celles des systèmes OCR/HTR traditionnels : EasyOCR, Keras, Pytesseract et TrOCR.
Étant donné le format tabulaire des données, nous menons deux types d’expériences : l’une où les images sont traitées ligne par ligne et l’autre où l’intégralité du scan est utilisée comme entrée. Sur la base des scores CER et BLEU, nous démontrons que les LLMs surpassent les méthodes OCR/HTR classiques.
De plus, nous confrontons ces scores aux évaluations humaines afin de mieux interpréter les résultats des expériences sur des scans complets et d’identifier les facteurs influençant CER et BLEU. En combinant toutes les métriques d’évaluation, nous concluons que GPT-4o en mode two-shot est le plus performant pour les transcriptions ligne par ligne, tandis que Claude Sonnet 3.5 excelle pour les scans complets, produisant des résultats les plus proches de la vérité terrain
Auteurs: Hugues Bersini, Julien Baudru, Seorin Kim, Vincent Ginis, Wouter Ryckbosch.