Vroege bewijzen van hoe LLM's traditionele systemen overtreffen bij OCR/HTR-taken voor historische documenten.

De FARI Conference vindt plaats op 17 en 18 november in Brussel, ontdek meer.

Een initiatief van

Ondersteund door

Vroege bewijzen van hoe LLM's traditionele systemen overtreffen bij OCR/HTR-taken voor historische documenten.

FEB. 2025

Vroege bewijzen van hoe LLM's traditionele systemen overtreffen bij OCR/HTR-taken voor historische documenten.

Auteurs: Hugues Bersini, Julien Baudru, Seorin Kim, Vincent Ginis, Wouter Ryckbosch.

Wij onderzoeken de capaciteit van twee LLM’s – GPT-4o en Claude Sonnet 3.5 – om historische handgeschreven documenten in tabelvorm te transcriberen en vergelijken hun prestaties met traditionele OCR/HTR-systemen: EasyOCR, Keras, Pytesseract en TrOCR. Aangezien de gegevens in tabelformaat zijn, voeren we twee soorten experimenten uit: één waarbij de afbeeldingen regel voor regel worden verwerkt en één waarbij de volledige scan als invoer wordt gebruikt.

Aan de hand van CER- en BLEU-scores tonen we aan dat LLM’s beter presteren dan conventionele OCR/HTR-methoden. Daarnaast vergelijken we deze scores met menselijke evaluaties om de resultaten van de volledige scans beter te beoordelen en inzicht te krijgen in de factoren die CER en BLEU beïnvloeden.

Op basis van alle evaluatiecriteria concluderen we dat GPT-4o met een two-shot-aanpak het beste presteert bij regel-voor-regel transcripties, terwijl Claude Sonnet 3.5 met een two-shot-strategie de meest nauwkeurige resultaten levert bij volledige scans van historische documenten.

Bijdragers

Hugues Bersini Julien Baudru

Bijdragers

Hugues Bersini

Julien Baudru

Andere publicaties

Alle publicaties