Een initiatief van

Ondersteund door

logo
LLMs Systems Article

Vroege bewijzen van hoe LLM's traditionele systemen overtreffen bij OCR/HTR-taken voor historische documenten.

FEB. 2025

Vroege bewijzen van hoe LLM's traditionele systemen overtreffen bij OCR/HTR-taken voor historische documenten.

Wij onderzoeken de capaciteit van twee LLM’s – GPT-4o en Claude Sonnet 3.5 – om historische handgeschreven documenten in tabelvorm te transcriberen en vergelijken hun prestaties met traditionele OCR/HTR-systemen: EasyOCR, Keras, Pytesseract en TrOCR. Aangezien de gegevens in tabelformaat zijn, voeren we twee soorten experimenten uit: één waarbij de afbeeldingen regel voor regel worden verwerkt en één waarbij de volledige scan als invoer wordt gebruikt.

Aan de hand van CER- en BLEU-scores tonen we aan dat LLM’s beter presteren dan conventionele OCR/HTR-methoden. Daarnaast vergelijken we deze scores met menselijke evaluaties om de resultaten van de volledige scans beter te beoordelen en inzicht te krijgen in de factoren die CER en BLEU beïnvloeden.

Op basis van alle evaluatiecriteria concluderen we dat GPT-4o met een two-shot-aanpak het beste presteert bij regel-voor-regel transcripties, terwijl Claude Sonnet 3.5 met een two-shot-strategie de meest nauwkeurige resultaten levert bij volledige scans van historische documenten.

Auteurs: Hugues Bersini, Julien Baudru, Seorin Kim, Vincent Ginis, Wouter Ryckbosch.

Bijdragers

Illustration
Illustration
Hugues BersiniJulien Baudru

Bijdragers

Delen

Andere publicaties

Alle publicaties

Alle publicaties