A READ forradalmasítani akarja a hozzájutást a kéziratos dokumentumokhoz

Transkribus

A Read (Recognition and Enrichment of Archival Documents) projekt immár 2016 januárja óta működik az Európai Unió támogatásával, azzal küldetéssel, hogy forradalmasítsa a hozzájutást a kéziratos dokumentumokhoz olyan élenjáró technológiákkal, mint kéziratos szövegfelismerés (HTR) és kulcsszó keresés.

 

A kéziratos szövegfelismerés (HTR) kutatása az urtóbbi években látványos fejlődést mutatott, de még mindig sok kihívás maradt ahhoz, hogy a számítógépek képesek legyenek kéziratos, történelmi dokumentumok olvasására, hasonlóan az emberi lényekhez. Néhány ezek közül a kihívások közül:

 

  • A mostani gépi tanuláshoz  nagyon nagy mennyiségű anyagra van szükség. Kívánatos lenne a rendelkezésre álló források újrafölhasználása ahhoz, hogy fölgyorsíthassuk a tanulási folyamatot.
  • A történelmi dokumentumok formája gyakan önkényes és bonyolult. Új módszerekre van szükség ahhoz, hogy a gép „megértse” az információ minden rétegét, amelyek táblázatokban, űrlapokban és ismétlődő elemekben jelennek meg.
  • Bár az alaptechnológia nyelvtől független, a nyelvi adatok és modulok szükségesek ahhoz, hogy dekódoljuk az infornációt, és emberek által olvasható szöveget kapjunk. A történelmi nyelvjárások nem szabványosítottak és a szerzők gyakran egyéni módon használják őket.
  • Nagy menniységű dokumentum, tehát milliónyi vagy számilliónyi oldal feldolgozása hatalmas számítástechnikai erőforrást követel. A kutatás tehát arra is irányul, hogy ebben az irányban csökkenés legyen elérhető.

 

A READ ezeket a nehézségeket szeretné legyőzni. A projekt keretében már elkészült a Transkribus nevű szoftver, amely levéltári források automatikus fölismerését, átírását és keresését végzi. Jelenlegi fő célja, hogy támogassa azokat a fölhasználókat, akik nyomatott vagy kéziratos foirrások átírásával foglalkoznak. A szoftver regisztráció után ingyenesen letölthető a Transkribus honlapjáról. Segítségével feltölthetünk digitális kéziratos oldalakat a READ központi szerverére. A szoftver képes már (több-kevesebb hibával) fölsimerni a kézirat sorait és elrendezését. A szövegefelismeréshez azonban csak akkor tud hozzákezdeni, ha egy adott kéztől legalább 20 ezer szót (kb. 100 oldal) begépelt valaki a Transkribus-on keresztül. Egyelőre tehát nincs szó arról, hogy hirtelen OCR-ezzük a kéziratokat, viszont terjedelmes kéziratkiadások esetén használható lehet.

 

Hivatkozások: