AI odhaľuje tajomstvá histórie. Vedcom pomáha čítať stáročia staré texty

Umelá inteligencia (AI) už dávno nie je len o generovaní odpovedí na bežné otázky. Postupne sa stáva cenným prínosom aj v oblastiach, ktoré boli dlhé roky doménou úzko špecializovaných expertov. Jednou z nich je výskum historických rukopisov, šifier a poškodených textov, ktoré celé stáročia nikto nedokázal vylúštiť.

AI už dnes pomáha historikom, lingvistom aj archivárom pri prepise, analýze a dešifrovaní dokumentov, čo sú procesy, ktoré by človeku samotnému trvali mesiace či dokonca roky.

Podľa BBC sa v archívoch a knižniciach po celom svete stále nachádzajú tisíce textov s neznámymi znakmi, nečitateľným písmom alebo rôznymi formami šifrovania. Približne jedno percento materiálov v archívoch a knižniciach môže byť zapísané v podobe, ktorej dnešní bádatelia nedokážu porozumieť.

Jedno percento sa môže zdať málo, no treba si uvedomiť, že práve tieto materiály môžu obsahovať osobné listy, lekárske recepty, diplomatickú korešpondenciu či záznamy o politických intrigách. To všetko sú materiály, ktoré by nám dokázali oveľa lepšie porozumieť dávnej histórii.

Problém je v tom, že často nejde o bežné texty, ale o unikátne materiály s poškodeným povrchom, vyblednutým atramentom, nezvyčajným rukopisom a jazykom, ktorým sa už dávno nerozpráva. A práve tu má pomôcť AI. Za úlohu nemá len texty čítať, ale tiež pomáhať v ich rekonštrukcii, porovnávaní a odhadovaní.

Vatikánsky rukopis

Jedným z najčastejších príkladov je takzvaný Borgov rukopis z Vatikánskej apoštolskej knižnice. Ide o 408-stranový dokument, ktorý nikto nedokázal rozlúštiť viac ako štyri storočia. Tím vedcov zo Štokholmskej univerzity pod vedením Beáty Megyesi však práve pomocou strojového učenia zistil, že text obsahuje okrem iného aj netradičné dobové liečebné postupy.

Podľa médií sa v ňom spomína napríklad červené víno či muškátový oriešok ako súčasť odporúčaných postupov pri zdravotných problémoch.

Zaujímavý je však nielen obsah, ale aj spôsob, akým je zapísaný. Borgov rukopis využíva 34 nezvyčajných symbolov, miestami doplnených o rímske písmená, zatiaľ čo titulná strana je napísaná po arabsky. Hoci podľa odborníkov ide o relatívne jednoduchší substitučný typ šifry, v jej rozlúštení bránil poškodený materiál aj nejednotný zápis.

Práve tu môže pomôcť umelá inteligencia, ktorá dokáže identifikovať opakujúce sa vzory, porovnávať naraz veľké množstvo znakov a navrhovať pravdepodobné jazykové súvislosti. To všetko rýchlejšie než človek.

Príklad z Vatikánu je pritom len jedným z mnohých. Cecile Pierrot z francúzskeho výskumného centra INRIA spolu so svojím tímom podľa BBC strávila pol roka dešifrovaním trojstranového listu cisára Karola V., ktorý bol zapísaný pomocou 120 symbolov. Po rozlúštení sa ukázalo, že panovník v ňom vyjadroval obavy z možného atentátu. Ďalším príkladom sú listy Márie Stuartovej, ktoré po dešifrovaní prezradili, že sa snažila získať späť politický vplyv a trón.

Nejde len o šifry

Pre historikov však nie je prekážkou len samotné lámanie šifier. Ešte predtým treba text dostať do digitálnej podoby, čo je pri vyblednutom atramente, poškodenom papieri alebo starom písme veľmi náročný, niekedy takmer nemožný úkon.

Aj preto sa dnes využívajú nástroje ako Transkribus, ktoré pomáhajú s automatizovaným prepisom historických dokumentov. Michelle Waldispühl z University of Oslo ho použila pri analýze tajného listu z roku 1637, ktorý bol napísaný kombináciou čísel a nemeckého rukopisného písma zo 17. storočia.

Výskumníci z projektu Descrypt zase pracujú na systéme, ktorý by dokázal analyzovať už samotné fotografie strán a okamžite navrhovať ich prepis aj možné rozlúštenie. Testy pritom ukázali, že takýto prístup naozaj môže fungovať. Práca na úseku Borgovho rukopisu s dĺžkou asi 500 znakov mala AI modelu trvať len niečo vyše 29 minút. V procese dokonca uvádzal postup toho, ako uvažoval. To je ďalšia dôležitá kvalita, keďže historikovia nechcú len hotový výsledok, ale aj zistiť, prečo a ako model prišiel k danému záveru.

V tomto smere stojí za zmienku aj nástroj Aeneas, ktorý vznikol vďaka Google DeepMind. Pomáha čítať a dopĺňať staroveké latinské nápisy. Česká televízia informovala, že model bol trénovaný na vyše 176-tisíc nápisoch, pričom pomáha nielen rekonštruovať chýbajúce časti textu, ale aj odhadovať miesto pôvodu a dátum vzniku.

Toto všetko naznačuje, že umelá inteligencia v humanitných vedách nenahradí odborníkov, ale im bude skôr pomáhať. Algoritmus síce dokáže rýchlo prehľadať tisíce súvislostí, rozpoznať vzory v poškodenom texte alebo navrhnúť možné kontexty, no bez kontextu a expertízy by išlo de facto len o holé dáta. Inak povedané, konkrétne v tomto smere je spolupráca technológie a človeka nevyhnutná, teda aspoň zatiaľ.