Rövid beszámoló a tanulmányi napokról, 1. rész
A kutatócsoport részéről Novák Ádám közreműködésével tanulmányi napokkal zárult a Történelmi források a digitális térben c. kurzus (2023. március 28-29., Debreceni Egyetem). A tanulmányi nap koncepcióját a külföldi felsőoktatási-kutatói miliőből vették át a szervezők. Az angolszász akadémiai közegben a study day, a franciában pedig a journée d’étude kifejezéseket használják az olyan találkozókra, amelyek ötvözik a szakmai, témaspecifikus képzési és tájékozódási lehetőségeket. Az ilyen szakmai fórumok jó alkalmat teremtenek egy projekt elemzésére vagy egy adott témában a legújabb fejlemények bemutatására. A tanulmányi napok mindkét lehetőséget magukban foglalták, mivel egyfelől a digitális bölcsészet középkorászok által alkalmazható módjainak az új útjait tárták a résztvevők elé, másfelől az előadók az egyes előadások révén egy-egy már működő digitalizációs projekt eredményeibe adtak betekintést.
A rövid beszámoló első részében az angol nyelvű előadásokról közlünk rövid ismertetést.
Adam Zapała a DARIAH (Digital Research Infrastructure for the Arts and Humanities)-PL-projektet ismertette, amely három évre (2020-2023) kapott támogatást. A projekt működésében tizennyolc intézmény vesz részt, ennek a kutatói hálózatnak a lengyel akadémián kívül egy poznańi akadémiai intézet, valamint több egyetem is a tagja. A projekt célja, hogy a humántudományok és a bölcsészek számára egy összefüggő, átfogó digitális infrastruktúrát hozzon létre. Ez az infrastruktúra több elemből áll: digitális repozitóriumokból, a feldolgozott adatok térképes vizualizációjából, szótárak és egyéb adattárak létesítéséből. A projekt tagjai azon dolgoznak, hogy a forrásokból minél jobban ki tudják nyerni a gépek által kiolvasható szöveganyagot. Több nehézség is adódhat a feldolgozás során: az abbreviációk (rövidítések) feloldása időigényes, és maga a kiolvasási folyamat is, mivel külön-külön kell megtanítani arra a mesterséges intelligencián alapuló algoritmust, hogy felismerje a kiolvasandó szöveget (az E-Scriptorium program keretében). Ezért az előadás konklúziója arra irányult, hogy felhívja a figyelmet a csapatmunka fontosságára e téren, ugyanis így építhető fel egy nagyobb és általánosabb modell, amely révén az előbb megnevezett problémák is csökkenthetőek.
Péter Róbert a Szegedi Tudományegyetemről összefoglalta azt a digitalizációs projektet (AVOBMAT, Analysis and Visualization of Bibliographic Metadata and Texts), amelynek az alapját egy 2015. évi konferencia adta. Egy évvel később, 2016-tól indult meg a Szegedi Tudományegyetem több tanszékének (többek között az angol, magyar, informatikai és számítógép analitikai tanszékek, valamint az egyetem Klebelsberg Egyetemi Könyvtára) az együttműködésével a feldolgozás, amelynek 2019-től a DARIAH-projekt is a részese. A kutatók célja, hogy kritikai és interaktív analízist végezzenek a szövegeken, vagyis a projekt tagjai a szövegek feldolgozásán túl tartalomelemzéssel is foglalkoznak. A módszertanuk két pillérre épül: 1) metaadatok és szövegfeldolgozás-elemzés; 2) a szövegek szoros és távoli olvasása. Az AVOBMAT olyan felhasználóbarát nyelvi interfésszel bír, amelyet több nyelven is lehet használni, a működése pedig a mesterséges intelligencia mellett nyelvfeldolgozásos technológiákkal egészül ki. Az elvégzett mintavételt követően (kulcsszavas keresés) pedig külön szófelhőbe gyűjtve illusztrálható egy-egy meghatározó, szövegekhez kapcsolódó jelenség az előfordulás gyakorisága alapján.
Michael Gervers a Torontói Egyetemről vezette fel a torontói székhelyű D.E.E.D.S. (Documents of Early England Data Set)-projektet, amely középkori, többnyire angol, keltezetlen oklevelek datálási problémájának a megoldásával foglalkozik. A projekt igen hosszú múlttal rendelkezik, 1975-ben alakult meg, s az adatfeldolgozási technológia időközbeni fejlődésével párhuzamosan jutott el mai formájához, a digitális bölcsészethez. Az angol adatoknál maradva: meglepően sok keltezetlen oklevél jellemzi az 1066-tól a 14. századig tartó időszakot. A torontói csapat által alkalmazott algoritmust a statisztikával foglalkozó Gelila Tilahun ismertette, amely 75%-os pontossággal képes egy megközelítőleg szűk határra, +/- 7 évre eső időintervallumra szűkíteni egy oklevél keletkezési idejét a nyelvi formulák analíziséből kiindulva. A fennmaradó 25%-os bizonytalanság nem az algoritmus hibájából ered, hanem a forrásokban keresendő, mivel többnyire a hamis oklevelek esetében még a jól programozott algoritmus bevetése sem vezet megoldásra. Az algoritmus azért működik jól, mert az azt működtető kutatók olyan szómintázatokat határoznak meg, amelyek a legnagyobb gyakorisággal fordulnak elő egy szövegben. Ezt a kitételt pusztán nyelvi okok tették szükségessé, mivel a szóhasználat folyamatosan változik, ezért ezt a változékonyságot bele kellett kalkulálni az algoritmus munkavégzésébe is.
A European Research Council által támogatott, a tavalyi évben elindult, grazi digitalizációs projekt (From Digital to Distant Diplomatics) még a munkafolyamat elején tart, így a kezdeti fázist ismertette a projekt vezető kutatója, Georg Vogeler. Itt a kutatócsoport már meglévő előzményekre támaszkodik, korábban létrehozták a monasterium.net oldalt (az oldalon magyar nyelven is olvasható több tartalom), amely több európai levéltári anyagot tartalmaz, akár egy-egy népnyelvű kifejezésre (az olasz beginák egyik megnevezésére, a pinzochera szóra keresve például két 14. századi firenzei dokumentumot is találatként jelenít meg az oldal, megtudható a levéltári dokumentum pontos levéltári száma a fond leírástól egészen a folio számozásig, valamint a dokumentum fizikai paramétereinek a leírása). A grazi kutatócsoport ötvözi a klasszikus, diplomatikai ismérveket és vizsgálati szempontokat (formula, írásmód, kibocsátó, címzett, tanúk, hitelesítési módok, írnok) a modern digitalizációs technikával abból a célból, hogy mindenki számára könnyen elérhetőek és kutathatóak legyenek ezek a források. A cél elsősorban az, hogy az óriási mennyiségű, lekövethetetlen és nehézkesen kereshető források közepette létrejöjjön egy olyan digitális tár, amely révén gyorsabban és egyszerűbben lehet az adatokra rákeresni. Bár megvannak az egyedi forrássajátosságok, a regionális jellegzetességek vizsgálata is fontos, így az Ausztriával szomszédos országok középkori forrásanyagát is feldolgozzák és összevetik az adatbázisban lévő valamennyi anyaggal. Ehhez a grazi csapatnak komoly kapcsolati hálója van, együttműködnek például a beginák vizsgálatát újragondoló, nemzetközi kutatóhálózattal (a hálózatot a montreali székhelyű Sorores-projekt fogja össze), illetve kapcsolatban állnak a levéltárosok nemzetközi szervezetével, az ICARUS-szal is.