Rövid beszámoló a tanulmányi napokról, 2. rész

Ónadi Sándor

A Debreceni Egyetem, a Pécsi Tudományegyetem és a Szegedi Tudományegyetem összefogásával indult el a 2023. évben a Történelmi források a digitális térben: létező modellek, lehetséges megoldások című kurzus. A kurzus célja, hogy a részt vevő történész doktoranduszokkal megismertesse az adatbázis-építés alapjait, valamint olyan eszközök elsajátítását kínálja, amelyek segítségül lesznek későbbi kutatásaikban.

Az ötlet maga egy 2022. október 28-30. között Grazban megrendezett, „Digital Diplomatics 2022” című konferencián fogant meg, amelyen előadóként részt vett Hunyadi Zsolt (SZTE) és Novák Ádám (ELKH-DE „Középkori Magyarország és Közép-Európa Hadtörténete) is. Az esemény legnagyobb tanulsága a digitális bölcsészet óriási fejlődése volt. A napjaink kínálta technikai lehetőségek olyan kapukat nyitottak meg, amelyek mellett történeti kutatások szempontjából sem szabad elsétálnunk. Elég csak a napjainkban oly nagy figyelmet élvező mesterséges intelligencia által nyújtott lehetőségekre gondolnunk, amelynek középkori kéziratok felismerése és digitális szöveggé alakítására már meglehetősen hatékony és pontos kísérleteket is ismerünk.

A debreceni rendezvényt megelőzően a kurzus online formában, négy foglalkozást tartalmazott. Az első előadáson (2023. február 22.) Hunyadi Zsolt egyetemi docens mutatta be az adatbázis-építés elméleti alapjait, s felvázolta azokat a kutatási lehetőségeket, amelyeket egy olyan saját rendszer szerint összeállított adatbázis rejthet magában, amelyet a kutatók a kutatási metódusukhoz igazítanak.

A második alkalommal (2023. március 1.) szintén Hunyadi Zsolt, valamint Novák Ádám tartott előadást a digitalizációs lehetőségekről, annak a forrásokhoz igazított, egyéni aspektusairól. Kitekintésként bemutatásra kerültek olyan középkori oklevélpecsétek töredékei, amelyek háromdimenziós digitalizálásával lehetőség nyílna az eredeti lenyomat rekonstruálására.

A harmadik előadást (2022. március 8.) „Kilépés az online térbe” címmel Kiss Gergely (PTE) és Báling Péter (PTE) tartották közösen. Az óra keretében bemutatásra került a Pécsi Tudományegyetem által felépített és működtetett DelegatOnline adatbázis (https://delegatonline.pte.hu), illetve annak logikai felépítése, az adatok összegyűjtésének, felépítésének gyakorlati sajátosságai.

Az utolsó alkalom (2022. március 22.) egyfajta ismeretmélyítésként szolgált, ahol Hunyadi Zsolt moderálásával az elmúlt három alkalmon megismert lehetőségek értelmezésére és a saját tapasztalatok átadására egy virtuális kerekasztal mellett nyílt lehetőség.

A négy korábbi alkalmon megszerzett ismeretekkel felvértezve kerülhetett sor a debreceni, hibrid formátumú tanulmányi napokra. Ennek keretében két nap alatt tizenkét meghívott előadó, a hazai és nemzetközi digitális bölcsészet jeles képviselői mutatták be az általuk futtatott adatbázisokat és a digitalizációval foglalkozó projektjeiket a résztvevőknek.

Az eseményt Bárány Attila, a Debreceni Egyetem Történelmi és Néprajzi Doktori Iskola vezetője nyitotta meg, aki úgy szemléltette az informatika rohamos átalakulását, hogy megfelelő parancsok megadásával próbaként nyolc másodperc alatt (!) megíratta saját bemutatását, amely meglepően pontosra sikeredett. Ezt követően Hunyadi Zsolt köszöntötte a résztvevőket, aki mint elmondta, a kerekasztal programjának összeállításánál arra törekedett, hogy az elmúlt hetekben megszerzett ismeretekre alapozva olyan adatbázisokat, digitális gyűjteményeket ismerjenek meg a hallgatók, amelyek hasznos tapasztalatokkal szolgálhatnak kutatásaik során.

Biszak Sándor (Arcanum) előadásában bemutatta az Arcanum Digitális Tudománytár (ADT) és a Hungaricana gyűjteményét. Az előadó elmondása alapján havonta mintegy 1–1,5 millió oldalnak megfelelő anyagot digitalizálnak, amelyeket teljes szövegű kereséssel elérhetővé tesznek. Nem véletlen, hogy ekkora adattömegnél fontos egy pontosan, precíz paraméterekkel működtethető keresőmotor felépítése, amely hasznos munkaórákat tud megspórolni a kutatóknak. A széleskörű digitalizálásnak köszönhetően nemcsak írott forrásokat, de festményeket, képeket, térképeket, sőt még az MTA-BTK Zenetudományi Intézet Népzenei Gyűjteményének elemeit is elérhetjük otthonról.

Czoboly Miklós bemutatta a Monguz Kft. által kifejlesztett Qulto SimilR nevű szoftver tevékenységét, amely a szöveghasonlóság-elemzés, és így a plágiumellenőrzés köré csoportosítható. A Monguz elsősorban közgyűjteményekkel áll kapcsolatban, így a szervező intézmények mindegyike ügyféli kapcsolatban áll a vállalattal.

A „Mohács utáni pecsétek adatbázisa” címmel tartotta meg előadását Kurecskó Mihály, a Magyar Nemzeti Levéltor Országos Levéltárának munkatársa. Az előadás során bemutatásra került az MNL OL-ben őrzött „V” szekció pecsétgyűjteménye. A gyűjtemény az elnevezés ellenére nemcsak eredeti pecséteket, pecséttöredékeket, de azok különféle másolatait, pecsétnyomóit is tartalmazza. Ezek mellett a szekcióba tagozódnak a különböző nyomdai nyomólemezek és pénzverőtövek is.

Kiss Gergely (PTE) és Báling Péter (PTE) és Maléth Ágnes (PTE–SZTE) a magyarországi pápai legátusok adatait tartalmazó DelegatOnline nevű adatbázisukat mutatták be. Az előadás olyan gyakorlati problémákat tárgyalt, mint a standardizáció, az egyes csoportok kialakításának nehézségei, a forrásszövegek adathalmazzá alakításának lépései. Mint minden történeti kutatásban, nagy nehézséget állít a források elérhetősége, feldolgozhatósága. Ezt nehezíti a nagy adatmennyiség, a nyelvezet, illetve az oklevelek közötti nagy eltérések.

Novák Ádám (DE) a Memoria Hungariae-adatbázist mutatta be, amely a 2014-ben megalakult MTA-DE „Magyarország a középkori Európában” Lendület-kutatócsoport vállalásaként jött létre. A kutatócsoport munkatársai több európai ország levéltárában végeztek kutatásokat, s digitalizáltak a középkori Magyar Királysághoz kapcsolódó forrásokat. Az adatbázis felépítésénél kitűzött cél volt, hogy ne csupán az oklevelek digitalizált másolatai, de például az azokhoz kapcsolódó pecsétek és szakirodalmi tételek is megjelenjenek a rendszerben, ezzel is elősegítve a minél sokoldalúbb kutatási lehetőségüket.

Hunyadi Zsolt (SZTE) „Középkori oklevelek az online térben” címmel tartotta meg a kétnapos találkozó utolsó magyar nyelvű előadását. Az előadó az Anjou-kori oklevéltár regesztáit tartalmazó adatbázist mutatta be, amely egy pilotprojekt keretein belül indult el 1990-ben. A cél – hasonlóan a Memoria Hungariae adatbázisához – az, hogy az egyes rekordokat összekapcsolják, így az oklevelekhez pecsétek, regeszták, szakirodalmi tételek csatolhatóak, a bírtokviszonyok pedig térképen ábrázolhatóak.

Elkészület alatt áll egy fogalomtár, amely tartalmazza mindazon kifejezéseket, amelyek ismeretlenek lehetnek egy alapvetően bölcsészettudományokban jártas hallgató számára, ezzel is segítve a digitális fejlődését.

Rövid beszámoló a tanulmányi napokról, 1. rész

A kutatócsoport részéről Novák Ádám közreműködésével tanulmányi napokkal zárult a Történelmi források a digitális térben c. kurzus (2023. március 28-29., Debreceni Egyetem). A tanulmányi nap koncepcióját a külföldi felsőoktatási-kutatói miliőből vették át a szervezők. Az angolszász akadémiai közegben a study day, a franciában pedig a journée d’étude kifejezéseket használják az olyan találkozókra, amelyek ötvözik a szakmai, témaspecifikus képzési és tájékozódási lehetőségeket. Az ilyen szakmai fórumok jó alkalmat teremtenek egy projekt elemzésére vagy egy adott témában a legújabb fejlemények bemutatására. A tanulmányi napok mindkét lehetőséget magukban foglalták, mivel egyfelől a digitális bölcsészet középkorászok által alkalmazható módjainak az új útjait tárták a résztvevők elé, másfelől az előadók az egyes előadások révén  egy-egy már működő digitalizációs projekt eredményeibe adtak betekintést.

A rövid beszámoló első részében az angol nyelvű előadásokról közlünk rövid ismertetést.

Adam Zapała a DARIAH (Digital Research Infrastructure for the Arts and Humanities)-PL-projektet ismertette, amely három évre (2020-2023) kapott támogatást. A projekt működésében tizennyolc intézmény vesz részt, ennek a kutatói hálózatnak a lengyel akadémián kívül egy poznańi akadémiai intézet, valamint több egyetem is a tagja. A projekt célja, hogy a humántudományok és a bölcsészek számára egy összefüggő, átfogó digitális infrastruktúrát hozzon létre. Ez az infrastruktúra több elemből áll: digitális repozitóriumokból, a feldolgozott adatok térképes vizualizációjából, szótárak és egyéb adattárak létesítéséből. A projekt tagjai azon dolgoznak, hogy a forrásokból minél jobban ki tudják nyerni a gépek által kiolvasható szöveganyagot. Több nehézség is adódhat a feldolgozás során: az abbreviációk (rövidítések) feloldása időigényes, és maga a kiolvasási folyamat is, mivel külön-külön kell megtanítani arra a mesterséges intelligencián alapuló algoritmust, hogy felismerje a kiolvasandó szöveget (az E-Scriptorium program keretében). Ezért az előadás konklúziója arra irányult, hogy felhívja a figyelmet a csapatmunka fontosságára e téren, ugyanis így építhető fel egy nagyobb és általánosabb modell, amely révén az előbb megnevezett problémák is csökkenthetőek.

Péter Róbert a Szegedi Tudományegyetemről összefoglalta azt a digitalizációs projektet (AVOBMAT, Analysis and Visualization of Bibliographic Metadata and Texts), amelynek az alapját egy 2015. évi konferencia adta. Egy évvel később, 2016-tól indult meg a Szegedi Tudományegyetem több tanszékének (többek között az angol, magyar, informatikai és számítógép analitikai tanszékek, valamint az egyetem Klebelsberg Egyetemi Könyvtára) az együttműködésével a feldolgozás, amelynek 2019-től a DARIAH-projekt is a részese. A kutatók célja, hogy kritikai és interaktív analízist végezzenek a szövegeken, vagyis a projekt tagjai a szövegek feldolgozásán túl tartalomelemzéssel is foglalkoznak. A módszertanuk két pillérre épül: 1) metaadatok és szövegfeldolgozás-elemzés; 2) a szövegek szoros és távoli olvasása. Az AVOBMAT olyan felhasználóbarát nyelvi interfésszel bír, amelyet több nyelven is lehet használni, a működése pedig a mesterséges intelligencia mellett nyelvfeldolgozásos technológiákkal egészül ki. Az elvégzett mintavételt követően (kulcsszavas keresés) pedig külön szófelhőbe gyűjtve illusztrálható egy-egy meghatározó, szövegekhez kapcsolódó jelenség az előfordulás gyakorisága alapján.

Michael Gervers a Torontói Egyetemről vezette fel a torontói székhelyű D.E.E.D.S. (Documents of Early England Data Set)-projektet, amely középkori, többnyire angol, keltezetlen oklevelek datálási problémájának a megoldásával foglalkozik. A projekt igen hosszú múlttal rendelkezik, 1975-ben alakult meg, s az adatfeldolgozási technológia időközbeni fejlődésével párhuzamosan jutott el mai formájához, a digitális bölcsészethez. Az angol adatoknál maradva: meglepően sok keltezetlen oklevél jellemzi az 1066-tól a 14. századig tartó időszakot. A torontói csapat által alkalmazott algoritmust a statisztikával foglalkozó Gelila Tilahun ismertette, amely 75%-os pontossággal képes egy megközelítőleg szűk határra, +/- 7 évre eső időintervallumra szűkíteni egy oklevél keletkezési idejét a nyelvi formulák analíziséből kiindulva. A fennmaradó 25%-os bizonytalanság nem az algoritmus hibájából ered, hanem a forrásokban keresendő, mivel többnyire a hamis oklevelek esetében még a jól programozott algoritmus bevetése sem vezet megoldásra. Az algoritmus azért működik jól, mert az azt működtető kutatók olyan szómintázatokat határoznak meg, amelyek a legnagyobb gyakorisággal fordulnak elő egy szövegben. Ezt a kitételt pusztán nyelvi okok tették szükségessé, mivel a szóhasználat folyamatosan változik, ezért ezt a változékonyságot bele kellett kalkulálni az algoritmus munkavégzésébe is.

A European Research Council által támogatott, a tavalyi évben elindult, grazi digitalizációs projekt (From Digital to Distant Diplomatics) még a munkafolyamat elején tart, így a kezdeti fázist ismertette a projekt vezető kutatója, Georg Vogeler. Itt a kutatócsoport már meglévő előzményekre támaszkodik, korábban létrehozták a monasterium.net oldalt (az oldalon magyar nyelven is olvasható több tartalom), amely több európai levéltári anyagot tartalmaz, akár egy-egy népnyelvű kifejezésre (az olasz beginák egyik megnevezésére, a pinzochera szóra keresve például két 14. századi firenzei dokumentumot is találatként jelenít meg az oldal, megtudható a levéltári dokumentum pontos levéltári száma a fond leírástól egészen a folio számozásig, valamint a dokumentum fizikai paramétereinek a leírása). A grazi kutatócsoport ötvözi a klasszikus, diplomatikai ismérveket és vizsgálati szempontokat (formula, írásmód, kibocsátó, címzett, tanúk, hitelesítési módok, írnok) a modern digitalizációs technikával abból a célból, hogy mindenki számára könnyen elérhetőek és kutathatóak legyenek ezek a források. A cél elsősorban az, hogy az óriási mennyiségű, lekövethetetlen és nehézkesen kereshető források közepette létrejöjjön egy olyan digitális tár, amely révén gyorsabban és egyszerűbben lehet az adatokra rákeresni.  Bár megvannak az egyedi forrássajátosságok, a regionális jellegzetességek vizsgálata is fontos, így az Ausztriával szomszédos országok középkori forrásanyagát is feldolgozzák és összevetik az adatbázisban lévő valamennyi anyaggal. Ehhez a grazi csapatnak komoly kapcsolati hálója van, együttműködnek például a beginák vizsgálatát újragondoló, nemzetközi kutatóhálózattal (a hálózatot a montreali székhelyű Sorores-projekt fogja össze), illetve kapcsolatban állnak a levéltárosok nemzetközi szervezetével, az ICARUS-szal is.