Globalise

Looptijd:	Januari 2022 - december 2026
Subsidieverstrekker:	NWO Programma Grootschalige Infrastructuur
Subsidieomvang:	3,8 miljoen euro
Opvallend:	Met de nieuwe onderzoeksinfrastructuur van het project GLOBALISE is het voor onderzoekers in binnen- en buitenland veel eenvoudiger om onderzoek te doen in de ‘Overgekomen Brieven en Papieren’ (OBP) van de VOC.
Valorisatie:	Naar verwachting leveren we begin 2024 een eerste prototype van de onderzoeksinfrastructuur op; eind 2026 komen alle tools en gegevens beschikbaar.

Over een paar jaar is het dankzij het project GLOBALISE veel eenvoudiger om onderzoek te doen in de ‘Overgekomen Brieven en Papieren’ (OBP) van de VOC. Deze documenten uit de 17e en 18e eeuw geven niet alleen een beeld van de organisatie van de VOC en de gekoloniseerde samenlevingen onder haar bewind, maar staan juist ook boordevol unieke gegevens over de volkeren en gebieden waar zij mee in contact kwam.

Uniek werelderfgoed digitaal ontsloten

De OBP vormen maar een deel van het VOC-archief, maar wel het belangrijkste deel. Het is een serie van bijna 5 miljoen handgeschreven pagina’s die vanuit Batavia naar de Republiek zijn gezonden. Van veel documenten is niet precies bekend wat erin staat. Dit komt niet alleen door de omvang van de serie, maar ook door de taalbarrière en het lastige handschrift. Bij GLOBALISE gaan we ervoor zorgen dat het voor iedereen op de wereld makkelijker wordt om met deze documenten onderzoek te doen. De hele serie is recent door het Nationaal Archief in Den Haag gescand.

Van scan naar knowledge graph

We maken deze bron beter toegankelijk door de handgeschreven documenten om te zetten naar computerleesbare tekst. Hiervoor gebruiken we geavanceerde technieken van automatische handschriftherkenning. Vervolgens trainen we taaltechnologische modellen om entiteiten (zoals personen, plaatsen, goederen en schepen), gebeurtenissen (zoals diplomatieke missies, scheepsreizen, oorlogen en opstanden) en dateringen in de tekst te herkennen. Die gegevens – vele miljoenen entiteiten en gebeurtenissen – gaan we ook nog proberen te koppelen aan een ‘digitale encyclopedie’ van entiteiten en gebeurtenissen die we binnen het project uit veel verschillende bronnen samenstellen.

De identificatie van entiteiten en gebeurtenissen door koppeling met gegevens uit de digitale encyclopedie vindt in eerste instantie automatisch plaats, gevolgd door een handmatige controle. Bovendien labelen we de entiteiten en gebeurtenissen met termen uit een GLOBALISE-thesaurus en plaatsen we alle gegevens in hun oorspronkelijke samenhang in een knowledge graph. Voor deze grootschalige oefening verwelkomen we ook bijdragen van gastonderzoekers en geïnteresseerden uit binnen- en buitenland om bijvoorbeeld teksten te annoteren en gegevens te verrijken.

De encyclopedie, de thesaurus en het model dat de relaties tussen de entiteiten en gebeurtenissen beschrijft, worden Engelstalig. Dit maakt het voor onderzoekers met beperkte kennis van het (oud-)Nederlands mogelijk om relevante gegevens op het spoor te komen. Dankzij een makkelijk te bedienen gebruikersinterface kan iedereen zonder technische expertise door de gegevens dwalen, zoekvragen opstellen en visualisaties genereren. Zo maakt GLOBALISE versnelling, vernieuwing en verbreding van onderzoek mogelijk.

Een lange traditie

Met GLOBALISE maakt het Huygens Instituut wederom een belangrijke bron digitaal toegankelijk. We bouwen voort op de expertise die bij eerdere infrastructuurprojecten Golden Agents en REPUBLIC is opgedaan. Daarnaast past GLOBALISE in een lange traditie van ontsluiting van VOC-bronnen: tussen 1960 en 2017 hebben het Huygens Instituut en zijn voorlopers veertien boekdelen uitgegeven met transcripties en uitleg van de Generale Missieven, een serie samenvattende verslagen binnen de OBP. In GLOBALISE zetten we het werk aan de Generale Missieven voort én pakken we nog veel meer documenten mee.

GLOBALISE is een samenwerking van het Huygens Instituut met het Internationaal Instituut voor Sociale Geschiedenis en de afdeling Digital Infrastructure van het KNAW Humanities Cluster, en verder met het Computational Linguistics & Text Mining Lab van de Vrije Universiteit, het de onderzoeksprogramma CREATE van de Universiteit van Amsterdam, en het Nationaal Archief. Het projectteam bestaat uit historici, computationeel linguïsten, dataspecialisten en softwareontwikkelaars. Naar verwachting leveren we begin 2024 een eerste prototype van de onderzoeksinfrastructuur op; eind 2026 komen alle tools en gegevens beschikbaar.