Toegang tot Context
Looptijd: | december 2024 – december 2025 |
Subsidieverstrekker: | European Research Infrastructure for Heritage Science, E-RIHS |
Subsidieomvang: | 60.000 euro |
Opvallend: | We werken aan een standaard voor de duurzame ontsluiting van culturele erfgoed datasets, waarbij we ingaan op de specificiteit van dit soort data. Bias, positionaliteit, provenance en historische context spelen daarbij een belangrijke rol. |
Valorisatie: | We ontwikkelen en publiceren open access een concreet format voor de meta-data en omschrijving die de complexiteit en heterogeniteit van culturele erfgoed data weerspiegelt. |
Data-envelopes voor Digitaal Cultureel Erfgoed in de Praktijk
Hoe gaan we in omschrijvingen en metadata om met de specificiteit van culturele erfgoed datasets? Op welke manieren kunnen we bijvoorbeeld transparanter zijn over de bias die vaak verankerd ligt in de data en verantwoord gebruik van historische datasets stimuleren? Kunnen we de invloed van positionaliteit op het ontstaan en bewerken van een bron inzichtelijk maken?
In de geesteswetenschappen en erfgoedsector komen veel datasets beschikbaar voor onderzoek en interdisciplinair gebruik, mede door data-gerichte innovaties en nieuwe digitaliseringstechnologieën. Tegelijkertijd wordt de digitale bewerking van data over cultuurgoederen in de meeste projecten niet op vergelijkbare manier gedocumenteerd, en bieden de huidige metadata-modellen en verschillende dataset-registers niet genoeg ruimte voor een toereikende beschrijving. Om dit probleem aan te pakken is er consensus en draagvlak nodig voor een overkoepelend beschrijvingsmodel voor dataset-ontsluiting die het vinden, delen en hergebruik van data vergemakkelijkt. In dit project werken we verder aan een metadata format dat de complexiteit en heterogeniteit van culturele erfgoed data weerspiegelt en datasets via de FAIR en Open Science principes helpt ontsluiten.
Data envelopes
Momenteel worden in het dataveld en in de machine learning context zogenaamde datasheets gebruikt die de karakteristieken van een data-object, dataset of software systeem in kaart brengen om context toe te voegen en met name technische en commerciële informatie samen te vatten. Analyse en experimenten bij het Huygens Instituut in gesprek met andere partners in het veld hebben aangetoond dat deze versies van datasheets niet volstaan om de complexiteit en heterogeniteit van culturele erfgoeddata goed uit te drukken. Daarom heeft het Huygens Instituut het nieuwe concept van data-envelopes geïntroduceerd, waarbij specifiek ruimte wordt gegeven aan informatie die juist voor dit veld van belang is; voor onderzoekers, het bredere publiek én voor machines.
Dit project, in samenwerking met het Stadsarchief Amsterdam en het Nederlands Instituut voor Beeld en Geluid kent twee doelstellingen. Enerzijds testen we de toepasbaarheid van data-envelopes voor andere typen data (zoals bv. audiovisuele data, foto archieven en administratieve datasets); anderzijds identificeren we technische eisen voor het bewaren en delen van data-envelopes (binnen de organisaties en) via externe catalogi. Deze activiteiten zullen eind 2025 resulteren in een data-envelopes proof-of-concept en implementatieplan voor verdere toepassing en gebruik in het veld.
FAIR en Open Science
Bij het Huygens Instituut zijn we toegewijd aan het toepassen van de FAIR-principes en werken we toe naar een sterke Open Science praktijk. Tegelijkertijd zijn we vanwege onze vele projecten sterk bewust van de complexiteit van historische data. Dit beschrijvingsmodel biedt de mogelijkheid om een balans in dataset-beschrijvingen te bereiken waarbij belangrijke culturele informatie gedetailleerd over verschillende soorten facetten kan worden beschreven door onderzoekers en andere dataset-makers.
Zo incorporeren de data-envelopes ook informatie over provenance (in welke context zijn deze bronnen ontstaan), context rondom de FAIR principes (waar is de data bijvoorbeeld te vinden en in welk format; wat moet iemand weten voordat ze de dataset hergebruiken) en positionaliteit (wie hebben er aan gewerkt en wat zegt dat mogelijk over de bias en blinde vlekken). Bovendien voegen de data-envelopes (in aanvulling op de andere datasheets) facetten toe die daadwerkelijk machineleesbaar zijn en daardoor de interoperabiliteit met andere systemen en vindbaarheid ten goede komen.