11-03-2022

Zijn de bots van NBD Biblion een goede ontwikkeling?

De beslissing van NBD Biblion om boekrecensies voortaan uitsluitend te laten produceren door algoritmen uit de hoek van de kunstmatige of artificiële intelligentie (AI) leidt tot heftige reacties. We zien die reacties niet alleen bij de ruim zevenhonderd mensen die Biblion tot nu toe van boekbeschrijvingen voorzagen. Ook literatuuronderzoekers, docenten en lezers mengen zich in het debat dat zich ontvouwt via blogs, Twitter en ander media. Natuurlijk trekt de discussie ook de aandacht van literatuuronderzoekers bij het Huygens Instituut.

Als literatuuronderzoekers zetten we zelf bij bijna al ons onderzoek computationele technologie in. Nut, zin en effectiviteit van zulke toepassingen valt moeilijk te betwisten. Vanuit die ervaring en expertise menen we dat de stap van Biblion om computeralgoritmes te gebruiken voor de beschrijving van boeken niet alleen een interessante, maar ook een logische, en zelfs een goede ontwikkeling is. Maar er zijn wel wat mitsen en maren.

Eerst maar wat we toejuichen.

Toepassen als hulpmiddel

De jaarproductie van boeken is inmiddels zo groot dat zelfs met een verveelvoudiging van het aantal professionele recensenten niet aan elk boek recht gedaan kan worden met een beoordeling. De meeste boeken worden niet gesignaleerd omdat de menscapaciteit daarvoor ontbreekt. Hun kansen om aangeschaft en gelezen te worden zijn daardoor drastisch verminderd – ze worden eigenlijk gelijk al uitgesloten. Als digitale technologie kan helpen om meer zicht te krijgen op dat enorme aanbod, dan moeten we die technologie volgens ons vooral ontwikkelen en toepassen als hulpmiddel.

Onderzoekers en programmeurs die deze technieken toepassen en ontwikkelen kennen over het algemeen heel goed de beperkingen en gebreken van de techniek. Een flinke internationale gemeenschap van alerte filosofen, ethici, sociale wetenschappers, mediawetenschappers en (digitale) geesteswetenschappers volgt deze ontwikkelingen bovendien nauwlettend en kritisch. Misverstanden, misbruik en misstanden in de toepassing van machine learning en AI-technieken worden daarom meestal snel ontmaskerd. Het lijkt ons nuttig als we deze experts ook aan het woord laten voordat we plannen voor de toepassing van algoritmen aan de schandpaal nagelen.

Menselijke black box

Maar laten we het probleem daarnaast ook eens vanuit een ander perspectief bekijken. Presteert een groep van om en nabij de zevenhonderd mensen beter dan een paar digitale bots die boeken beschrijven? In de zevenhonderd menselijke hoofden in deze groep zitten allerlei cultureel bepaalde aannames over wat een goed geschreven boek is. Er zitten ook allerlei subjectieve meningen in over welke onderwerpen belangrijk en interessant zijn, over welke verhalen saai zijn, wat cliché-beeldspraak is en over wat een mooie stijl is.

Die zevenhonderd mensen vormen welbeschouwd een beangstigend kleine doorsnee van het lezerspubliek dat zij zeggen te bedienen. Als het voorbeeld in Tzum als doorsnee mag gelden, dan valt er over de kwaliteit van de menselijke black box nog wel wat te discussiëren. Die review getuigt van nogal wat zelfverzekerdheid. “Meesterwerk” is het oordeel. Maar wie bepaalt dat dan? En op grond waarvan? Hoeveel zou een reviewer die het heeft over lekker lezen “bij een knapperend haardvuur en gedempt licht” weten over de leesgewoonten van de honderdduizenden heel verschillende lezers die boeken lenen bij de bibliotheken? Ons menselijke brein is vrij aardig in het maken van effectieve keuzes binnen één beperkte context. Maar ons individuele brein is eigenlijk slecht toegerust om zich een representatief en pluriform beeld te vormen van de duizelingwekkende diversiteit van het lezerspubliek en de grote verscheidenheid in leesbehoefte van dat publiek, en dus weinig geschikt om te bepalen welk boek ‘goed’ is voor welke lezer. Er is niet één archetypische lezer waarvoor we reviews kunnen schrijven, maar bij het schrijven van reviews gaat de menselijke recensent wel uit van zo’n archetypische lezeres. Recensenten schrijven onbewust en onbedoeld toch vaak reviews voor mensen die het lekker vinden om een dik boek bij het knapperend haardvuur te lezen. Daar heb je als hiphop minnende jongere echt heel weinig aan. (En ook dat is al weer een aanname.)

Elite van recensenten

Het publiek voor Nederlandse boeken is steeds groter en steeds diverser geworden en heeft leesbehoeftes die veranderen door tijd, cultuur, maatschappij en gebeurtenissen. Dat publiek laat zich daarom ook steeds minder gelegen liggen aan wat een elite van recensenten lezenswaardig en goed vindt. Liever kijken ze even op Goodreads wat andere lezers van een boek vonden en reiken ze de NS Publieksprijs uit aan een roman die de professionele kritiek het nog niet waard vond om dat gezellig knapperende haardvuur mee aan te steken.

Wij denken daarom dat bibliotheken die een steeds diverser publiek moeten bedienen en die overspoeld worden door een gigantisch boekenaanbod inderdaad veel behoefte hebben aan goed vergelijkbare scores voor boeken op een aantal vaststaande aspecten die gevalideerd zijn op de bevindingen van duizenden lezers.

Algoritmen hebben in dit opzicht in ieder geval één onbetwistbaar voordeel: ze kunnen integraal alles lezen wat geproduceerd wordt aan boeken, en ze kunnen dat binnen een paar seconden. De kunst is natuurlijk om ze vervolgens iets nuttigs te laten doen met die informatie. Dat is het moeilijke stuk: het meetbaar en repliceerbaar aanwijzen van eigenschappen van teksten die relateren aan observeerbare leeservaringen bij lezers met verschillende maar bekende achtergrond. We doen hiernaar bij het Huygens Instituut al een flink aantal jaar onderzoek. Door die ervaring weten we hoe moeilijk het is om dat te doen. Wat we ook weten is dat algoritmen er nog niet al te best in zijn, maar dat menselijke recensenten er nog slechter in zijn.

En dat brengt ons tenslotte bij wat we minder vinden aan de situatie.

Radicale keus

De radicale keus van Biblion om alle menselijke recensenten eruit te gooien en even bruusk te kiezen voor uitsluitend machinaal geproduceerde beschrijvingen, wekt ook bij ons wat verbazing, want we weten dat de kwaliteit van recommender-systemen staat of valt bij voortdurende evaluatie. Steeds weer opnieuw blijkt dat zulke systemen voortdurend kritisch getest moeten worden om zeker te weten dat een algoritme wel doet wat je verwacht dat het doet. En evalueren doe je door je resultaten steeds weer te vergelijken met wat menselijk beoordelaars vinden. Maar die heeft Biblion met een niet al te handige ‘move’ in de communicatie behoorlijk tegen zich in het harnas gejaagd. Hoe gaat Biblion waarborgen dat hun lerende algoritme niet binnen de kortste keren een hyper-radicale leesvoorkeur ontwikkelt als er geen duidelijk proces is voor continue evaluatie?

Zorgvuldig geheim

Omdat Biblion de software van Bookarang gebruikt, is zowel het primaire machine learning-proces als het evaluatie-proces onbekend. Uit bedrijfsbelang hield Bookarang de werking en de bron van zijn software namelijk altijd zorgvuldig geheim. Met betrekking tot die transparantie hebben wij dan ook wel vraagtekens en twijfels, bijvoorbeeld ook omdat de metadata die Bookarang gebruikt, afkomstig is van uitgevers. En we weten dat uitgevers sommige metadata met het oog op de verkoop ‘pragmatisch’ toekennen. Denk aan non-fictie boeken die het label “literaire roman” krijgen als ze daarmee meer kans maken om zichtbaar te zijn in de fysieke of online boekwinkel. Daarmee is die metadata al behoorlijk biased, zoals dat heet. Het is onduidelijk hoe het geautomatiseerde proces met zulke bevooroordeelde data omgaat.

Daarnaast is onduidelijk hoe Bookarang zijn algoritme weerbaar heeft gemaakt tegen de culturele en maatschappelijke vooroordelen die zonder uitzondering zijn ingebouwd in data. Let wel: in data, niet in het algoritme. Een lerend algoritme kan nog zo goedbedoeld, correct ontwikkeld en geëvalueerd zijn, als je vervolgens dat algoritme uitsluitend voedt met fascistische teksten krijg je vanzelf een recommender-systeem met een licht rechts extremistische leesvoorkeur. En dat is een stuk minder gechargeerd gesteld dan je misschien denkt. De boeken die wij lezen zijn ook data die getuigen van onze vooroordelen en voorkeuren. Hetzelfde geldt voor de uitgevers en hun beslissingen over welke boeken ze wel en welke ze niet uitgeven. Eventueel elitarisme en systematisch racisme in onze leescultuur wordt feilloos door computer-algoritmen overgenomen en gepropageerd.

Transparantie is key

Onze conclusie is daarom: ja, we moeten vooral gebruikmaken van nieuwe computationele en digitale technieken, want die bieden veel mogelijkheden om tot betere afstemming tussen leesvraag en leesaanbod te komen. Maar we moeten dat alleen doen als we die technologie ook transparant en kritisch kunnen bestuderen en evalueren.

Dat laatste lijkt in het geval van Biblion en Bookarang nog niet te kunnen. Wij zouden graag zien dat NBD Biblion een audit (formele software-inspectie) van de Bookarang-technologie door onafhankelijke externe experts laat uitvoeren. Die experts kunnen dan inventariseren hoe het proces er nu uitziet en welke data er worden gebruikt om de beschrijvingen te genereren. Expertise voor zulk kritisch onderzoek van AI-technologie is in Nederland ruim voorhanden. De onderzoekers van het Huygens Instituut die zich bezighouden met boeken, lezers en AI zijn van harte bereid om een rol te spelen bij zo’n audit en hun bevindingen met iedereen te delen. Boeken, lezers en alle technologie die hen verbindt liggen ons na aan het hart.

Karina van Dalen-Oskam, Marijn Koolen, Julia Neugarten en Joris van Zundert