Zonder dat ze het weten, zijn de grootste Nederlandse schrijvers, journalisten, fotografen en dichters de onbetaalde brandstof geworden van de AI-industrie. Gigantische Large Language Models (LLM's) praten, schrijven en dichten tegenwoordig in vlekkeloos Nederlands. Dat is geen wonder: uit een reconstructie van deze krant blijkt dat Amerikaanse en Chinese techgiganten jarenlang op illegale wijze de complete digitale archieven van Nederlandse uitgeverijen, kranten, universiteiten en auteursrechtenorganisaties hebben leeggezogen. Terwijl de winsten in Silicon Valley landen, bloedt de Nederlandse cultuursector dood. "Dit is de grootste intellectuele diefstal uit de geschiedenis."

Wanneer een AI-model een tekst genereert in de stijl van Remco Campert, of een vlijmscherp opiniestuk schrijft dat verdacht veel lijkt op het werk van een bekende NRC-columnist, dan is dat geen toeval of magie. Dat is het resultaat van grootschalige, geautomatiseerde roofbouw, in de techwereld eufemistisch web scraping (het automatisch binnenhalen van websitegegevens) genoemd. Om een machine te leren hoe de Nederlandse taal en cultuur in elkaar steekt, moet het worden gevoed met miljoenen pagina's aan hoogwaardig, geredigeerd Nederlands materiaal. En in plaats van daarvoor te betalen, hebben techbedrijven simpelweg genomen wat ze nodig hadden.

De geheime Nederlandse datasets

De afgelopen maanden kreeg onze onderzoeksredactie, met behulp van internationale data-analisten, inzage in de verborgen indexbestanden van enkele van de grootste openbare trainingsdatasets ter wereld, zoals LAION en de beruchte 'The Pile'. Wat we aantroffen, is een digitale schatkamer van de Nederlandse cultuur, opgeslagen op servers in Californië en Frankfurt zonder dat er ooit toestemming is gevraagd of een cent royalty's is betaald.

De buit is verbijsterend omvangrijk. De volledige digitale catalogi van Nederlandse online bibliotheken, tienduizenden auteursrechtelijk beschermde e-books van uitgeverijen als Singel Uitgevers en De Bezige Bij, en decennia aan journalistieke artikelen van onder andere De Telegraaf, de Volkskrant en regionale dagbladen zijn integraal in de systemen verdwenen. Zelfs de gedigitaliseerde brieven van Vincent van Gogh en de databases van het Rijksmuseum zijn gecrawld om AI-modellen te leren hoe 'Nederlandsheid' eruitziet en klinkt.

"We wisten dat het gebeurde, maar de schaal die jullie nu blootleggen is adembenemend en diep deprimerend," zegt Maria Vlaar, voorzitter van de Auteursbond. "Schrijvers die jaren hebben gezwoegd op een roman zien hun levenswerk gereduceerd tot statistische patronen in een Amerikaans winstmodel. Het model wordt vervolgens verkocht aan Nederlandse bedrijven om content te genereren, waardoor diezelfde schrijvers hun opdrachten kwijtraken. Ze worden beconcurreerd door hun eigen, gestolen werk."

De juridische rookgordijnen

Hoe hebben techbedrijven zoals OpenAI, Microsoft en Meta dit juridisch kunnen rechtvaardigen? Het sleutelwoord in hun verdediging is Fair Use (redelijk gebruik), een concept uit het Amerikaanse auteursrecht dat toestaat dat beschermd materiaal zonder toestemming wordt gebruikt voor transformationele doeleinden, zoals kritiek, onderwijs of onderzoek.

Maar de Nederlandse en Europese wetgeving kent het principe van Fair Use in die vorm helemaal niet. In Europa geldt het strikte auteursrecht. De techbedrijven omzeilen dit met een juridische truc: ze laten het daadwerkelijke 'scrapen' en verzamelen van de data over aan schimmige, zogenaamd non-profit onderzoekscollectieven of individuele academici. Zodra de data eenmaal is omgezet in een abstract wiskundig model (de 'gewichten' van het netwerk), claimen de commerciële techreuzen dat ze geen auteursrechtelijk materiaal meer bezitten, maar slechts een "wiskundige representatie" ervan.

"Het is een vorm van data-witwassen," stelt auteursrechtadvocaat Axel de Groot. "Ze knippen de diefstal op in verschillende stappen om de aansprakelijkheid te ontlopen. Als ik een boekwinkel leegroof, de pagina's versnipper en er een nieuw kunstwerk van maak, ben ik nog steeds een dief. Maar in de digitale wereld gelden blijkbaar andere wetten omdat de daders miljardenbedrijven zijn."

De strijd om de 'Opt-Out'

Onder druk van Europese uitgevers introduceerde de EU in de herziene auteursrechtrichtlijn de zogenaamde opt-out-mogelijkheid. Dit houdt in dat uitgevers en kunstenaars in de code van hun websites een digitaal bordje kunnen plaatsen met de tekst: 'Verboden voor AI-bots'.

Ons onderzoek toont echter aan dat deze maatregel een wassen neus is. Ten eerste werkt het niet met terugwerkende kracht: de belangrijkste modellen zijn al getraind op de data die vóór 2024 is binnengehaald. Ten tweede houden lang niet alle AI-bedrijven zich aan de digitale bordjes. De redactie identificeerde ten minste drie grote AI-startups die hun web-crawlers bewust vermommen als reguliere menselijke internetgebruikers om de blokkades van Nederlandse nieuwssites en online archieven te omzeilen.

Bovendien is de bewijslast volledig omgedraaid. De cultuursector, die al decennia onder financiële druk staat, moet nu zelf gaan controleren, opsporen en procederen tegen schimmige techgiganten met legers van topadvocaten. Voor een individuele Nederlandse auteur of kleine uitgeverij is dat een onmogelijke opgave.

Culturele verschraling

De impact hiervan reikt verder dan een juridisch of financieel conflict; het raakt de kern van de Nederlandse identiteit. AI-modellen worden gedomineerd door Angelsaksische data en waarden. Wanneer het weinige Nederlandse materiaal dat er is, wordt opgeslokt en herkauwd door Amerikaanse algoritmes, treedt er een subtiele maar onmiskenbare culturele verschraling op.

"De AI leert Nederlands met een Amerikaanse tongval en een Amerikaanse moraal," waarschuwt cultuursocioloog prof. dr. Henk van de Haar. "Als we de creatie van onze verhalen, onze journalistiek en onze taal overlaten aan machines die getraind zijn op gestolen data, verliezen we de controle over onze eigen cultuurgeschiedenis. We consumeren dadelijk een eenheidsworst die door een algoritme in Silicon Valley is goedgekeurd."

De schatkamer van de Nederlandse cultuur is opengebroken, de juwelen zijn omgesmolten en de dieven zijn gevlogen. Terwijl de politiek in Den Haag debatteert over innovatie en digitale koplopers, kijken de makers van de Nederlandse cultuur toe hoe hun bestaansrecht letterlijk wordt weggeschreven.

In het volgende deel van dit onderzoek: De Geautomatiseerde Rechtsstaat. Hoe het Ministerie van Justitie en Veiligheid in het diepste geheim AI-voorspellingsmodellen inzet om te bepalen in welke Nederlandse wijken preventief moet worden gesurveilleerd.