GPT-NL: Veilige en ethische AI om de Nederlandse samenleving te versterken

Gepubliceerd op: 29 november 2023

Met de lancering van ChatGPT in 2022 werd de kracht van AI en Large Language Models (LLM’s) voor het eerst duidelijk voor het grote publiek. Velen ontdekten de voordelen van de technologie, maar verschillende kwesties met betrekking tot bedrijven als OpenAI en de technologie achter hun oplossingen vragen om zorgvuldigheid. Ze zijn bijvoorbeeld niet transparant over de gebruikte algoritmen en datasets, waardoor het onmogelijk wordt om deze te controleren of aansprakelijk te stellen voor mogelijke onethische of schadelijke resultaten. Het is ook onduidelijk wat er gebeurt met de informatie die we in het model invoeren en wie er toegang toe heeft, dus we kunnen er niet van uitgaan dat onze privacy wordt gerespecteerd.

Bovendien hangt de kwaliteit van de output niet alleen af van de kwaliteit van de datasets waarop een model wordt getraind, maar ook van de hoeveelheid data. Dit is een probleem voor talen als het Nederlands, dat wereldwijd door ongeveer 22 miljoen mensen wordt gesproken. De meeste, zo niet alle, LLM’s worden getraind op datasets die zeer weinig Nederlandse data bevatten, wat van invloed is op de kwaliteit van de Nederlandse output. Wat Nederland wel heeft, is een sterke onderzoeks- en kennisbasis op het gebied van AI waarop kan worden voortgebouwd, een uitstekende netwerkstructuur met relevante publieke, private en academische partners en een solide digitale infrastructuur. Daarnaast is er een groeiende behoefte aan een sterk Nederlandstalige LLM die voldoet aan de Nederlandse en Europese regelgeving op het gebied van privacy en ethiek, transparant is over de gebruikte algoritmen en datasets, en zich houdt aan de Nederlandse culturele normen. Dit heeft geleid tot het project GPT-NL.

Beperkingen van huidige taalmodellen

Het Nederlands Forensisch Instituut, de initiatiefnemer van het project, heeft een sterke geschiedenis in het gebruik van LLM’s. Ze gebruiken deze modellen voor verschillende doeleinden, zoals het analyseren van grote hoeveelheden gegevens op bewijs van criminele activiteiten. “Taalmodellen zijn al jaren onmisbaar bij opsporingswerk”, zegt Erwin van Eijk, hoofd van de afdeling Digitale en Biometrische Sporen bij het NFI. “Het is voor mensen onmogelijk om de enorme hoeveelheden data binnen het beperkte tijdsbestek te analyseren dat ons werk vereist. Bovendien wordt AI gebruikt om onderzoekers te beschermen tegen onnodige blootstelling aan traumatiserende inhoud. Maar onze taalmodellen hebben beperkingen omdat we niet over voldoende middelen beschikken om uitgebreidere technologie te ontwikkelen, wat vooral nodig is omdat berichtenuitwisseling in criminele circuits steeds cryptischer wordt. Wel beschikken we over een solide basis van beschikbare data, algoritmen, expertise en ervaring waar we op kunnen voortbouwen voor het GPT-NL project.” vervolgt Erwin.

Verbinden van het AI-ecosysteem

Het gebruik van taalmodellen als ChatGPT is voor het NFI praktisch onmogelijk, omdat de resultaten van de modellen in strafzaken worden gebruikt en daarom transparant moeten zijn in hun werking en naleving van wettelijke voorschriften. Maar de zorgen over bestaande LLM’s gelden voor een veel breder scala aan organisaties en toepassingen. Erwin ziet daarom de potentie voor veel organisaties in Nederland, uit de publieke, private en academische sector, om te profiteren van een uitgebreider Nederlands taalmodel.

“Om toegang te krijgen tot de middelen die nodig zijn voor dit project, moesten we onze krachten bundelen met andere organisaties en een gezamenlijk doel definiëren. Security Delta (HSD), het Nederlandse veiligheidscluster, en de Nederlandse AI Coalitie (NL AIC), zagen vanaf het begin de urgentie en de potentie van een Nederlands AI-taalmodel. Ze hebben zeer goede connecties en hebben geholpen de relevante organisaties aan boord te krijgen om dit project te realiseren”, zegt Erwin.

Erwin van Eijk, Saskia Lensink, Joris den Bruinen

Snellius: De Nederlandse Nationale Supercomputer

LLM’s vereisen een zeer hoge rekenkracht en een geavanceerde hardware-infrastructuur. “Als veiligheidscluster kenden wij de perfecte partner om die infrastructuur te faciliteren”, zegt Joris den Bruinen, hoofd van Security Delta (HSD) en de werkgroep Veiligheid, Vrede en Recht van de NL AIC. “In SURF bundelen onderwijsinstellingen en onderzoeksinstituten hun krachten om digitale diensten te ontwikkelen en in te kopen. Het is een publieke organisatie die is opgebouwd rond de behoefte aan gedeelde toegang tot digitale infrastructuur en onderzoeksdata. SURF heeft de Nederlandse Nationale Supercomputer Snellius enerzijds, en anderzijds het vertrouwen dat nodig is om een breed scala aan partners bereid te vinden om hun datasets op het platform te delen”, aldus Joris.

Hoe de Nederlandse samenleving zal profiteren

ChatGPT biedt tal van potentiële voordelen voor de Nederlandse samenleving. “Zoals Erwin al zei, zijn er een groot aantal potentiële toepassingen voor GPT-NL. Voor alle duidelijkheid: het project omvat niet het ontwikkelen van modellen voor specifieke toepassingen; het richt zich op het bouwen van het structurele fundament waarop een oneindig aantal op maat gemaakte modellen kan worden gebouwd”, zegt Saskia Lensink, NLP-specialist bij TNO. “Meerdere overheidsorganisaties kunnen baat hebben bij GPT-NL, al was het maar om hun communicatie af te stemmen op het taalgebruik van hun burgers”, vult Joris den Bruinen aan. “Het taalmodel dat voor het GPT-NL-project is ontwikkeld, zal worden geëxploiteerd op basis van een licentiestructuur, met verschillende tarieven voor academisch, niet-commercieel en commercieel gebruik.”, zegt Joris. “Zo kunnen bedrijven, inclusief start-ups, daarbovenop commerciële toepassingen ontwikkelen. Dit zorgt voor soevereiniteit in Nederlandse producten en diensten, resulterend in economische toegevoegde waarde”, vervolgt hij.

Enkele voorbeelden zijn te vinden in de gezondheidszorg, waar een dergelijk model medische professionals zou kunnen ondersteunen door bijvoorbeeld transcripties van gesprekken met patiënten samen te vatten, wat vereist dat de gegevens veilig worden opgeslagen volgens de Europese privacywetgeving. In het onderwijs zien we dat de huidige AI-modellen een Amerikaanse context en Amerikaanse waarden in hun oplossingen bieden, iets wat we misschien niet willen voor onze kinderen. Hoewel de huidige modellen voorlopig kunnen volstaan, kan GPT-NL, wanneer het beschikbaar komt, een waardevol alternatief bieden in dit segment. “We kunnen dit niet echt voorspellen, maar we hebben met ChatGPT de kracht van AI gezien en hoe het een grote verscheidenheid aan commerciële en publieke toepassingen kan ontlokken”, sluit Joris af.

Het belang van samenwerking

Al vroeg in het proces nodigde HSD TNO uit voor het project, wat van cruciaal belang was om het GPT-NL-project te krijgen waar het nu is. TNO beschikt over brede kennis van AI vanuit de grote verscheidenheid aan industrieën waarin zij actief is. Saskia Lensink speelde een belangrijke rol bij het betrekken van de meest geavanceerde experts uit relevante disciplines en organisaties bij GPT-NL. Samen met HSD en NL AIC slaagde Saskia erin om top-AI-experts van 20 partners aan te trekken voor het project Nederlandse AI voor het Nederlands, of kortweg NAIN. Dit project is gericht op een call van het Nationaal Groeifonds, voorafgaand aan het GPT-NL-project. Nadat deze financieringsmogelijkheid verdween om redenen die buiten de invloed van de projectpartners lagen, hebben de experts contact gehouden.

“Dit is van grote waarde voor het GPT-NL project”, zegt Saskia. “Sommige mensen hebben hun bezorgdheid geuit dat €13,5 miljoen niet genoeg is om een Nederlandse LLM op te bouwen, en vergeleken met de soms miljarden dollars die naar commerciële LLM’s gaan lijkt dat bedrag misschien conservatief. Maar er zijn verschillende omstandigheden die dit toch een realistische investering te maken voor de eerste LLM-basisstructuur die we voor dit project hebben gedefinieerd. Dat netwerk van AI-experts van twintig partners is een grote aanwinst die de ontwikkeling zal versnellen en de kosten zal drukken. Daarnaast hebben we al een grote verscheidenheid aan datasets beschikbaar, deels van deze experts en hun organisaties. Ook de rekenkracht en de experts om het aan onze behoeften aan te passen, evenals het gebrek aan commerciële eisen, drukken de kosten omlaag. En we verbinden ons met Europese partners om te leren van hun proces en ervaringen, zoals Zweden, dat hun GPT-SW3-model heeft gebouwd”, sluit Saskia af.

Planning GPT-NL-project

Het GPT-NL project zal in twee fases werken. Fase 1, het eerste jaar, richt zich op de concrete ontwikkeling van het Nederlandse taalmodel. De academische sector is hier actief bij betrokken. De tweede fase is die van de uitbating. Hiervoor zal het programma verbinding maken met de Nationale Supercomputer (Snellius), die de rekenkracht levert die nodig is om het model te laten werken.

Meer informatie?

Geiteresseerd in meer informatie over het project GPT-NL? Bezoek dan onderstaande pagina’s:

Wilt u meer informatie over de werkgroep Veiligheid, Vrede en Recht, dan nodigen we u graag uit deze pagina te bezoeken.

Delen via: