Nederlandse AI voor het Nederlands (NAIN)

Sinds de introductie van deep learning modellen hebben toepassingen van taal- en spraaktechnologie een vogelvlucht genomen. Computers kunnen nu slimmer met tekst omgaan dan ooit tevoren.

AI kan teksten classificeren, het kan namen, adressen en andere entiteiten herkennen, weten waar een klant om vraagt in een chatbox en het kan zelfs volledige samenvattingen van documenten schrijven. We geven onze telefoons en smartspeakers met onze stem opdrachten en steeds meer organisaties zien kansen in het verder automatiseren van klantenservices of het automatisch transcriberen van gesprekken, vergaderingen, en presentaties. Ook groeien de mogelijkheden om gebarentalen automatisch te transcriberen met een combinatie van computer vision en taalmodellen, en om gebarentaal animaties te genereren met behulp van game technologie. Dit alles wordt mede mogelijk gemaakt door het trainen van AI op grote datasets.

In de praktijk blijkt dat de prestaties echter dalen zodra AI wordt toegepast op talen die gebruikt worden in Nederland, zeker als het gaat om gesproken Nederlandse dialecten, de Nederlandse gebarentaal (NGT), accenten, straattaal of domeinspecifieke taaluitingen. Hoewel er wel degelijk initiatieven bestaan die state-of-the-art AI hebben getraind op grote hoeveelheden Nederlandse data (denk aan BERTje van de Universiteit Groningen), valt er op het gebied van Nederlandse AI nog erg veel te winnen. Zowel op het gebied van kennis en techniek, als op het gebied van de bias en transparantie van taalmodellen.

Het doel van het project is om taal- en spraaktechnologie beschikbaar te maken voor iedereen die het gesproken Nederlands, geschreven Nederlands, of de Nederlandse gebarentaal gebruikt, in welke variëteit dan ook, en daarvoor niet afhankelijk te zijn van de willekeur van grote buitenlandse commerciële partijen. De ambitie is de krachten te bundelen en als Nederland zelf een grote verbeterslag te maken in taal- en spraaktechnologie, met name omdat het verzamelen en transcriberen van relevant trainingsmateriaal niet voor iedere individuele Nederlandse organisatie haalbaar is.

Inzet van Artificiële Intelligentie

NAIN beoogt een infrastructuur voor Nederlandse AI voor Nederlandse talen in te richten in al zijn modaliteiten: Tekst, spraak, en gebarentaal. Op deze infrastructuur worden domeinspecifieke bouwstenen gebouwd zoals bijvoorbeeld veiligheid, zorg en cultuur. Hierbinnen ligt de uitdaging om AI betrouwbaar en verantwoord te bouwen en zal ook grondig worden gekeken naar vraagstukken rondom het delen van data. Het NAIN-project bouwt voort op reeds opgedane kennis en ervaring uit de markt en de onderzoekswereld, bijvoorbeeld het STEVIN-programma en BERTje. Het tracht lopende initiatieven bijeen te brengen om zo tot optimale oplossingen te komen.

Welke uitdaging lost het op?

Het ontwikkelen van een eigen Nederlandse infrastructuur voor spraak, tekst en gebarentaal geeft soevereiniteit. Op dit moment worden namelijk vooral modellen gebruikt voor het Engels, die ontwikkeld zijn door buitenlandse multinationals zoals Google. Bovendien levert een taalmodel dat speciaal ontwikkeld is voor Nederlandse talen potentieel betere prestaties, bredere applicaties en meer controle over de ontwikkeling.

Eerste resultaat

Het NAIN-consortium heeft een landschapskaart van de huidige staat van taal- en spraaktechnologie in Nederland en Vlaanderen samengesteld van waaruit de komende 5 jaar kan worden gewerkt aan de ontwikkeling van state-of-the-art soevereine Nederlandstalige taal- en spraaktechnologie. De resultaten zijn overal in de Nederlandse samenleving bruikbaar, en maakt een enorme diversiteit aan toepassingen mogelijk, met grote publieke en economische waarde.

Samenwerkingspartners

In dit project, onder leiding van TNO, nemen de werkgroep Veiligheid, Vrede en Recht, het ministerie van Justitie en Veiligheid en het NFI deel en wordt er nauw samengewerkt met de NL Spraakcoalitie, werkgroep Cultuur en Media, werkgroep Gezondheid en Zorg, het bedrijfsleven en kennisinstellingen. Er worden subgroepen gestart op onder meer spraak, gebarentaal, tekst, data delen en verantwoorde AI om zo het voorstel inhoudelijk verder te brengen.

Interesse?

Beluister dan ook deze podcast waarin Marlou Snelders (werkgroep Veiligheid, Vrede en Recht en HSD) en Saskia Lensink (TNO) nader ingaan op het project NAIN en op onderzoek naar taal- en spraaktechnologie. Ook komt aan bod waarom en hoe je de burger moet betrekken bij de ontwikkeling van AI.

 

 

Delen via: