Aincient en partners: Slimmer doorzoeken van archieven door de inzet van AI en crowdsourcing

Gepubliceerd op: 22 november 2020

Dankzij de inzet van Artificiële Intelligentie (AI), crowdsourcing 2.0 en Handwritten Text Recognition (HTR) is het mogelijk om meer dan een miljoen scans van historische teksten woord voor woord te doorzoeken. Het doel van het project is slimmer zoeken in archieven afkomstig uit onze proeftuinen: het Stadsarchief Amsterdam, Nationaal Archief en Noord-Hollands Archief.

Zoeken op locatie is echter om meerdere redenen problematisch, terwijl de behoefte hieraan groot is. Samen met de archieven en een crowd aan vrijwilligers creëert Aincient en partners AI-datasets voor locaties. Ze ontwikkelen locatiegericht zoeken in een prototype zoekomgeving waar scans, transcripties, historische kaarten en beeldmateriaal geëxploreerd kunnen worden. Aincient en partners is een consortium van erfgoed- en AI-specialisten, bestaande uit Aincient, Picturae, Sioux Technologies en Islands of Meaning.

Inzet van Artificiële Intelligentie

De AI-toepassing biedt een oplossing voor het doorzoekbaarheidsprobleem van de archieven en de gebruikers van de archieven, met name op het gebied van locaties. Dagelijks worden archieven online door duizenden gebruikers doorzocht, mede als belangrijke bron voor wetenschappelijk onderzoek. Daarnaast kan deze oplossing worden toegepast in vele erfgoedinstellingen in de publieke sector, in Nederland en in het buitenland.

De afgelopen jaren heeft er een enorme ontwikkeling plaatsgevonden binnen AI op het gebied van Natural Language Processing (NLP). Aincient en partners richten zich binnen NLP op Named Entity Recognition (NER) voor het automatisch herkennen van locaties in historische teksten. Hiervoor wordt gebruikgemaakt van de open source BERT van Google, een deep learning AI-oplossing. In de voorafgaande SBIR-fase zijn er met BERT goede eerste resultaten behaald.

Welke uitdaging lost het op?

Dit project lost meerdere uitdagingen op. De eerste uitdaging is het feit dat locaties slecht zijn te vinden in de omvangrijke online archieven, terwijl hier wel een grote behoefte aan is. Alleen al voor het onderzoeken van de geschiedenis van een eigen huis of stad. Dit geldt zowel voor het zoeken door tekst als via kaarten. De andere uitdaging is de grote schaarste aan datasets om AI op te trainen in de erfgoedsector, ook op het gebied van locaties. Samen met de archieven en een crowd aan vrijwilligers creëert Aincient en partners AI-datasets voor onder andere locaties. Hiervoor hebben zij op crowdsourcingsplatform VeleHanden het project Tag de tekst gelanceerd. In een maand tijd zijn er ruim 10.000 historische teksten voorzien van tags.

Small Business Innovation Research (SBIR)

Aincient en partners participeren in de SBIR ‘Artificiële intelligentie voor publieke diensten’. Fase 1 is succesvol afgerond en op dit ogenblik werken zij aan fase 2, de ontwikkeling van een prototype. Zij doen ook mee aan de SBIR voor het Nationaal Archief, waarvan fase 2 is afgerond en de implementatiefase van start is gegaan. Daarnaast is Aincient lid van de werkgroep Cultuur van de NL AI Coalitie.

Met SBIR wordt gebruikgemaakt van een uitzondering in de aanbestedingswetgeving voor toegepast onderzoek en ontwikkeling. Een maatschappelijke vraag van de overheid staat centraal. SBIR werkt in een getrapte innovatiecompetitie naar de innovatieve oplossing(en) toe. De beste voorstellen doen een haalbaarheidsonderzoek. De beste haalbaarheidsonderzoeken krijgen een opdracht om een innovatie te ontwikkelen. Deze innovatie wordt idealiter beproefd in de praktijk door de potentiële overheidsklant.

In samenwerking met:

Aincient voert het SBIR AI-project uit in samenwerking met het Stadsarchief Amsterdam (proeftuin), het Nationaal Archief (proeftuin), Noord-Hollands Archief (proeftuin), Picturae, Sioux Technologies, en Islands of Meaning.

Delen via: