Synthetische data, een oplossing voor de ontwikkeling van AI-toepassingen?

Gepubliceerd op: 13 juli 2021

Beschikbaarheid van en toegang tot data is cruciaal voor de ontwikkeling van AI-toepassingen. Voor veel organisaties (en zeker voor startups en scale-ups) vormt snelle beschikbaarheid van data een enorm struikelblok. Uitdagingen zijn te vinden in de beschikbaarheid van relevante data, bereidbaarheid om data beschikbaar te stellen en steeds strenger wordende (privacy) wet- en regelgeving. 

Zonder data, geen datagedreven innovatie met Artificiële Intelligentie (AI) en de behoefte aan oplossingen is dan ook groot.  Een mogelijke oplossing is het gebruik van synthetische data. Deze opkomende oplossing wordt ook onderstreept door bijvoorbeeld Gartner*, die voorspelt dat tegen 2024 60% van de data die gebruikt wordt voor de ontwikkeling van AI- en analysetoepassingen synthetisch zal zijn gegenereerd. 

Inzet van Artificiële Intelligentie 

AI gegenereerde synthetische data, wat is dit precies? Waar originele data wordt verzameld via interacties met individuen wordt synthetische data gegenereerd door een computeralgoritme dat volledig nieuwe en kunstmatige datapunten genereert. Nieuw is het om AI toe te passen in het data syntheseproces om de gegenereerde synthetische data dusdanig te modelleren dat het de kenmerken, relaties en statistische patronen uit de originele dataset nabootst. AI gegenereerde synthetische data is een nieuwe oplossing om eenvoudig en snel over veel representatieve data te beschikkenSyntho, expert in AI gegenereerde synthetische data, wil hiermee een sterke basis bouwen om datagedreven innovatie (bijvoorbeeld met AI) te realiseren en heeft met deze propositie onlangs de Philips Innovation Award gewonnen.  

Welke uitdaging lost het op?

Het resultaat van deze use case gaat veelgestelde vragen omtrent het gebruik van synthetische data beantwoorden. Wat is de waarde van synthetische data? Wanneer is dit wél een oplossing en wanneer is dit minder een oplossing? Wat zijn de beperkingen? En hoe verhoudt synthetische data zich tot andere Privacy Enhancing Techniques (PETs)?  

Syntho en SAS gaan samen AI gegenereerde synthetische data met de originele datasets vergelijken en beoordelen op datakwaliteit, juridische validiteit en bruikbaarheid. Hierbij wordt  in kaart gebracht wat de toegevoegde waarde van synthetische data is, wanneer synthetische data minder bruikbaar is en welke vervolgstappen organisaties en de NL AIC nu zouden moeten en kunnen zetten om de ontwikkeling en toepassing van AI te stimuleren. Het gebruik van synthetische data wordt ook in een breder perspectief geplaatst door het te vergelijken met reeds bestaande Privacy Enhancing Technologies (PETs).  

Kennisdeling met deelnemers NL AIC staat centraal

Door het daadwerkelijk genereren van synthetische data is het mogelijk om deze te vergelijken met de originele data en vervolgens te beoordelen op datakwaliteit, juridische validiteit en bruikbaarheid. De volgende uitkomsten worden gedeeld en beschikbaar gesteld aan de deelnemers van de NL AIC, met als doel kennisdeling te bevorderen en de vragen omtrent synthetische data te kunnen beantwoorden: 

  • Het kwaliteitsrapport. 
  • De eindpresentatie. 
  • Een training Privacy Enhancing Technologies (PETs), waar eveneens andere PET’s worden behandeld, zoals encrypten, pseudonimiseren, anonimiseren etc.  
  • Een synthetische versie van een openbaar beschikbare dataset.  

Mede mogelijk gemaakt door: 

In deze use case werken SynthoSAS en de NL AIC samen om de beoogde resultaten te realiseren. Syntho is expert in AI gegenereerde synthetische data en SAS is marktleider in analytics en biedt software voor het verkennen, analyseren en visualiseren van data.

Meer informatie

Geïnteresseerd? Bezoek voor meer informatie over synthetische data de website van Syntho of neem contact op met Wim Kees Janssen.

* Predicts 2021 – Data and Analytics Strategies to Govern, Scale and Transform Digital Business, Gartner, 2020. 

Delen via: