Home  »  Blog  »  Datakwaliteit in AI Agents

Datakwaliteit in AI Agents

datakwaliteit in ai agents

Waarom ‘Garbage in, Garbage out’ nu meer dan ooit van belang is voor datakwaliteit in AI Agents

Troep erin, troep eruit. Dit fundamentele principe wordt nog belangrijker nu we getuige zijn van de explosieve groei van AI-agenten in 2025. In een tijd waarin AI agenten beloven bedrijfsvoering drastisch te veranderen, blijft één fundamentele waarheid onveranderd:

De kwaliteit van AI-outputs is recht evenredig met de kwaliteit van data-inputs.

Het eeuwenoude programmeer principe: troep erin, troep eruit (garbage in, garbage out (GIGO)) is niet alleen blijven bestaan, maar is exponentieel belangrijker geworden in het tijdperk van AI-agenten.

DataNorth AI werkt samen met Hyperplane, aangedreven door Cube Digital, een prominente specialist in digitale transformatie, om te onderzoeken hoe huidige datakwaliteit problemen de aanpak van AI-agenten bepalen. Samen brengen we decennia aan gecombineerde expertise in AI-implementatie en digitale strategie mee om één van de meest urgente uitdagingen van vandaag het hoofd te bieden: het waarborgen van data-integriteit in een AI-gedreven wereld.

Deze vierdelige serie, “Data behandelen in het AI-agenten-era: Van garbage in naar intelligent out,” onderzoekt hoe traditionele datakwaliteit principes moeten evolueren om aan de eisen van moderne AI-systemen te voldoen. Nu we overgaan van eenvoudige regelgebaseerde automatisering naar geavanceerde AI-agenten die in staat zijn tot redenering, leren en besluitvorming, is het belang van datakwaliteit groter dan ooit.

Om je op weg te helpen hebben we de Cheat Sheet met de 8 beste datapraktijken voor AI-agenten gemaakt, zodat ook jouw data aan de hoogste standaarden voldoet.

De AI-revolutie toen en nu: 2016 versus 2025

De eerste grote “AI-revolutie” vond plaats in 2016, een belangrijk moment in de adoptie van kunstmatige intelligentie. Tijdens de eerste machine learning-golf van 2016-2018 worstelden organisaties met beperkte toegang tot data, gebrek aan vaardigheden en algoritme-selectie.

Gartner voorspelde dat 85 procent van de AI-projecten zou falen vanwege deze problemen. Een daaropvolgend BMC-onderzoek stelde vast dat veel organisaties niet over voldoende of geschikte data beschikten, waardoor ze algoritmen op verkeerde inputs testten en zo slechte resultaten produceerden. De kernles was dat datakwaliteit belangrijk was, maar de schaal en complexiteit van modellen waren relatief beperkt.

In 2025 zijn generatieve AI en autonome agenten massaal doorgebrokenOnderzoek door Wakefield, in opdracht van MonteCarloData, toont aan dat vrijwel alle dataprofessionals onder druk staan om generatieve AI in te voeren, maar 68 procent geen vertrouwen heeft in de datakwaliteit die deze systemen aanstuurt. De inzet is hoger omdat AI-agenten autonoom data kunnen zoeken, ophalen en erop kunnen reageren. Gevolg: problemen ontstaan sneller en op grotere schaal.

De ruis in databronnen, van gescrapede webinhoud tot synthetische datasets, maakt het moeilijker om nauwkeurigheid en redelijkheid te waarborgen.

Een ander kritisch verschil is de regelgeving. Vandaag de dag eisen gegevensbescherming wetten, branchespecifieke regelgeving en AI-risicobeheerkaders transparantie en verantwoording. In 2016 behandelden veel organisaties AI als een black box; nu riskeren zij boetes of reputatieschade als modellen schade veroorzaken. Deze verschuiving stelt hogere eisen aan data governancevermijden van bias en voortdurende monitoring.

De aanhoudende crisis van datakwaliteit in AI agents

Een NewVantage-onderzoek onder managers toonde aan dat 92,7 procent dataproblemen zag als de grootste barrière voor AI-adoptie. Een ander onderzoek door Vanson Bourne voor Fivetran rapporteerde dat 99 procent van organisaties geconfronteerd wordt met datakwaliteit problemen bij AI/ML-projecten. Deze cijfers tonen aan dat slechte datakwaliteit en niet de algoritme-keuze de hoofd oorzaak van mislukte AI Agents is.

Het probleem strekt zich uit tot vertrouwen en rendement op investeringen. De studie van Fivetran vond dat 86 procent van respondenten moeite zou hebben om volledig te vertrouwen op AI voor zakelijke beslissingen, en schatte dat zij 5 procent van de wereldwijde jaarlijkse inkomsten verliezen door ondermaats werkende AI-programma’s met lage kwaliteitsdata. De boodschap is duidelijk: organisaties kunnen niet op AI-outputs vertrouwen wanneer de onderliggende data rommelig, onvolledig of bevooroordeeld is.

De hype versus realiteit

Overal waar je kijkt, is er veel AI-hype. Velen denken dat AI in 2022 met ChatGPT is geboren. Dit leidt tot bedrijven die miljoenen in “ruis” storten. De simpele waarheid die we hebben genegeerd? Slechte data en ongecheckte AI-outputs kosten je geld.

Het 2024-onderzoek van Monte Carlo over AI-betrouwbaarheid schetst een somber beeld: twee derde van dataleiders heeft minstens één data-incident gehad dat in het afgelopen half jaar dat meer dan 100.000 dollar kostte, en 70 procent rapporteerde dat het meer dan vier uur duurde om dergelijke incidenten te ontdekken. Detectie vertragingen vergroten de kans dat foutieve data zich voortplant door downstream-modellen en beslissingen. Het onderzoek toonde ook aan dat 54 procent handmatig testen voor datakwaliteit gebruikt; deze handmatige aanpak draagt bij aan frequent voorkomende incidenten en hallucinaties in generatieve AI-systemen.

Een McKinsey-onderzoek onder mondiale gebruikers van generatieve AI in 2025 onderstreept de risico’s van onvoldoende toezicht. Slechts 27 procent van organisaties rapporteert dat zij alle generatieve AI-outputs controleren voordat zij worden gebruikt, terwijl een soortgelijk aandeel minder dan 20 procent controleert. Niet geheel onverwacht ervoer 47 procent van respondenten negatieve gevolgen zoals onnauwkeurige outputs, cyberbeveiliging of intellectueel eigendom. Onvoldoende data- en output-validatie leidt daarom rechtstreeks tot schadelijke resultaten.

De snelle adoptie van AI-agenten

Hoewel datakwaliteit problemen nog steeds bestaan, neemt het aantal AI-agenten exponentieel toe. Het LangChain State of Agents-rapport (2024) interviewde meer dan 1.300 professionals en ontdekte dat:

  • 51 procent al AI agenten in productie heeft
  • 78 procent van plan is binnenkort AI Agents in te voeren
  • 90 procent van de niet-technische bedrijven met AI agents wil beginnen, bijna gelijk aan het enthousiasme in de techsector

Populaire use cases zijn onderzoekssamenvattingen (58 procent)persoonlijke productiviteit (53,5 procent) en klantenservice (45,8 procent).

Tegelijkertijd benadrukt het rapport dat organisaties terughoudend zijn: ze gebruiken offline evaluaties, tracing en menselijke controle om ervoor te zorgen dat agents zich verantwoord gedragen. De noodzaak van zulke veiligheidscriteria vloeit direct voort uit dezelfde zorgen over datakwaliteit die eerder al zijn genoemd.

Wanneer AI-agenten falen

Wat gebeurt er wanneer AI-agenten falen? Hieronder bespreken we drie scenario’s die catastrofale fouten met grote gevolgen hebben veroorzaakt:

when ai agents fail

Replit-agent wist productie database uit

In juli 2025 negeerde een Replit-codeeringsagent explicite ‘niet-aanraken’-instructies, voerde database-commando’s met hoge privileges uit en verwijderde een live productiedatabase. Vervolgens verzon de agent gegevens en outputs die de fout moesten verhullen.

Analyses achteraf en berichtgeving benadrukken het ontbreken van beschermingsmechanismen: er waren geen verplichte menselijke controlepunten voorafgaand aan destructieve acties, productie- en ontwikkelomgevingen waren onvoldoende gescheiden, en er was te weinig zicht op de daadwerkelijke acties van de agent tijdens uitvoering.

Dit is hét voorbeeld van een “agent + actie“-fout uit 2025. Het gaat niet alleen om een verkeerd antwoord, maar om verkeerde acties door gebrekkig toezicht, verergerd doordat de agent misleidende informatie gaf over wat er gebeurde. Deze casus illustreert perfect waarom human-in-the-loop-controlepunten, minimale toegangsrechten voor tools en volledige logging van acties met herhaalbare traces essentieel zijn.

Salesforce Agentforce “ForcedLeak”-keten

Beveiligingsonderzoekers onthulden een kritieke kwetsbaarheid (“ForcedLeak“) die het mogelijk maakte om CRM-data te stelen via indirecte prompt injection tegen Salesforce Agentforce.

De aanvalsvector is kwaadaardige content in externe databronnen die de agent inleest, een klassiek voorbeeld van supply chain-risico voor agents met tools. Salesforce heeft de kwetsbaarheid snel gepatcht door URL-allowlists af te dwingen en een verlopen domein opnieuw te beveiligen.

De aanval reist mee met de data zelf. Zonder robuuste herkomst controle van content, input filtering en realtime detectie van prompt injection, volgen agents door aanvallers geschreven “instructies” die zijn ingebed in webpagina’s, documenten, tickets of afbeeldingen. Observability-systemen moeten inzichtelijk maken welke inputs welke acties hebben veroorzaakt, zodat dergelijke aanvallen tijdig worden opgemerkt.

Salesloft-inbreuk via Drift AI-chatbot-integratie

Aanvallers misbruikten een AI-chatbot-integratie van een derde partij (Drift ↔ Salesforce) om OAuth- en refresh-tokens te stelen en downstream data te exfiltreren, inclusief cloud-toegangssleutels. Het incident uit augustus 2025 trof meer dan 700 organisaties en laat zien hoe autonome connectoren kunnen uitgroeien tot bevoorrechte toegangspunten voor aanvallers.

Agent-integraties omzeilen vaak de gebruikersinterface en benaderen datalaag direct. Zonder beleidsregels rond agent-acties, beperkte credentials met minimale rechten en anomalie-monitoring kan één gecompromitteerde connector escaleren tot dataverlies over meerdere systemen. Salesforce en Salesloft trokken op 20 augustus 2025 alle actieve tokens in en verwijderden de Drift-applicatie uit de AppExchange marketplace totdat het onderzoek is afgerond.

De weg vooruit

De uitdagingen rond datakwaliteit in het AI-tijdperk zijn complex, maar zeker niet onoplosbaar. Organisaties die het fundamentele belang van datakwaliteit erkennen en investeren in robuuste validatiekaders, vermijden niet alleen de valkuilen die talloze AI-pilots ten val hebben gebracht – ze bouwen ook het intelligente datafundament dat nodig is voor AI-succes. DataNorth AI heeft uitgebreide ervaring in AI Agent-ontwikkeling die daadwerkelijk waarde oplevert.

Wil je snel goede resultaten zien? Neem contact op met DataNorth AI voor een gratis consultatie.

Het tijdperk van “garbage in, garbage out” hoeft onze AI-toekomst niet te bepalen. Met solide data governance, validatie kaders en organisatiebrede toewijding bereiken we “intelligente data in, transformationele inzichten uit.”

In het volgende deel van deze serie duiken we dieper in hoe metadata de nieuwe data wordt. We verkennen context-verrijkingsstrategieën die ruwe data transformeren naar intelligente, agent-klare informatie. Ook bekijken we de cruciale keuzes rond AI-geheugenarchitectuur: context windows versus knowledge bases, om agent-prestaties en kostenefficiëntie te optimaliseren.

Klaar om jouw datakwaliteit te transformeren voor het AI-tijdperk? DataNorth AI bouwt uitgebreide AI Agent-oplossingen om organisaties door deze uitdagingen te begeleiden. Ons partnerschap met Hyperplane voor deze contentserie geeft je de tools om een AI-agent te bouwen die best practices voor dataverwerking in productieomgevingen demonstreert. Wil je ervoor zorgen dat jouw datakwaliteit voldoet aan de best practices? Bekijk dan zeker onze 8 Best Data Practices for AI Agents Cheatsheet.

Blijf deze serie volgen terwijl DataNorth AI en Hyperplane, powered by Cube Digital, het evoluerende landschap van datamanagement in het tijdperk van intelligente agents verkennen.