De techgigant meldde vorig jaar meer dan een miljoen beelden van seksueel kindermisbruik in datasets voor AI-training. Hoe die beelden daar terechtgekomen zijn, blijft een raadsel – en dat maakt het vrijwel onmogelijk om de bron aan te pakken.
Amazon heeft in 2025 een schrikbarend grote hoeveelheid beelden van seksueel kindermisbruik aangetroffen in data die bedoeld was om kunstmatige intelligentie mee te trainen. Het bedrijf deed daarvan melding bij het National Center for Missing and Exploited Children (NCMEC) in de Verenigde Staten – een wettelijke verplichting voor bedrijven die dergelijk materiaal tegenkomen.
Die meldingen veroorzaakten een explosieve stijging in het aantal rapporten dat het NCMEC ontving. In 2025 kwamen er meer dan een miljoen meldingen binnen, tegenover 67.000 in 2024 en slechts 4.700 in 2023. Het overgrote deel van die toename is volgens nieuwssite Bloomberg toe te schrijven aan Amazon’s AI-trainingsdata.
Het schokkende aantal roept ongemakkelijke vragen op over hoe techbedrijven eigenlijk datasets samenstellen, waar ze die vandaan halen, en of ze überhaupt controleren wat erin zit voordat ze miljarden beelden door hun AI-modellen jagen.
Amazon weigert details te geven over herkomst
Hier wordt het verhaal pas echt problematisch. Amazon meldt weliswaar braaf de beelden aan het NCMEC – zoals wettelijk verplicht – maar kan of wil geen specifieke details geven over hoe het bedrijf aan die data is gekomen. Het antwoord blijft steken bij vage verwijzingen naar “externe bronnen”.
Voor het NCMEC is dat vrijwel nutteloos. De organisatie heeft die informatie juist nodig om de oorsprong van het misbruikmateriaal te achterhalen, daders op te sporen en verdere verspreiding tegen te gaan. Zonder concrete details over waar de beelden vandaan komen, kunnen ze daar weinig mee.
Bij vergelijkbare meldingen van andere techbedrijven wordt volgens Bloomberg wel voldoende informatie verstrekt om effectief actie te ondernemen. Waarom Amazon dat niet kan of niet wil, blijft onduidelijk. Dat roept onvermijdelijk de vraag op: weet Amazon zelf eigenlijk wel waar zijn trainingsdata precies vandaan komt?
Hoe scrape je per ongeluk kinderporno?
De vraag hoe meer dan een miljoen beelden van kindermisbruik terecht zijn gekomen in Amazon’s AI-datasets is niet alleen technisch interessant, maar ook juridisch en ethisch cruciaal. AI-modellen worden doorgaans getraind op enorme hoeveelheden data die automatisch verzameld worden door het internet te ‘scrapen’ – het systematisch downloaden van publiek toegankelijke content.
Dat scrapen gebeurt op gigantische schaal en grotendeels zonder menselijke controle vooraf. Bedrijven verzamelen miljarden afbeeldingen, tekstfragmenten, video’s en andere content, en gooien dat in hun trainingssets. Filteren gebeurt vaak pas achteraf, als überhaupt.
Het resultaat is dat ook illegale, schadelijke of anderszins problematische content wordt meegenomen. Dat geldt niet alleen voor kindermisbruikmateriaal, maar ook voor auteursrechtelijk beschermd werk, persoonlijke foto’s, medische informatie – eigenlijk alles wat ergens online staat.
Het feit dat Amazon zoveel kindermisbruikmateriaal heeft aangetroffen, suggereert ofwel dat de bronnen extreem slecht gefilterd waren, ofwel dat het bedrijf data heeft verzameld van plaatsen waar dergelijk materiaal voorkomt. Beide scenario’s zijn zorgwekkend.
“Tijdig ontdekt” – maar hoeveel te laat?
Amazon’s reactie probeert geruststelling te bieden. Via een woordvoerder benadrukt het bedrijf dat de beelden “tijdig ontdekt werden” en verwijderd konden worden voordat een AI-model ermee getraind werd. Dat klinkt als goed nieuws, maar roept meteen nieuwe vragen op.
Wat betekent “tijdig” precies? Werden de beelden ontdekt voordat ze überhaupt verwerkt werden, of pas na enkele verwerkingsstappen? En hoe kunnen we er zeker van zijn dat geen enkel AI-model blootgesteld is geweest aan deze content?
AI-trainingsprocessen zijn complex en doorlopen vaak meerdere fases. Data wordt voorbewerkt, geannoteerd, gefilterd, en gebruikt in verschillende trainingsruns. Het is niet ondenkbaar dat materiaal in vroege stadia al is gebruikt voordat het in latere controlefases werd ontdekt.
Bovendien: als Amazon meer dan een miljoen beelden heeft moeten melden, hoeveel beelden zaten er dan in totaal in die datasets? Hoeveel andere problematische content is mogelijk onopgemerkt gebleven omdat het nét niet illegaal genoeg was om meldingsplichtig te zijn?
Overrapportering als excuus
Amazon claimt bewust aan “overrapportering” te doen – liever een melding te veel dan te weinig. Dat klinkt verantwoordelijk, maar kan ook een manier zijn om de cijfers te relativeren. Mogelijk hebben niet alle gemelde beelden daadwerkelijk betrekking op seksueel kindermisbruik, suggereert het bedrijf.
Maar hoeveel dan wel? Amazon geeft daar geen duidelijkheid over. Het kan gaan om tienduizenden valse meldingen, of om enkele honderden. Zonder die informatie is het onmogelijk om de werkelijke omvang van het probleem in te schatten.
Bovendien lost overrapportering het fundamentele probleem niet op: hoe komt zoveel illegaal materiaal überhaupt in je datasets terecht? Dat Amazon liever te veel dan te weinig meldt, is prijzenswaardig. Maar nog beter zou zijn als die beelden er in de eerste plaats nooit in gekomen waren.
Niet alleen een Amazon-probleem
Het zou naïef zijn om te denken dat dit alleen Amazon betreft. Alle grote techbedrijven die AI-modellen trainen – Google, Meta, Microsoft, OpenAI, Anthropic – werken met gigantische datasets die op vergelijkbare manieren verzameld zijn. Het verschil is dat Amazon blijkbaar daadwerkelijk controleert wat erin zit, of in elk geval meer meldt.
Andere bedrijven zijn opmerkelijk stil over wat zij aantreffen in hun trainingsdata. Dat kan betekenen dat ze minder problemen hebben, maar het kan ook betekenen dat ze minder transparant zijn, minder grondig controleren, of simpelweg minder snel geneigd zijn om te melden.
De AI-industrie werkt grotendeels in een regelgevingsvacuüm. Er bestaan weinig wettelijke vereisten over hoe datasets samengesteld moeten worden, welke controles verplicht zijn, of hoe transparant bedrijven moeten zijn over hun databronnen. Bedrijven bepalen grotendeels zelf wat “verantwoord” is.
Wat nu?
Het NCMEC zit met een enorm probleem. Meer dan een miljoen meldingen zonder bruikbare details over de bron is vrijwel onmogelijk te verwerken, laat staan effectief te onderzoeken. De organisatie is afhankelijk van de medewerking van bedrijven om daders op te sporen en slachtoffers te helpen.
Als Amazon die medewerking niet kan of wil bieden – bewust of onbewust – betekent dat concreet dat misbruik onopgelost blijft, daders niet vervolgd kunnen worden, en slachtoffers geen gerechtigheid krijgen.
Voor toezichthouders en wetgevers zou dit een wake-up call moeten zijn. AI-bedrijven moeten wettelijk verplicht worden om volledige transparantie te bieden over hun databronnen, om vooraf rigoreuze controles uit te voeren, en om volledige medewerking te verlenen bij onderzoeken naar illegaal materiaal.
Het kan niet zo zijn dat bedrijven miljarden beelden verzamelen zonder precies te weten waar die vandaan komen, pas achteraf ontdekken dat er kindermisbruikmateriaal tussen zit, en vervolgens hun schouders ophalen met een vage verwijzing naar “externe bronnen”.
Voor consumenten roept dit fundamentele vragen op over de AI-systemen die ze dagelijks gebruiken. Alexa, AWS-diensten, Amazon’s winkelaanbevelingen – ze zijn allemaal aangedreven door AI-modellen die getraind zijn op datasets waarvan we nu weten dat ze ernstig gecontamineerd waren.
Amazon beweert dat de problematische beelden verwijderd zijn voordat modellen ermee getraind werden. Maar hoe zeker kunnen we daarvan zijn? En hoe zit het met andere bedrijven die misschien minder zorgvuldig zijn geweest, of het gewoon niet gemeld hebben?
De AI-revolutie belooft veel, maar dit incident toont de donkere onderkant: een industrie die zo snel beweegt dat ethische en juridische waarborgen hopeloos achterblijven.







