EOKM zet nieuwe algoritmes en PhotoDNA in

Herkenning kinderporno geautomatiseerd, en ‘shaming’ van slechte hosters

Het woord ‘algoritme’ heeft in de Nederlandse dagbladen een connotatie van verschrikkelijk eng gekregen. Maar je kunt het ook goed inzetten, en druk zetten voor gebruik met naming and shaming van hosters die te weinig ondernemen.

Op 27 mei 2021 toog minister van Justitie en Veiligheid Ferdinand Grapperhaus persoonlijk naar het datacentrum van Maincubes op Schiphol om met directrice Arda Gerkens en medewerkers van het Expertisebureau Online Kindermisbruik (EOKM) het jongste wapen in de strijd tegen online kinderporno in gebruik te nemen: een verbeterde versie van de ‘Hashcheckserver’ of ‘hash database project’.

Dit is in 2019 begonnen met verzameling van hashes, vingerafdrukken van beelden van kindermisbruik. Deze hashlijsten zijn afkomstig uit de databanken met bekende en geverifieerde slachtoffers van kindermisbruik van de Nationale Politie, Interpol en het National Center for Missing & Exploited Children (NCMEC). Ook het bestand van Internet Watch Foundation komt er nog bij.

Via het EOKM is voor iedere hostingprovider een API beschikbaar waarmee ze kunnen toetsen of geüpload beeld op hun servers voorkomt in deze database op de EOKM-server. In 2020 zijn 18 miljard beelden gecheckt volgens het jaarverslag 2020 van EOKM , met zeven miljoen waarschuwingen van Child Sexual Exploitation Material (CSEM) tot gevolg.

Hostingproviders kunnen vervolgens actie ondernemen om te voorkomen dat verdacht materiaal online komt. Er zijn zo’n 30 partijen op de server aangesloten, nog te weinig volgens EOKM. Nederland heeft de twijfelachtige eer de grootste te zijn in ‘image hosting’, niet zelden met obscure bulletproof hosters. Gerkens: ‘In de VS wordt veel meer kinderporno getraceerd, maar vaak bij de grote techplatforms die ook zelf snelle procedures voor verwijdering toepassen. De aanpak van hosting hier is ingewikkelder. Fijn is wel dat steeds meer websites direct zijn aangesloten op onze server.’

Nieuwe technologie

De technologie is aanzienlijk verbeterd. Gerkens: ‘We bieden hostingbedrijven nu de beelden aan met MD5 en SHA1 hashes. We hebben een licentie op de PhotoDNA technologie en dankzij de nieuwe Cisco apparatuur kunnen we die ook gaan toepassen; voor zover een database met beelden deze technologie ook toepast. De andere kant moet die technologie ook hebben om de database te bevragen.’

MD5 en SHA1 hashes werken alleen adequaat als het bevraagde beeld exact overeenkomst met het opgeslagen beeld, terwijl PhotoDNA ook vergelijking mogelijk maakt van foto’s die zijn bewerkt qua verhoudingen, kleur, pixel, grootte etc. en daardoor afwijken van het opgeslagen beeld. PhotoDNA kan bij benadering uitsluitsel geven of het beeld waarschijnlijk kinderporno is. Het algoritme herkent of er personen op een beeld staan, kan leeftijden en de mate van naaktheid schatten.

Vorige week is de verbeterde versie van de beeldvergelijker officieel in gebruik genomen op geschonken Cisco-hardware, ook tot stand gebracht met steun van Justitie en Veiligheid met persoonlijke betrokkenheid van Grapperhaus.

Automatisering van het checken

Daarnaast krijgt EOKM nog meldingen die het zelf moet checken, en de percentuele toename daalt sinds enige jaren volgens de stichting: ‘Het aantal meldingen van online seksueel kindermisbruik lijkt disproportioneel gestegen, maar die groei werd vooral door 1 enthousiast hostingbedrijf veroorzaakt die in een keer 60.000 links bij ons meldde. Zonder deze melding is er sprake van een dalende groei van 25 procent.’

De verwerking is verbeterd. Gerkens: ‘Vroeger kregen we mail, moesten de url knippen en plakken in een browser, kijken of het schadelijke beelden waren, handmatig zoeken wie de hoster is, waar het staat, het contactadres zoeken en melden.’

EOKM heeft het checken en verwerken van deze meldingen geautomatiseerd met het systeem SCART (Sexual Child Abuse Reporting Tool), betaald met geld uit het SIDN Fonds. Gemelde url’s worden automatisch gecheckt. Dat waren er in 2019 ruim 300.000 en in 2020 bijna 750.000. De achterstand van ruim 30.000 meldingen is weggewerkt.

Dat kwam ook door een toename van het aantal medewerkers van 3,5 tot 10. Na correctie van beelden met volwassenen die waren gefilterd, bleven er een kleine 250.000 meldingen van kinderporno over, waarvan 65.000 op Nederlandse servers.

Gerkens: ‘SCART bevraagt ook met de gemelde webpagina onze Hashcheck-server met alle materiaal op die pagina. Daar zit overigens ook vaak legaal materiaal tussen. Dit betekent dat mensen niet meer naar plaatjes hoeven te kijken die bekend zijn op die hashtag-server.’

Algoritme van PwC toegevoegd

Aan dit proces wordt kunstmatige intelligentie toegevoegd van PricewaterhouseCoopers (PwC), voor beelden die niet op de hashtag-server worden herkend. Gerkens: ‘Als je dan de computer de eerste selectie kunt laten doen, of er personen op de beelden staan en of ze waarschijnlijk minderjarig zijn, scheelt dat ook veel handmatig werk. Ook dat moet ons enorm gaan helpen in het verlichten van de werkdruk.

En het systeem geeft ook aan hoe heftig het beeld waarschijnlijk is. Daar kun je bij de inzet van mensen daarna rekening houden. Dan kun je ook een analist die het even moeilijk heeft, bijvoorbeeld die morgen met ruzie met de partner van huis is gegaan, aan het lichtere materiaal zetten.’

Volgens PwC is dat algoritme ook geschikt om op films te kijken aan de hand van beeld en geluid of mogelijk sprake is van video met kinderporno: ‘Voor EOKM gebruiken we AI-technologie om een filter te bouwen dat tegelijkertijd geluid en beelden, zowel bewegend als stilstaand, controleert om online kindermisbruik op te sporen. De tool classificeert het gevonden materiaal in vijf categorieën met verschillende niveaus van schadelijkheid. Dit maakt het voor het EOKM-personeel gemakkelijker om de enorme hoeveelheid onlinemateriaal gerichter te doorzoeken door zich te concentreren op materiaal met een hoog risico op ontoelaatbare inhoud.’

PwC maakt ook een kritische opmerking over alle negatieve media-aandacht voor algoritmes, die niet altijd op een grondige kennis gebaseerd is en al snel uitgaat van ongewenste vooroordelen. Dat is ook reden voor een kritische houding: ‘In theorie zou het mogelijk zijn om op het model te vertrouwen en een handmatige controle achterwege te laten. Maar omdat er ook veel onschuldig materiaal is, en het bestempelen van materiaal als kinderporno ernstige gevolgen kan hebben, is een volledig geautomatiseerd model nog geen optie.’

EOKM kan dankzij de vergaande automatisering het werk verlichten. Dat is immers voor de analisten geen pretje, net zo min trouwens als voor politiemensen die kinderporno bestrijden. De ellende van het moeten bekijken van de beelden in combinatie met de onmacht om de productie in het buitenland aan te pakken, vormt een hoog risico om op te branden.

Naming niet altijd shaming

Hostingbedrijven moeten materiaal binnen 24 uur verwijderen, zo is afgesproken met Justitie & Veiligheid van Grapperhaus. Dat is echter een afspraak en geen wet. Maar de minister is niet wars van wat naming en shaming, dus werd een rapport van TU Delft over hosting van kinderporno (‘CSAM’) openbaar. Uit deze rapportage, vervaardigd door Bestuurskunde onder Michel van Eeten:

Mondiaal hebben Nederland en de Verenigde States het grootste aandeel, elk met meer dan 20 procent van het materiaal. In Europa werd 79 procent van alle URL’s die internationale organisatie van kp-bestrijder Inhope had gevonden, gehost in Nederland.

Dat is veelal niet de schuld van de hostingbedrijven, maar soms wel. In extreme gevallen bieden bedrijven bescherming aan kinderporno-sites met ‘bullet-proof hosting’ en steken gezellig de middelvinger op vanaf bijvoorbeeld de Seychellen.

Dezelfde vier bedrijven hebben de overgrote meerderheid van alle URL’s met kinderporno: 98,03 procent in 2019 en 99,5 procent in 2020. Bovendien wordt de meeste inhoud gehost door domeinen bij één hostingbedrijf: NFOrce met ruim 90 procent! In mindere mate komt er op de servers van KnownSRV en IP Volume veel kinderporno voor. Een vierde partij is Leaseweb, maar vooral omdat het bedrijf groot is, en een klein percentage door het net glipt.

De domeinen met kinderporno wisselen in tijd, met IP-nummers en/of namen, maar blijven vaak wel bij dezelfde hoster. De onderzoekers: ‘Kortom, we houden een ietwat raadselachtig beeld over. De domeinen die de URL’s herbergen, veranderden de afgelopen twee jaar behoorlijk snel, maar de hostingbedrijven met de meeste CSAM blijven min of meer hetzelfde. Met andere woorden, hoewel de domeinen van het ene jaar op het andere veranderen, komen ze op de een of andere manier toch overwegend in het netwerk van dezelfde vier hostingbedrijven terecht.’

Uit een steekproef bleek dat 84 procent van alle CSAM verwijderd is binnen 24uur, dat een verdere 12 procent verwijderd wordt tussen 24-48 uur en dat 4 procent online langer dan 48 uur online blijft – in sommige gevallen meer dan een week;

Van de top 20 domeinen met de meeste kinderporno hadden er in 2020 vier de hashcheckservice ingebouwd op hun website, op aandrang van de hoster. Van deze vier zitten er drie bij NFOrce en bij Leaseweb. De vier domeinen waren verantwoordelijk voor ongeveer 13 procent van alle URL’s met kinderporno.

De last van 'bad hosters' is flink afgenomen volgens EOKM. Op bulletproofboeven komt Netkwesties nog apart terug.

Netkwesties
Netkwesties is een webuitgave over internet, ict, media en samenleving met achtergrondartikelen, beschouwingen, columns en commentaren van een panel van deskundigen.
Colofon Nieuwsbrief RSS Feed Twitter

Nieuwsbrief ontvangen?

De Netkwesties nieuwsbrief bevat boeiende achtergrondartikelen, beschouwingen, columns en commentaren van een panel van deskundigen o.g.v. internet, ict, media en samenleving.

De nieuwsbrief is gratis. We gaan zorgvuldig met je gegevens om, we sturen nooit spam.

Abonneren Preview bekijken?

Netkwesties © 1999/2024. Alle rechten voorbehouden. Privacyverklaring

1
0