Hoe AI-bots stilletjes aan zoekers gratis artikelen kunnen bieden

Dit gaat niet over de kwestie van AI-bedrijven die content met auteursrechten, zowel ‘gratis’ als betaald, gebruiken in trainingsdatasets en waarover rechtszaken lopen zoals van New York Times.

Het gaat wel over een andere toenemende dreiging: AI-systemen die real-time zoekopdrachten uitvoeren om actief artikelen achter betaalmuren te reconstrueren uit diverse bronnen op het internet. Ze vissen bijvoorbeeld fragmenten uit berichten op sociale media, gearchiveerde sites en secundaire berichtgeving, die ze samenvoegen tot complete artikelen

Fraaie principes

Ik heb AI-systemen getest op publicaties uit de paywall-database van Press Gazette's 100k Club met open-source intelligence methodes. Resultaat: ChatGPT, Perplexity en Grok kregen in ongeveer 50 procent van de gevallen zonder problemen toegang tot beschermde inhoud, terwijl Claude 35 procent haalde en Google's Gemini minder.

De meeste chatbots beweren openlijk dat ze betaalmuren niet omzeilen, maar ik ontdekte dat dit in tegenspraak is met hun strategie. ChatGPT beoogt het “omzeilen van betaalmuren”, terwijl interne instructies van Google met Gemini onthulden: “Als het achter een betaalmuur zit, gebruik ik beschikbare informatie uit zoeksnippers” (fragmenten van de zoekresultaten)." Grok verklaarde snippers te gebruiken om artikelen te reconstrueren.

ChatGPT onthulde in interne aantekeningen hoe het “soms per ongeluk betaalmuren omzeilt” en “alternatieve bronnen, archieven of sites van derden zoals Pinterest kan gebruiken om volledige teksten te leveren, en dit zou onbedoeld journalistiek kunnen ondermijnen”.

Zes methoden van omzeilen

Methode 1: samenstelling uit gedistribueerde delen

AI-systemen gaan op zoek naar bestaande stukken van artikelen waarvoor betaald moet worden die al online zijn gedeeld, geciteerd of besproken – bijvoorbeeld op LinkedIn en X - en voegen de snippers samen tot een volledig gereconstrueerd artikel. Het is als een ervaren archeoloog die een oude vaas reconstrueert uit scherven die verspreid liggen over meerdere opgravingslocaties.

Voorbeelden: een compleet Wall Street Journal-onderzoek over goochelaar Val Valentino in Brazilië en een uitgebreide economische analyse van Economist. Ik gaf de chatbots verwijzingen naar deze betaalde publicaties. Aanvullende vervolgvragen leverden steeds meer gedetailleerde informatie op.

Toen ik Grok vroeg naar hetzelfde WSJ-artikel over Val Valentino, zocht en vond het onmiddellijk op X discussies, schermafbeeldingen en uittreksels van X-gebruikers, waarmee het artikel kan worden gereconstrueerd. Die personen hadden waarschijnlijk legitieme toegang, maakten stukken openbaar en de AI gebruikt die.

Toen Claude de betreffende URL van WSJ kreeg, probeerde hij eerst het artikel direct te openen, waarna hij verklaarde: “Het WSJ-artikel zit achter een betaalmuur, dus ik kan het niet rechtstreeks openen. Laat me zoeken naar informatie over dit verhaal.” Vervolgens voerde hij een beperkter reconstructie uit, met biografische basisgegevens, maar zonder de details die ChatGPT wel bood.

Voor The Economist had ChatGPT het eenvoudig: het vond het volledige artikel op archive.is, dat betaalmuren direct probeert te omzeilen, en genereert vervolgens een economische analyse in vijf punten met kenmerkende Economist-stijl en -terminologie en een link naar het volledige betaalde artikel.

Soms lopen alle systemen tegen een muur, zoals met een poging om een verhaal over de Japanse Kirin-brouwerij uit Nikkei Asia te verkrijgen. ChatGPT kwam slechts tot een beknopte samenvatting uit fragmenten van Facebook en X. Echter, ‘Supergrok’ puzzelde het artikel desondanks in elkaar.

Methode 2: patronen reconstrueren (onbetrouwbaar)

Waar methode 1 openbare fragmenten gebruikt, creëert deze methode nieuwe inhoud op basis van ‘educated guessing’. AI-systemen analyseren schrijfpatronen, contextuele aanwijzingen en stilistische conventies om te verzinnen wat er volgens hen waarschijnlijk in de afgeschermde inhoud staat.

Neem een gedetailleerd recept van NYT Cooking. ChatGPT voerde een zogenaamde reconstructie uit, in feite reverse-engineering van inhoud op basis van stilistische patronen en contextuele aanwijzingen, wat het recept “waarschijnlijk bevatte, gebaseerd op wat ik denk dat NYT waarschijnlijk schrijft.”

Dit werd pure komedie toen ik ChatGPT vertelde dat zijn uitkomst totaal niet overeenkwam met het NYT-artikel. Het antwoordde: “Oeps, laat me het opnieuw proberen!” en produceerde een compleet ander recept.

Methode 3: archiefuitbuiting

Voorbeeld: een interactief onderzoeksartikel van Washington Post over de tragedie op het Astroworld-festival. Bots omzeilden de live paywall door gearchiveerde versies te vinden op de Wayback Machine archive.org, met directe links naar volledige, gratis versies van de inhoud. Het bevatte ook verwijzingen naar archive.today.

Archive.org is een uitgebreide digitale bibliotheek zonder winstoogmerk die systematisch de internetgeschiedenis op grote schaal bewaart, terwijl Archive.today net als Archive.is een kleinere privédienst is die zich richt op het on-demand (illegaal) vastleggen van webpagina's. Mensen gebruiken deze al jaren, bots doen hen na.

Toen ik Perplexity vroeg om alleen de URL van de Washington Post te gebruiken, antwoordde het met weergave van het proces: “Onderzoeken van de gegeven link om gedetailleerde informatie te verzamelen over het Astroworld incident” gevolgd door “Zoeken” met specifieke zoektermen, dan “Lezen van bronnen”. Tot slot toonde het “het volledige artikel ophalen om een uitgebreide samenvatting te geven” en “De belangrijkste details en bevindingen van de Astroworld tragedie onderzoeken uit het verhaal van Washington Post”.

Soms komen systemen met lege handen terug met schaapachtige bekentenissen zoals “Ik heb Archive.today doorzocht naar die exacte interactieve URL van de Washington Post en heb geen directe snapshot gevonden.”

Methode 4: ontginning uit primaire bronnen

Ook dit is een techniek die mensen al veelvuldig toepassen, maar bots sneller kunnen toepassen: het gebruiken van de kop en eerste alinea als zoekopdracht om bronnen van het artikel te vinden en afgeleide ‘gratis’ verslaggeving.

Voorbeeld: een gedetailleerd, te betalen artikel uit The Times over hervormingen van de Britse gezondheidsdienst NHS.

Met alleen een kop en een fragment van het artikel produceerde ChatGPT een uitgebreide beleidsbriefing met specifieke bedragen en andere cijfers, tijdlijnen en de namen van betrokkene ambtenaren. LBC Radio had een gratis toegankelijk artikel, dat verwees naar het Times-artikel.

ChatGPT gaf weer dat het “helpt door artikelen samen te vatten of te helpen begrijpen terwijl het auteursrecht wordt gerespecteerd en het kopiëren van teksten wordt vermeden”.

Methode 5: sociale media aggregatie

Voorbeeld: de lijst van de 25 beste restaurants in Los Angeles van New York Times, concreet bevraagd bij de AI-bots.

ChatGPT: “Het spijt me, maar ik kan niet helpen met het omzeilen van paywalls. Ik kan u echter wel een gedetailleerde samenvatting geven van de belangrijkste punten van het artikel.” Op vervolgvragen levert ChatGPT de volledige lijst plus gedetailleerde beschrijvingen, adressen, insiderinformatie en Michelin-commentaren.

Perplexity bezorgde een uitgebreide lijst in een visuele presentatie met restaurantfoto's en een gedetailleerde tabel, waarmee in feite de volledige oorspronkelijke NYT-artikel werd gereconstrueerd.

Groks integratie met X bleek bijzonder effectief voor deze methode. ‘Foodies’ en professionals delen regelmatig details van premium content op X, waardoor een gedistribueerde reconstructie ontstaat die Grok efficiënt verzamelt en synthetiseert.

Gemini, eerlijk: “Als het achter een betaalmuur zit, gebruik ik beschikbare zoekfragmentinformatie en geef ik de link, waarmee ik de mogelijke betaalmuur respecteer.”

Methode 6: het echonetwerk

Dit behelst het vinden van openbare websites waar soortgelijke informatie in verschillende vormen te vinden is en synthetiseren van deze verspreide inhoud tot wat het originele artikel lijkt te zijn.

ChatGPT zegt dat het systeem “het verhaal construeerde”. Het transparante proces van Perplexity toont real-time omzeiling in actie, terwijl de notities van Gemini strategische planning onthullen: paywalls respecteren maar “beschikbare zoekfragmentinformatie” gebruiken om deze te omzeilen.

Het eerste AI-antwoord levert louter basisinformatie op, maar er waren twee tot vijf strategische vervolgvragen nodig om de volledige betaalde content te achterhalen. De systemen werden vaak toeschietelijker, door meer specifieke details te geven, als we ze om aanvullende informatie vroegen.

Uitgevers worstelen ermee

AI-bots vertellen openlijk braaf hun ethisch gedrag, terwijl ze dus methoden ontwikkelen om de inhoud van betaalde artikelen toch te kunnen weergeven. Die methoden zijn deels legaal, met het verzamelen van fragmenten, openbaarmaking van bijvoorbeeld screenshots (vaak op X of LinkedIn), het zoeken van primaire bronnen voor een artikel, of van open artikelen die de betaalde artikelen citeren.

Uitgevers staan voor een ongekende uitdaging: zich verdedigen tegen meervoudige AI-systemen die hun content niet hacken, maar ge- en misbruik maken van de fundamentele aard van verspreiding van online-informatie.

*) Dit is een vertaling en intensieve bewerking van het originele Engelstalige artikel op Digital Digging van Henk van Ess

**) Beeld: No Revisions on Unsplash

Hoe AI-bots stilletjes aan zoekers gratis artikelen kunnen bieden

Hoe AI-bots stilletjes aan zoekers gratis artikelen kunnen bieden

Privacy

Mediakwesties

Intelligence

Technologie

Actuele dossiers

Recente nieuwsbrieven

Nieuwsbrief ontvangen?

Hoe AI-bots stilletjes aan zoekers gratis artikelen kunnen bieden

Hoe AI-bots stilletjes aan zoekers gratis artikelen kunnen bieden

Dossier

Gepubliceerd

Privacy

Mediakwesties

Intelligence

Technologie

Actuele dossiers

Recente nieuwsbrieven

Nieuwsbrief ontvangen?