HET BEDWELMENDE GOOGLE-GEVOEL
Twee jaar geleden had nog bijna niemand
ervan gehoord, nu is de populariteit van Google tot bijna mythische
hoogten gestegen. Het succes heeft Google niet alleen te danken
aan slimme zoektechnologie, maar ook aan goed geoliede pr-machine.
Is Google werkelijk zo goed? Enige nuchterheid is op zijn plaats.
Google graaft diep. Al verschillende keren haalde Google het
nieuws door pikante informatie die gebruikers via dit zoeksysteem
opduikelden. De eerste
keer was in november vorig jaar.
De pers riep Google direct ter verantwoording, terwijl het voor
iedereen met enige internetkennis direct duidelijk was dat het
probleem niet bij Google ligt. De oplossing is simpel: webbeheerders
moeten geen documenten laten rondslingeren op hun server.
Vorige week trok Google wederom de aandacht
vanwege vertrouwelijke documenten. Op de site van blindeninstituut
Bartimeús stonden vertrouwelijke sollicitatiebrieven met persoonlijke
gegevens van kandidaten, zo ontdekte journalist Henk van Ess.
Dit keer wees de internetwereld niet direct de beschuldigende
vinger naar Google. Kennelijk zijn we er al aan gewend geraakt
dat Google een stuk verder kijkt dan de neus van andere zoeksystemen
lang is.
Maar de reactie van Google was voor insiders wel een uitglijder:
'Door een speciaal bestand op de site te plaatsen weet onze zoekrobot
dat hij niet te diep moet graven.' Dit advies is weliswaar goedbedoeld,
maar helpt gebruikers alleen maar van de wal in de sloot.
Wat de woordvoerder namelijk bedoelt, is het bestand robots.txt.
Dit bestand geeft precies aan in welke mappen een zoekmachine
wel en niet mag komen. Hiermee kunnen webbeheerders met omvangrijke
websites hun drukke servers enigszins ontlasten.
De robots.txt is echter nooit bedoeld als beveiligingsmiddel.
Het bestand houdt namelijk wel zoekmachines buiten de deur - althans
de zoekmachines die zich aan de robots.txt-standaard
houden - maar geen hackers. Integendeel, de nieuwsgierigheid van
hackers wordt hiermee alleen maar groter.
Een voorbeeld
van een robots.txt is te vinden bij het ministerie van VROM. Hier
is direct te zien dat de site vermoedelijk ook een map met de
naam 'test' bevat, of ooit heeft bevat. Hackers weten zo precies
waar ze hun pijlen op moeten richten.
Usenet-archief
De pr-machine van Google heeft de internetwereld al vaker zand
in de ogen gestrooid. Een sprekend voorbeeld was eind vorig jaar
het nieuws
dat Google zijn nieuwsgroepenarchief
had uitgebreid van de laatste 5 tot de laatste 20 jaar.
Om het allemaal nog eens extra feestelijk te maken had Google
er heel voortvarend een beknopte
geschiedschrijving aan toegevoegd met gedenkwaardige Usenet-berichten.
Dat bleek een meesterzet: de hele internetwereld reageerde lyrisch
op deze online mijlpalen.
Eerlijk is eerlijk, de reconstructie van dat Usenet-archief
met miljoenen berichten is inderdaad een huzarenstukje geweest.
Maar sommige vragen bleven onbeantwoord. Hoe had Google het bijvoorbeeld
klaargespeeld om al die berichten te achterhalen? Juist in de
jaren tachtig was Usenet nog heel erg versnipperd en werden veel
berichten niet over de hele wereld verspreid. Hoe vind je dan
alle stukjes van de legpuzzel weer terug?
Alleen Salon.com spitte
wat dieper. Wat bleek? Het archief was vooral afkomstig van
tapes van Henry Spencer, een vermaarde UNIX-hacker. Controle op
volledigheid en correctheid aan de hand van andere bronnen was
dus niet mogelijk.
Maar het heeft er alle schijn van dat de tapes van Spencer verre
van compleet waren. Schrijver dezes heeft in de jaren tachtig
enige tientallen berichten gepost in diverse nieuwsgroepen. Geen
enkele is nog via het Google-archief terug te vinden.
Ook uit meer objectieve berekeningen blijkt dat veel nieuwsgroepen
niet compleet zijn. Zo ontbreken van de gemodereerde nieuwsgroep
comp.risks de eerste drie jaargangen. Google pikt pas vanaf april
1987 de
draad op bij Risks Digest 4.74.
Nog een voorbeeld: de nieuwsgroepen rec.games.chess.* genereerden
in de jaren tachtig vele berichten per dag. Maar Google heeft
tot 1 januari 1988 maar 26
berichten uit deze groepen in zijn archief. Dat is waarschijnlijk
maar een paar procent.
Conclusie: een aanzienlijk deel van alle Usenet-berichten heeft
de strijd tegen de vergankelijkheid niet overleefd. Toch beweert
de pr-machine van Google in het artikel van Salon.com optimistisch
dat 'minstens 95 procent' is gered.
Lange domeinnamen
Het laatste staaltje public relations is Google-medewerker Chad,
die onlangs zijn fietstocht door de Verenigde Staten heeft volbracht.
De kop van de speciale
Google-pagina zegt al genoeg: 'One bike. One Googler. One
really long ride.'
En verderop lezen we: 'We leven in een werkelijk prachtig land
en ik voel me gezegend dat ik daar deel van uitmaak. Ik heb zoveel
verschillende mensen ontmoet en ben door zoveel gevarieerde gebieden
gefietst.'
Het is duidelijk: Google staat voor optimisme, voor avontuur
en gemeenschapszin. Wat wil een mens nog meer in deze donkere
tijden van terroristisch gevaar? Hooguit nog een lekker korte
domeinnaam misschien - maar zelfs dat is dankzij Google niet meer
nodig, zo meent journalist Dan Gillmor.
Gillmor beweert in een column
dat Google zo trefzeker de goede webpagina's terugvindt, dat gissen
naar het juiste internetadres niet meer nodig is. Korte domeinnamen
zijn dus overbodig, want dat maakt voor Google toch niets uit.
Vermoedelijk is Gillmor ook al bedwelmd door het optimistische
Google-gevoel. Natuurlijk zijn en blijven korte domeinamen handig,
want ze worden ook vermeld in reclame-uitingen, op briefpapier
en visitekaartjes. Lang niet iedere bezoeker komt via Google binnen.
Gelukkig maar, want als Google werkelijk hét startpunt wordt
van iedere surftocht op het web, dan zou dat in feite tot gevolg
hebben dat de bewegwijzering van internet grotendeels in handen
komt te liggen van een commercieel bedrijf. Dan maar liever geen
Google-gevoel.
[WZ, 24 januari 2002]