In 2017 deed één van ons, Auke Zwaan, uitgebreid onderzoek om te kijken of Nederlandse overheidswebsites metadata uit hun bestanden halen voordat ze deze publiceren. Wat bleek? Bij geen van de meer dan 1500 onderzochte websites was sprake van het stelselmatig wissen van metadata.
Sterker: in 85 procent van de onderzochte documenten werden één of meerdere gebruikersnamen van de auteurs aangetroffen. Door deze informatie in een dashboard samen te voegen, werd gedemonstreerd hoeveel informatie een hacker kan vergaren.
Na het onderzoek van 2017 is in 2018 door ons (Dutch Crown IT) een soortgelijk onderzoek uitgevoerd, dit keer met als scope meer dan 150 grote tot zeer grote (internationale) organisaties. De uitkomst? Bijna precies hetzelfde! In een enkel geval bleek dat een organisatie daadwerkelijk stappen had ondernomen om metadata te verwijderen van haar publieke documenten, maar in alle andere gevallen was hiervan geen sprake.
Metadata bestaat uit “tags” die een waarde hebben. Voorbeelden van dit soort tags zijn ‘Create Date’, ‘Page Count’, ‘Title’, enzovoort. In documenten gemaakt met Microsoft Office (.docx, .xlsx, .pptx, etc.) wordt standaard de gebruikersnaam van de auteur opgeslagen in de ‘Creator’-tag. Opent een collega hetzelfde bestand, en slaat hij het op? Dan verschijnt ook diens gebruikersnaam in de metadata, in de ‘Last Modified By’-tag. Zo kun je van een bepaald document zien dat er twee mensen samengewerkt hebben.
Het openbaar maken van metadata heeft twee grote gevolgen: kwetsbaarheid voor criminelen die er misbruik van kunnen maken, en overtreding van privacyregels conform de AVG.
Misbruik voor phishing
In het eerste onderzoek is op basis van deze informatie per overheidswebsite een ‘samenwerkingsnetwerk’ gemaakt: wie heeft met wie samengewerkt, wanneer, en hoe vaak. Zo ontstaat een beeld van de sociale contacten binnen en buiten een organisatie. Voor een hacker kan dit waardevolle informatie zijn voor het opstellen van een spearphishing-mail.
Bijvoorbeeld: een crimineel weet dat Mark en Sandra samengewerkt hebben aan een document met de titel ‘Jaarrapportage 2020’. De aanvaller weet ook dat ze beide samengewerkt hebben met een andere gebruiker met de naam ‘John’. Hij zou dan de volgende phishing-mail op kunnen stellen (met malware in de bijlage):
“Hoi Mark,
Ik heb wat wijzigingen aangebracht aan de jaarrapportage (zie bijlage); John was het niet helemaal eens met de versie die nu op de website staat, was te verwachten..…Kun jij je licht hier even over laten schijnen? Zie je bij de borrel!
Groet, Sandra.”
Denk heel even na over bovenstaand voorbeeld. Zou u, als u Mark was, de bijlage openen, wetende dat u inderdaad samengewerkt heeft met Sandra, en dat John uw manager is?
Werktijden afleiden
Een volgende stap in het onderzoek was het maken van tijdlijnen. Door voor alle documenten van een auteur alle ‘Create Date’-tags op te slaan, kon precies bekeken worden wanneer deze persoon het meest actief was. Hieruit ontstonden patronen die bijvoorbeeld een indicatie gaven van de gemiddelde werktijden (als iemand alleen tussen 8:00 en 16:00 documenten creëert), een vaste vrije dag (als er geen documenten aangemaakt worden), of soms een vaste vakantieperiode.
Een hacker zou deze informatie kunnen toevoegen aan zijn spearphishing-mail. Bij de al aanwezige informatie over de samenwerkingsnetwerken, kunnen nu ook zinnen worden toegevoegd als:
“(...) toen je op vakantie was hebben John en ik document X gepubliceerd, kun je er toch nog even naar kijken?”
Op zichzelf staand zijn deze stukjes informatie misschien niet van grote waarde, maar alle beetjes informatie bij elkaar kunnen leiden tot een spearphishing-mail die zo goed is dat een slachtoffer niet eens twijfelt of deze nep is.
Verouderde software
Naast metadata-tags over auteurs bestaan er ook specifieke tags die informatie bevatten over gebruikte software. Hoewel deze tags vaak niet van grote waarde waren (vaak komt bijvoorbeeld ‘Microsoft Office Word 2016’ terug, maar zonder specifiek patch-level), waren er situaties waarin verwijzingen stonden naar bijvoorbeeld Windows Server 2003 (out-of-support sinds 14 juli 2015). Het behoeft weinig uitleg dat dit voor een hacker een belangrijke indicator is.
Recentelijk is gebleken hoe snel malware en ransomware zich kunnen verspreiden via verschillende bedrijven (denk bijvoorbeeld aan WannaCry en NotPetya). Voor een hacker is daarom de ‘Company’-tag interessant. Soms blijkt hieruit welke externe partij documenten creëert voor een organisatie. Door bij een phishingmail misbruik te maken van deze bestaande vertrouwensrelatie tussen de twee organisaties, wordt de kans groter dat een slachtoffer klikt op de bijlage.
Privacyrisico’s
Behalve voor de veiligheid leveren metadata ook risico’s op voor de privacy, te weten overtreding van de Algemene Verordening Gegevensbescherming (AVG of GDPR): persoonsgegevens mogen alleen worden verwerkt als daar een van de grondslagen voor geldt. Bij het verwerken van metadata zal dit vaak het ‘gerechtvaardigd belang’ zijn. Er is sprake van zo’n belang als de afweging tussen de ernst van gevolgen voor de persoonlijke levenssfeer van de betrokkene en het belang van de organisatie doorslaat in het voordeel van de organisatie. Een voorbeeld:
Een advocatenkantoor houdt door metadata-opslag (‘Author’-tag) bij welke advocaat op welk moment aan een dossier heeft gewerkt. Mocht er wat fout gaan, dan weet het kantoor wie hiervoor verantwoordelijk is. Ook voor beveiliging kan verwerking van deze metadata van belang zijn. De inbreuk op de persoonlijke levenssfeer van de medewerker is acceptabel en het belang waarschijnlijk ‘gerechtvaardigd’.
Soms is dit niet het geval, vooral niet als metadata onbewust worden verwerkt: een instelling publiceert een rapport over een maatschappelijk gevoelig onderwerp, dat bijvoorbeeld in debat komt in de Tweede Kamer. Auteurs willen niet persoonlijk kunnen worden aangesproken op de inhoud, zeker niet als hun naam in de metadata staat en ze verbonden blijken te zijn aan een politieke partij.
Deze situatie heeft zich daadwerkelijk tijdens ons onderzoek voorgedaan. Vanuit journalistiek oogpunt is dit wellicht waardevolle informatie om haar rol als tegenmacht te kunnen uitoefenen, maar voor betrokkene(n) is het minder prettig.
Verwerking door derden
Het verzamelen van metadata door derden is recent onderwerp van discussie geworden door de DPIA van het Rijk op Google Workspace (voorheen G-Suite Enterprise / Education), de analyse van privacyrisico’s. Google verzamelde ‘diagnostische gegevens’ van gebruikers, metadata. Google noemt dit samen met andere typen data ‘Service Data’ en was van mening dat het deze informatie als verwerkingsverantwoordelijke voor eigen doeleinden mocht verwerken.
Het risico was echter dat Google de gegevens commercieel kon inzetten voor reclame en dat konden lekken. Google heeft daarop de verzameling van metadata beperkt. Maar hoe gaan andere softwareleveranciers hiermee om?
Conclusie
Na het onderzoeken van meer dan 250 organisaties, sommige zeer groot, internationaal en in gevallen zelfs behorend tot de vitale infrastructuur, blijken metadata aanwezig te zijn in bijna elk document. Dit houdt dus risico’s in voor beveiliging en voor privacy. Daar moeten organisaties veel meer aandacht aan besteden, zowel in huis als met leveranciers. Hoe zit dat bij u? Hier vindt u een Exiftool voor het bekijken en bewerken van metadata:
*) Auteurs: Auke Zwaan is ethisch hacker in de financiële sector, hij is bereikbaar via auke.zwaan@os3.nl. Wiebe Zwaan is werkzaam als Privacy Officer bij een groot handelshuis, hij is bereikbaar via wiebe@dutchcrownit.nl. Een versie van dit artikel verscheen eerder in InformatieBeveiliging