Big data in de rechtswetenschap

Academische piraterij

Miljoenen academische publicaties worden gedownload van illegale online archieven. Balázs Bodó van de Universiteit van Amsterdam onderzocht deze clandestiene, maar volgens hem ook noodzakelijke verspreiding van boeken en artikelen.

*) Onderstaand artikel komt uit Surf Magazine. Hier kunt u een gratis abonnement op nemen.

"Mijn motivatie voor dit onderzoek komt voort uit mijn tijd als docent aan de Technische Universiteit in Boedapest. Mijn studenten moesten gaan concurreren op de Europese arbeidsmarkt. Maar we hadden een probleem: om financiële redenen waren de beste Engelstalige boeken voor het hoger onderwijs in het Westen niet beschikbaar in de Hongaarse universiteitsbibliotheken. Ik had de keuze: of ik gaf mijn studenten tweederangs onderwijs, of ik vertelde ze naar welke website ze konden gaan om het boek illegaal te downloaden.”

Balázs Bodó (Hongarije, 1975) is econoom en onderzoeker naar piraterij bij het Instituut voor Informatierecht (IViR) aan de Universiteit van Amsterdam. Recent publiceerde hij zijn onderzoek naar ‘schaduwbibliotheken’ on der de titel 'The science of piracy, the piracy of science' (deel 1 en deel 2). (Overigens staan de niet wetenschappelijke titels Sex Positions Illustrated en Fifty Shades of Grey bovenaan de lijst sn meest gedownloade titels.)

LibGen en SciHub

Het clandestiene verkeer van wetenschappelijke boeken loopt via zogenoemde schaduwbibliotheken: illegale archieven met wetenschappelijke tijdschriftartikelen, boeken, monografieën en ander academisch werk. "Denk aan diensten zoals LibGen en SciHub, die gratis en onbeperkte toegang tot miljoenen wetenschappelijke artikelen en boeken leveren die normaal gesproken achter een betaalmuur zitten."

De beheerders van een prominente schaduwbibliotheek verstrekten Bodó een dataset. Zijn team bracht zowel het aanbod als de vraag naar wetenschappelijke monografieën, tekstboeken en ander studiemateriaal in kaart. Daaruit blijkt dat zijn studenten en hij niet de enigen waren die daarvan afhankelijk waren. "Onze primaire bevindingen lijken aan te tonen dat piraterij van wetenschappelijke boeken een alomtegenwoordig, wereldwijd fenomeen is."

Zwarte markt

De snelle, wereldwijde groei van de vraag naar wetenschappelijk werk en de steeds krappere financiële situatie van het hoger onderwijs vielen samen met een snelle concentratie en vercommercialisering van wetenschappelijke publicaties in het Westen, legt Bodó uit. "De uitgevers die deze belangrijke informatiebronnen beheersen, kunnen belachelijk hoge toegangstarieven in rekening brengen, ondanks het feit dat alle andere bijdragen aan deze tijdschriften (de artikelen zelf, de peerreviews) gratis door de academische wereld worden geleverd. Deze ontwikkeling van snel stijgende kosten en snel stijgende vraag, ging gelijk op met de wijdverspreide beschikbaarheid van steeds goedkopere digitale reproductietechnologieën."

De andere kant van de medaille

Auteursrechtjuristen, onder wie collega's van Bodó bij het IViR, zullen zeggen dat de wet het downloaden van academische boeken van piratenwebsites verbiedt. "Ik betoog dat deze downloads grote politieke en economische implicaties hebben. Volgens mij is het goed dat meer mensen uit ontwikkelingslanden, zoals India, Brazilië en Oost-Europa, toegang hebben tot academische kennis. Dat is de andere kant van de medaille. Deze schaduwbibliotheken faciliteren een ongekende kennisoverdracht op wereldschaal, waarbij miljoenen mensen nuttige dingen over alle wetenschapsgebieden leren. Ik wilde mijn collega's laten zien dat dit de werkelijkheid is. Je kunt geen verstandige wetten en publicatiestrategieën ontwikkelen als je de realiteit van de zwarte markt niet kent."

Toch blijken de grootste downloaders per hoofd van de bevolking de rijke landen in Noord-Amerika en Europa te zijn. Deze gebruikers hadden waarschijnlijk ook legale toegang via hun instelling kunnen krijgen. Bodó denkt dat in deze regio's de gemakkelijke toegang die schaduwbibliotheken bieden een rol speelt: met één muisklik heb je de complete digitale publicatie. Het enorme aantal illegale downloads betekent ook dat het uitsluitend meten van legale downloads via universiteitsbibliotheken een verkeerd beeld geeft van de impact van academische publicaties.

Tientallen miljoenen downloads

Juridisch onderzoek was traditioneel vooral literatuuronderzoek, zegt Bodó terwijl hij op zijn boekenkast wijst. "Nieuwe onderzoeksthema's zoals kunstmatige intelligentie, digitale informatie en online piraterij vereisen nieuwe onderzoeksmethoden. Er is veel vraag naar rechtswetenschappers die kunnen coderen en kunnen werken met geavanceerde methodes voor statistiek, zelflerende systemen, en tekst- en datamining. De big-data-revolutie heeft ook het juridische vakgebied bereikt en daar moeten we ons op voorbereiden."

Voor zijn onderzoek naar piraatbibliotheken werkte Bodó met een dataset die bestond uit tientallen miljoenen downloadregistraties van 1,5 miljoen boeken. "Ik moest deze dataset ook nog aanvullen met metadata als auteur, jaar van publicatie, legale verkrijgbaarheid in bibliotheken en boekwinkels, prijzen en de geografische locatie van het IP-adres. Daarvoor schreef ik tekstscrapers: software die informatie van webpagina's haalt en analyseert. Die data moest ik ergens opslaan. Dit proces heeft maanden geduurd en vereiste een goede internetverbinding en beschikbaarheid van IT-middelen. Ik had ook een online omgeving nodig waar ik samen met mijn studenten en collega's kon werken aan de analyse van gegevens.”

Eerst wist Bodo nog niet waar ik dit soort IT-infrastructuur kon vinden en dacht erover om een eigen server te bouwen. Uiteindelijk vertelde een collega hem over de HPC Cloud-dienst  van Surf. “Dat was zo'n opluchting, precies wat ik nodig had. Niet alleen in technisch opzicht, ook de ondersteuning van Surf was een droomscenario: ik kon altijd advies vragen hoe ik de dienst optimaal kon gebruiken voor mijn onderzoeksdoeleinden. Toen ik eenmaal HPC Cloud had ontdekt, ging ik ook andere Surf-diensten gebruiken, zoals Surfdrive. We hebben daarnaast een R server en een Jupyter notebookserver opgezet, platforms voor het analyseren van big data. Daarmee kon ik zien wat mijn team aan het doen was en konden we vanuit elke locatie samenwerken. Zo'n nationale infrastructuur is essentieel."

 

Netkwesties
Netkwesties is een webuitgave over internet, ict, media en samenleving met achtergrondartikelen, beschouwingen, columns en commentaren van een panel van deskundigen.
Colofon Nieuwsbrief RSS Feed Twitter

Nieuwsbrief ontvangen?

De Netkwesties nieuwsbrief bevat boeiende achtergrondartikelen, beschouwingen, columns en commentaren van een panel van deskundigen o.g.v. internet, ict, media en samenleving.

De nieuwsbrief is gratis. We gaan zorgvuldig met je gegevens om, we sturen nooit spam.

Abonneren Preview bekijken?

Netkwesties © 1999/2024. Alle rechten voorbehouden. Privacyverklaring

1
0