Met computerinterpretatie van taal

‘We kunnen straks meten hoeveel de wereld in één dag tijd is veranderd’

Piek Vossen leert de computer om taal te interpreteren. Dat vereist soms een extreem grote hoeveelheid rekenkracht. “‘Deze vorm van supervised learning kun je ook als modern monnikenwerk typeren”, zegt de hoogleraar Computationele Lexicologie en winnaar van Enlighten Your Research 2013.

*) Onderstaand artikel komt uit Surf Magazine. Hier kunt u een gratis abonnement op nemen.

Waarom is het interpreteren van taal zo complex?

“Als wij mensen met elkaar communiceren, lijkt het net of dat allemaal vanzelf gaat. Je staat er niet eens bij stil hoe bijzonder het is dat we elkaar automatisch begrijpen. Wie echter goed naar onze taal kijkt, ziet hoe verbazend vaag en ambigu die vaak is. Daar kom je onmiddellijk achter als je probeert om computers teksten te laten begrijpen.

Veel woorden hebben bijvoorbeeld meerdere betekenissen, die worden bepaald door de context. Zo kan ‘fietsen’ bijvoorbeeld een werkwoord en een zelfstandig naamwoord zijn, en heeft een woord als ‘band’ nog veel meer betekenissen. Voor de computer heeft een zin met een paar van die woorden al snel duizenden mogelijke betekenissen. Een compleet artikel levert miljarden mogelijkheden op.”

Hoe breng je die enorme hoeveelheid mogelijkheden terug tot de juiste interpretatie?

“In verschillende stappen berekent de computer de kans dat een woord een bepaalde betekenis heeft. Dat gebeurt onder meer door de woorden in de omgeving te analyseren. Die omgeving bepaalt immers vaak wat we precies met een woord willen zeggen.

Als er al een connectie is tussen woord A en woord C, en tussen woord B en woord C, dan kan de computer bijvoorbeeld ook een connectie leggen tussen A en C. Dat is toe te passen op het niveau van directe woordassociatie, maar bijvoorbeeld ook als het gaat over een bijvoeglijk of zelfstandig naamwoord. Uiteraard kan deze vorm van machine learning op veel verschillende manieren een incorrect resultaat opleveren.

Daarom moeten mensen de computer vertellen welke gelegde connecties juist of onjuist zijn. Daartoe nemen wij een training corpus, dus een verzameling teksten, handmatig door om de juiste interpretatie vast te stellen. Dat heet supervised learning, maar je kunt het ook als modern monnikenwerk typeren.”

Wat levert al die noeste arbeid op?

“In algemene zin brengen we met z’n allen steeds meer data voort. Zo veel dat het in toenemende mate onmogelijk wordt door de bomen het bos te zien. Ik zie het als een duidelijke verantwoordelijkheid van ons vakgebied om technologie te ontwikkelen die mensen in staat stelt eenvoudig en ongehinderd evenwichtige informatie te verzamelen.

Een onderwerp als ‘vaccinatie’ maakt duidelijk hoe belangrijk dat kan zijn. Een ongeruste ouder van een kind met vage klachten die op het internet gaat zoeken naar informatie over dit onderwerp, wordt geconfronteerd met een aantal fanatieke groepen die het online debat domineren met vaak heel stellige beweringen over vermeende ernstige bijwerkingen.

Aan de andere kant levert de overheid weliswaar informatie aan, maar neemt zij verder niet deel aan de sociale interactie. Mede daardoor kom je al snel terecht in een jungle van onlogische redeneringen en emoties, tot bewuste misleiding aan toe. Met de technologie waaraan wij werken, wordt het veel eenvoudiger alle informatie over een bepaald onderwerp overzichtelijk achter elkaar te zetten. Zo zijn feiten en meningen veel makkelijker te scheiden.”

U werkt momenteel zelf aan een nieuw project genaamd NewsReader. Wat is dat precies?

“Via de databank van LexisNexis, met zakelijke en financiële informatie uit meer dan 35.000 bronnen,

verzamelen we een grote hoeveelheid artikelen. Vervolgens proberen we een aantal vragen te beantwoorden. Welke gebeurtenis wordt beschreven, wie zijn de participanten, hoe zijn zij aan elkaar gerelateerd, waar en wanneer heeft dit plaatsgevonden, welke bronnen zijn verantwoordelijk voor de verspreiding en welke gekleurde informatie hebben zij aan het feitenrelaas toegevoegd?

Zo zou je per dag een helder overzicht kunnen maken van wat er allemaal in de wereld is gebeurd. Minstens zo spannend vind ik het overzicht van welke bronnen dezelfde of juist conflicterende informatie verspreiden, welke informatie ze toevoegen of kopiëren en in welke politieke oriëntatie ze daardoor waarschijnlijk kunnen worden ingedeeld.”

Daarvoor richten jullie je in eerste instantie op financieel-economisch nieuws?

“Inderdaad. De Europese Unie subsidieert dit project met 3 miljoen euro. Als voorwaarde ziet die EU graag dat wij ons richten op gebruikers die kritische beslissingen moeten nemen en daartoe snel over veel hoogwaardige informatie moeten kunnen beschikken. Daarbij is het belangrijk dat deze doelgroep in de toekomst waarschijnlijk goed wil betalen voor deze diensten. Ik heb daar alle begrip voor.

Bovendien is er op dit gebied veel hoogwaardige en gevarieerde informatie beschikbaar. Zo werken we momenteel met een dataset die alle Engelse berichtgeving over de auto-industrie van de laatste tien jaar bevat. Daarvoor gebruiken we de enorme rekenkracht van de systemen van Surfsara, waar we dankzij het winnen van de Enlighten Your Research-competitie twee jaar mee kunnen werken. We bekijken onder meer wat er nodig is om dag in dag uit zo’n groot volume aan data te verwerken. Op dit moment weten we al hoeveel nieuws er dagelijks puur aan volume bij komt.

Hoeveel daarvan daadwerkelijk unieke informatie is, weten we echter nog niet. Als we dat per dag kunnen ‘meten’, kunnen we ook vertellen hoeveel de wereld eigenlijk is veranderd in één dag tijd. Zijn er echt bijzondere dingen gebeurd, of was het alleen maar een herhaling van zetten? Dat zijn vragen waar ik erg enthousiast van word.”

 

Enlighten Your Research: cruciale wetenschappelijke data

Enlighten Your Research (EYR) is een competitie die wetenschappers uit alle wetenschapsgebieden uitdaagt een boost te geven aan hun onderzoek. Deelnemers aan EYR doen onderzoek waarbij de verwerking en analyse van zeer grote hoeveelheden (of een grote diversiteit aan) wetenschappelijke data cruciaal is.

De wedstrijd is een samenwerking van Surf, Surfnet, Surfsara, het Netherlands eScience Center en NWO. Door deze samenwerking kunnen onderzoekers profiteren van een eenvoudige en naadloze koppeling tussen verschillende soorten e-infrastructurele ICT-diensten.

Drie winnaars kunnen gedurende twee jaar gebruikmaken van de e-infrastructuur van Surfsara en Surfnet. Dat is in de vorm van dataopslag, rekentijd, visualisatie en geavanceerde netwerkverbindingen. Ook krijgen ze advies van het Netherlands eScience Center bij het vertalen van datagedreven onderzoekvragen naar effectieve (software)oplossingen. Daarnaast ontvangen zij een geldprijs van 20.000 euro. De twee andere winnaars van EYR zijn Stephen Helms (FOM Instituut Amolf) en Mitra Almasian (AMC).

Gepubliceerd

6 apr 2014
Netkwesties
Netkwesties is een webuitgave over internet, ict, media en samenleving met achtergrondartikelen, beschouwingen, columns en commentaren van een panel van deskundigen.
Colofon Nieuwsbrief RSS Feed Twitter

Nieuwsbrief ontvangen?

De Netkwesties nieuwsbrief bevat boeiende achtergrondartikelen, beschouwingen, columns en commentaren van een panel van deskundigen o.g.v. internet, ict, media en samenleving.

De nieuwsbrief is gratis. We gaan zorgvuldig met je gegevens om, we sturen nooit spam.

Abonneren Preview bekijken?

Netkwesties © 1999/2024. Alle rechten voorbehouden. Privacyverklaring

1
0