Emotieherkenning door systemen

Uit een combinatie van gezichtsuitdrukking en spraak.

(Automatic Human Emotion Recognition - A Multimodal Approach).

Vanuit het overkoepelende ICIS concept werkt een aantal van de vele ICIS-onderzoekers aan de verbetering van de interactie tussen mens en systemen.
Zoals Dragos Datcu, die onder leiding van Prof. drs. dr. Leon Rothkrantz (TU Delft), promotie-onderzoek doet naar emotieherkenning door systemen uit een combinatie van gezichtsuitdrukking en spraak.

Mensen gebruiken heel wat non-verbale communicatie. Zonder woorden kunnen wij alleen al met ons gezicht laten zien hoe we ons voelen. En anderen kunnen dat heel goed en snel weer van ons gezicht aflezen. Kijk maar eens naar de stripfiguur hieronder. Waarschijnlijk herkent u zijn emoties feilloos (zie de oplossing).

Gezichtsuitdrukkingen
Tekening: Roel Smit

Ook eigenschappen van onze spraak, zoals volume en intonatie, dragen bij aan het herkennen van emoties.

Systemen die ons ‘begrijpen’

Als het mogelijk is om zonder ‘woorden van betekenis’ bij mensen emoties te herkennen, zouden we dat dan machines kunnen laten doen? Het zou wel heel handig zijn. Stel, dat uw TV, mobiele telefoon, beveiligingscamera, of misschien zelfs huisrobot, uw emoties herkent en daarop reageert. Waarschijnlijk zou u dan makkelijker met die apparaten kunnen werken, omdat ze u beter ‘begrijpen’. En wordt bijvoorbeeld elektronisch vergaderen veel effectiever. Of, herkennen we kwaadwillende passagiers in het openbaar vervoer eerder. Tal van toepassingen zijn mogelijk, waarover verderop meer.

Combinatie gezichtsuitdrukking met spraak

“De psycholoog Paul Ekman heeft zich jarenlang beziggehouden met emotionele gezichtsuitdrukkingen. Hij definieerde een beperkt aantal basale veranderingen in het gezicht, die samenhangen met het samentrekken of ontspannen van gezichtsspieren. Hij noemt die veranderingen Action Units, waarmee alle emotionele gezichtsuitdrukkingen beschreven kunnen worden.

Promovendus Dragos Datcu heeft deze theorie gebruikt om een toepassing voor automatische emotieherkenning te realiseren.
Doel van het onderzoek en het prototype is om de herkenning van emoties via gezichtsuitdrukkingen te combineren met die van emoties in stemgeluid. Vanuit de idee dat die combinatie machines rijkere informatie geeft voor een betere herkenning”, vertelt promotor Leon Rothkrantz.

Van gezichtsherkenning naar emotieherkenning

“Misschien kent u systemen voor automatische gezichtsherkenning. Bijvoorbeeld bij winkels, zoals in de Utrechtse binnenstad, waarbij iedere klant op de foto gaat. Daardoor kan het systeem winkeldieven een volgende keer herkennen en mogen ze de winkel niet in. Daarbij wordt geen emotie gemeten. Dat is hier ook niet nodig en zou alleen maar ruis opleveren in de metingen.

Maar bij een autotype van het merk Lexus, dat al een systeem heeft om knikkebollende bestuurders te herkennen, zou emotieherkenning een mooie aanvulling zijn. Dan zou het ook kunnen reageren als de bestuurder bijvoorbeeld te gestresst of te geëmotioneerd is om veilig te rijden.”

En zo zijn er meer omstandigheden waarin emotieherkenning toegevoegde waarde biedt. Er zijn ook al pilotprojecten. Bijvoorbeeld het SAFEE project, waarbij camera’s in vliegtuigstoelen op basis van gezichtsuitdrukkingen terroristisch gedrag proberen te voorspellen.

“Ook bij de NS is er een pilot”, vult prof. Rothkrantz aan. “Op een aantal stations zijn er informatie- en verkoopzuilen met virtuele baliemedewerkers. Een soort avatars die de klanten te woord staan. Het is wel heel vervelend als die onder alle omstandigheden op dezelfde manier reageren. Altijd maar breed glimlachend of even breedsprakig, terwijl ik gehaast ben om een trein te halen. Via emotieherkenning kunnen deze virtuele medewerkers op een gepaste manier reageren.”

Wat wordt onderzocht?

Er is dus al veel onderzoek naar emotieherkenning en er zijn al pilots met toepassingen. Het onderzoek van Dragos Datcu, en het systeem dat hij gebouwd heeft, voegt daar belangrijke kennis aan toe. “Allereerst combineert Datcu beeld met spraak, wat het systeem rijkere informatie geeft voor een betere herkenning. Ten tweede werken de meeste onderzoekers met statische beelden, foto’s. Nieuw in het werk van Dragos is dat hij ook videobeelden gebruikt, waarbij je de informatie van het ene beeldframe gebruikt bij de analyse van het volgende. Ook dat geeft een zuiverder meting, hoewel je zou kunnen volstaan met foto’s. Maar beweging geeft vaak aan dat er iets aan de hand is. Bijvoorbeeld als je agressie in openbare ruimten wilt meten. Dan maken heftige bewegingen duidelijk dat er waarschijnlijk iets aan de hand is. Zeker als daar veel boze gezichten driftig bewegen”, vult prof. Rothkrantz aan.

Maar hoe kun je een systeem automatisch de emotie laten aflezen van bewegende hoofden, terwijl je niet wilt volstaan met foto’s? Dan moet je om te beginnen op de een of andere manier het gezicht in beeld kunnen ‘vangen’ en vasthouden gedurende een periode om de meting te kunnen uitvoeren. Het systeem van Datcu kan het. Maar eerst meer over de meetmethoden.

Het onderzoek en systeem van Dragos Datcu kent twee meetmethoden voor het herkennen van de emotie in de gezichtsuitdrukking.
Als eerste meet het de verandering tussen punten op het gezicht (zie afbeelding 1).

Datcu: “Bijvoorbeeld de afstand tussen de top van het voorhoofd en puntje van de kin neemt toe bij verbazing. En zo is er voor iedere emotie een patroon dat een machine zou kunnen herkennen. Als die maar gevoed is met de juiste informatie hierover.

Keypoints emotieherkenning

Daarnaast biedt de vorm van het gezicht aanknopingspunten. Elke emotie heeft invloed op veranderingen in de contouren van mond, ogen en wenkbrouwen” (zie afbeelding 2).

Gezichtsvorm emotieherkenning

Ten slotte combineert Datcu de gezichtskenmerken met eigenschappen van de spraak rond dat moment. Immers, voor analyse van gezichtsuitdrukkingen kan een foto genomen op een bepaald moment voldoende zijn, maar voor spraakanalyse is altijd een tijdsinterval nodig (zie afbeelding 3). 

Gezichtsvorm plus geluid

Resteert nog de uitdaging om bewegende gezichten in beeld te krijgen en gedurende een periode ‘vast’ te houden om te kunnen meten. Onderstaande video toont aan dat het systeem van Dragos Datcu dit kan.

 

Resultaten

Uit vele experimenten blijkt dat het systeem emoties goed herkent. Bovendien heeft het onderzoek nieuwe wetenschappelijke modellen en inzichten opgeleverd rondom het fenomeen emotieherkenning. Er zijn zelfs ideeën om het systeem in productie te nemen.

Bijzonder aan dit specifieke onderzoek is onder andere de tijdsdimensie die is ingevoerd. Het systeem van Datcu meet, in tegenstelling tot andere systemen, de gezichtsuitdrukkingen en spraak gedurende een periode. Daarnaast is de combinatie gelaatsuitdrukking met spraakanalyse uniek.
De meeste universiteiten hebben specialisten in de afzonderlijke disciplines beeldverwerking en geluidsverwerking. De combinatie wordt nog niet zoveel toegepast. De onderzoekers binnen ICIS behoren tot pioniers op dit terrein.
Niet voor niets is Datcu’s onderzoek op de conferenties waar het gepresenteerd is, zeer hoog gewaardeerd.
 

Wat hebben we eraan?

De onderzoeksresultaten en het systeem bieden de opstap naar tal van intelligente toepassingen, bijvoorbeeld:

  • Digitale fotocamera’s / webcams die op basis van emotie opnamen sorteren
  • Entertainment robots / helpende robots voor ouderen die op emotie reageren en handelen 
  • Consumentenonderzoek voedingsmiddelen op basis van gezichtsuitdrukkingen
  • Beveiligingssystemen op basis van emotieherkenning
  • Computer games die inspelen op emotie
  • Intelligente, automatische besturing van alledaagse apparaten: auto’s, slimme woningen, huishoudelijke apparaten die reageren op emotie

Zie ook een video lecture van Dragos Datcu.

Download de project PDF

 

CHIM

CHIM is de afkorting van Computational Human Interaction Modeling.

Dit cluster houdt zich bezig met slimmere mens-machine interactie.

Met andere woorden: hoe kunnen we ervoor zorgen dat informatiesystemen mensen ‘begrijpen’, zodat bijvoorbeeld de bediening van apparaten makkelijker, efficiënter en beter wordt?