90 likes | 291 Views
Facial Expression Recognition. A Comparison Between Humans and Algorithms. Motivation. Zum Thema Mimikerkennung: Ziel: Mensch-Maschine-Kommunikation 6 universelle Mimiken: Angst, Ärger, Ekel, Erstaunen, Freude, Trauer oft nur minimale Muskelbewegungen -> zuverlässige Erkennung schwierig
E N D
Facial Expression Recognition A Comparison Between Humans and Algorithms
Motivation • Zum Thema Mimikerkennung: • Ziel: Mensch-Maschine-Kommunikation • 6 universelle Mimiken: Angst, Ärger, Ekel, Erstaunen, Freude, Trauer • oft nur minimale Muskelbewegungen -> zuverlässige Erkennung schwierig • Erkennungsrate von Algorithmen: ca. 70% • Fragestellung: • Wie gut erkennt der Mensch Mimiken? -> Umfrage um einen Vergleich zu ermöglichen Technische Universität München Ursula Zucker
Über die Umfrage • Cohn-Kanade AU-Coded Facial Expression Database • 488 Mimik-Sequenzen • keine “natürlichen” Mimiken • kein Kontext • keine ground truth • Umfrage • zufällig gewählte Sequenz soll eingeordnet werden • ca. 250 Teilnehmer • 5413 Klassifizierungen -> ca. 11 pro Sequenz Technische Universität München Ursula Zucker
Betrachtung der einzelnen Sequenzen • Erläuterung: • 1 Zeile = 1 Sequenz • je dunkler desto eindeutiger ist die Klassifizierung • nachträglich sortiert • Ergebnis: • Freude: gut erkennbar • Ärger und Ekel: werden oft verwechselt • Angst: schlecht erkennbar Technische Universität München Ursula Zucker
Paarweise Verwechslung von Mimiken • Ergebnis: • Angst und Erstaunen: werden oft verwechselt • Freude und Ekel: werden selten verwechselt Berechnung: Technische Universität München Ursula Zucker
Konfusionsmatrix • Ergebnis: • Freude: wird gut erkannt • Angst: wird sehr schlecht erkannt, oft mit Ekel verwechselt Technische Universität München Ursula Zucker
Erkennungsrate • Ergebnis: • Michel et. al.: schlechter beim Erkennen von Ärger • Schweiger et. al.: schlechter beim Erkennen von Ekel, Angst, Freude und im Durchschnitt Technische Universität München Ursula Zucker
Zusammenfassung • Probleme: • einseitige Betrachtung: nur visuelle Information • keine Kontextinformation • keine “natürlichen” Mimiken • Fazit: • schlechte Erkennungsrate beim Menschen • leichtes Verwechseln mancher Mimiken • Verwechslung durch gemeinsame Action Units • besser: mehr Informationsquellen einbeziehen (Sprache, Kontext,...) Technische Universität München Ursula Zucker