KI erkennt GefÃ¼hle in Stimmen von Menschen, GÃ¼tsel Online, GÃ¼tersloh, OWL live

Einsatz laut Max Planck Institut fÃ¼r Bildungsforschung beispielsweise bei Therapiesitzungen.

Tonspuren: Maschinenlernen erkennt GefÃ¼hle richtig. Foto: Luis Jose Rengel, Informationen zu Creative Commons (CC) Lizenzen, fÃ¼r Pressemeldungen ist der Herausgeber verantwortlich, die Quelle ist der Herausgeber

#KI erkennt #GefÃ¼hle in Stimmen von Menschen [Emotionen, nicht »GefÃ¼hle«, Anm. d. Red.]

Einsatz laut Max Planck Institut fÃ¼r Bildungsforschung beispielsweise bei Therapiesitzungen

Berlin, PTE, 20. MÃ¤rz 2024

Entwicklungspsychologen desÂ Max Planck Instituts fÃ¼r Bildungsforschung External Link Â nutzen technische Tools auf Basis KÃ¼nstlicher Intelligenz (KI), um emotionale UntertÃ¶ne in Fragmenten von Aufzeichnungen von Stimmen zu erkennen. DafÃ¼r hat das Team um Forschungsleiter Hannes Diemerling die Genauigkeit der Arbeitsweise von drei Modellen maschinellen Lernens miteinander verglichen.

1,5 Sekunden reichen aus

Laut Diemerling kann maschinelles Lernen dafÃ¼r eingesetzt werden, GefÃ¼hle in Audioaufzeichnungen zu erkennen, die nur 1,5 Sekunden lang sind. »Unsere Modelle erzielten dabei eine Ã¤hnliche Genauigkeit wie Menschen.« FÃ¼r die Studie wurden Schauspieler eingesetzt, die bedeutungslose SÃ¤tze mit einer emotionalen FÃ¤rbung versahen. Die Forscher entnahmen diese SÃ¤tze aus 2 DatensÃ¤tzen. Einer stammte aus #Kanada, der andere aus #Deutschland.

Damit konnte Ã¼berprÃ¼ft werden, ob das maschinelle Lernen GefÃ¼hle richtig erkennen kann und das unabhÃ¤ngig von der Sprache, kulturellen Nuancen und dem semantischen Inhalt. Jeder Clip wurde auf eine LÃ¤nge von 1,5 Sekunden gekÃ¼rzt. So lange brauchen nÃ¤mlich auch Menschen, um das GefÃ¼hl beim Sprechen zu erkennen. Dabei handelt es sich zudem auch um die kÃ¼rzeste mÃ¶gliche LÃ¤nge, bei der das Ãœberlappen von GefÃ¼hlen vermieden werden kann.

Drei Modelle ausgetestet

Basierend auf den Trainingsdaten haben die Experten KI Modelle, die auf jeweils eine von drei Arten arbeiten, untersucht. Bei tiefen neuronalen Netzen (DNNs) handelt es sich um komplexe Filter, die Komponenten von Klang wie die Frequenz oder die TonhÃ¶he analysieren. Das ist zum Beispiel der Fall, wenn eine Stimme lauter ist, weil die sprechende Person wÃ¼tend ist. Ziel dieser tiefen neuronalen Netze war es, die zugrundeliegenden Emotionen zu identifizieren.

Konvolutionale neuronale Netze (CNNs) wiederum suchen nach Mustern in der bildlichen Darstellung von Tonspuren. Das entspricht in etwa der Erkennung von GefÃ¼hlen mittels des Rhythmus und der Beschaffenheit einer Stimme. Das hybride Modell (C DNN) verbindet beide Verfahren und nutzt sowohl den Ton als auch sein visuelles Spektrogramm zur Vorhersage von GefÃ¼hlen. Diese Modelle wurden dann anhand beider DatensÃ¤tze auf ihre LeistungsfÃ¤higkeit getestet.

Ã„hnliche Muster erkannt

DNNs und C DNNs erzielten eine bessere Genauigkeit, als wenn nur die Spektrogramme der CNNs ausgewertet wurden. UnabhÃ¤ngig vom jeweiligen Modell war die Erkennung der GefÃ¼hle mit einer grÃ¶ÃŸeren Wahrscheinlichkeit richtig, als sie durch ein Raten mÃ¶glich ist und damit durchaus mit der Genauigkeit beim Menschen vergleichbar. Dabei war es den Forschern wichtig, ihre Modelle in einem realistischen Kontext anzusiedeln und die FÃ¤higkeiten der Menschen zur Vorhersage als MaÃŸstab heranzuziehen. »HÃ¤tten die Modelle besser abgeschnitten als die Menschen, hÃ¤tte das bedeuten kÃ¶nnen, dass es Muster gibt, die wir nicht erkennen kÃ¶nnen«, so Diemerling.

Die Tatsache allerdings, dass nicht trainierte Menschen und Modelle eine Ã¤hnliche Leistung erbringen, dÃ¼rfte bedeuten, dass beide sich auf Ã¤hnliche Erkennungsmuster verlassen. Die in »Frontiers in Psychology« verÃ¶ffentlichte Studie zeigt aber auch, dass es mÃ¶glich ist, Systeme zu entwickeln, die sofort emotionale Signale interpretieren kÃ¶nnen und so in einer Vielzahl von Situationen live ein intuitives Feedback geben. Denkbar ist das zum Beispiel im Bereich der Therapie oder Kommunikationstechnologien in anderen zwischenmenschlichen ZusammenhÃ¤ngen.

Content bei owl.jetzt â€¦

Content bei Auf SchlÃ¼r â€¦

Content bei GÃ¼tersloh Jetzt!

Kommentieren