Deep Learning Demonstrator "Looking to Listen at the Cocktail-Party"

Menschen sind in der Lage, in einer Umgebung mit lauten Hintergrundgeräuschen den Fokus auf ein sprechendes Gegenüber zu legen und einen Grossteil der Störgeräusche auszublenden. Dies nennt man den Cocktailparty-Effekt. Damit die Zuordnung erleichtert werden kann, analysieren wir das Gesicht der sprechenden Person anhand von Merkmalen, wie zum Beispiel die Bewegung des Mundes. Wir stellen demnach intuitiv eine Verbindung zwischen den wahrgenommenen visuellen wie auch akustischen Informationen her.

 

Basierend auf diesem Prinzip wurde in dieser Bachelorarbeit mithilfe küstlicher neuronaler Netze ein Sprachseparationsmodell nachgebildet. Dieses wurde anhand eines grossen Datensatzes trainiert. Dieser enthält Video- und Audioaufnahmen von simultan sprechenden Personen sowie die gewünschten Ergebnisse der Sprachseparation - die reine Tonspur jedes Sprechers. Daraus lernt das Modell Muster zu erkennen, welche auch die Trennung von unbekannten Audio- und Videodaten ermöglichen.

Weitere Informationen

Datum 08.09.2019
Typ Bachelorarbeit
Studierende Sereina Scherrer
Carmen Halbeisen
Dozenten Prof. Dr. Klaus Frick
Partner -