ALEXA IN HEFTIG! Wie smart können Systeme mit Sprachkommunikation noch werden?

 

Vorlesungen, Seminare, Praktika, die hier bei uns zu diesem Thema passen:

Natürlich braucht man erst einmal Grundlagenwissen, damit man sich erfolgreich mit elektrotechnischen Themen befassen kann. Dieses Wissen lernt man in den ersten Semestern. Anschließend kann man sich Vorlesungen, Praktika oder Seminare zusammenstellen. Hier sind einmal einige Veranstaltungen aufgeführt, die für das Sprachsignalverarbeitungsthema hilfreich sind.

Kurztitel Inhalt
Muster­erkennung
(Vorlesung)
Man lernt die Grundlagen von Merkmalsextraktion, Mustererkennung und maschinellem Lernen. Neuronale Netze spielen hier natürlich eine wichtige Rolle.
Digitale Signal­verarbeitung
(Vorlesung)
Oftmals sind die Prozessoren in tragbaren Geräten nicht ganz so leistungsfähig wie PCs. Insofern lernt man in dieser Vorlesung, wie man sehr effizient Signale verarbeiten kann und was man tun kann, wenn die Genauigkeit des Computers recht begrenzt ist.
Adaptive Filter
(Vorlesung)
Da die aufgenommenen Signal oftmals mit diversen Störungen überlagert sind, müssen diese Signale erst einmal "gesäubert" werden. Das geschieht mit sich selbst-einstellenden (adaptiven) Systeme, die man z.B. zur Geräuschreduktion und Rückkopplungsunterdrückung nutzen kann.
Digitale Audioeffekte
(Vorlesung)
Hier spielt neben der Sprache auch die Musik eine Rolle. Wenn man einmal wissen will, wie man Sprach- oder Musiksignale modifizieren kann, damit ein besserer Klang erreicht wird, dann ist man hier richtig. Auch das "Innere" von Effektgeräten, wie beispielsweise Gitarrenverstärkern, wird hier erklärt.

 

Ein paar Details zu diesem Thema:

In den letzten Jahren hat die Spracherkennung in viele Bereichen unseres Lebens Einzug gehalten. Große Firmen wie Google, Apple oder Microsoft haben sog. digitale Assistenten auf dem Markt, die wir per Sprache nach dem Wetter von morgen fragen können oder denen wir mitteilen können, welche Musik wir als nächstes hören wollen. Das klappt meist recht gut, aber in manchen Situationen haben diese Assistenten dann auch mal ihre Schwierigkeiten unsere Sprache zu verstehen.

Hier in der Elektrotechnik versuchen wir auch in sehr stark gestörten Umgebungen, wie beispielsweise in einem offenen Cabrio oder in anderen lauten Umgebungen, die Signale der sprechenden Personen mit neuartigen Mikrofonen aufzunehmen und durch geschickte Signalverarbeitung möglichst von den aufgenommenen Störungen zu befreien. Damit klappt dann die Kommunikation mit einem Computer oder auch mit anderen Menschen schon deutlich besser.

Aber auch die Sprache ist manchmal etwas anders als „normal“. Manche von uns bekommen beispielsweise neurologische Krankheiten (Parkinson, Alzheimer, etc.). Neben den Einschränkungen im Hinblick auf Bewegungen ist hier auch oft die Sprache betroffen. Vereinfacht kann man sagen, dass Parkinson-Patienten beispielsweise zu leise und zu undeutlich sprechen. Sprachtechnologien können hier helfen, bisherige Sprach- bzw. Sprechtherapien merklich zu verbessern.

 

Schwierigkeiten, die es zu lösen gilt:

Je stärker ein Signal gestört ist, desto schwieriger ist es, eine gute Trennung zwischen Störung und Nutzsignal (der Sprache) zu erreichen. Glücklicherweise hat es in der letzten Zeit große Fortschritte im Bereich der künstlichen Intelligenz gegeben, so dass nun sehr leistungsfähige Verfahren zur Verfügung stehen, diese Trennung gut hinzubekommen. Allerdings steigt mit den neuen Verfahren auch die Rechenkomplexität dieser Verfahren. Google, Apple, Microsoft und viele andere Firmen bzw. Institutionen lösen dies, indem sie die Berechnungen nicht mehr lokal auf den Geräten durchführen, sondern die Sprachdaten zu einer leistungsfähigen Serverfarm übertragen und dort dann die Berechnungen durchführen. Das Endgerät bekommt dann meist über eine Internetverbindung das Ergebnis mitgeteilt. Das ist eine gute und geschickte Taktik – allerdings wird hierzu auch immer eine gewisse Zeit benötigt, bis alle Daten übertragen sind.

In einigen Anwendungen stört diese Laufzeit aber merklich, sodass immer neue Lösungen gefunden werden müssen, die schneller und manchmal auch personalisierter sind. Hat man beispielsweise einmal einen Menschen in guten (leisen) Umgebungen aufgenommen, so kann man diese "Sprachschnipsel" dazu verwenden, das Signal in etwas schwierigeren (lauten) Umgebungen wieder zu rekonstruieren. Hierzu muss man aber natürlich die richtigen "Schnipsel" auswählen und auch darauf achten, dass man die "Schnipsel" der richtigen Person auswählt (Sprechererkennung).

 

Studentische Projekte zu diesem Thema:

Hier gibt es sehr viele studentische Projekte zu diesem Thema. So haben beispielsweise viele Studierende eine Abschlussarbeit rund um das Thema Sprachsignalverbesserung im Fahrzeug durchgeführt. Dies geschieht dann oft in Kooperation mit der Industrie. Hierzu stehen einige Testfahrzeuge und Labore zur Verfügung, damit man auch mal die Straße ins Labor holen kann und damit immer die gleichen Bedingungen vorfindet.

Aber auch der Bereich der Sprach- bzw. Sprechtherapie wird sogar schon in kleinen Projekten im Bachelorstudium untersucht. Vor kurzem haben z.B. fünf Studierende eine Augmented-Reality-Brille so programmiert, damit sie zur Sprachtherapie für Parkinsonpatienten genutzt werden kann. Dazu wurde dann mit der Neurologie am Kieler Uniklinikum kooperiert. Wenn Ihr mehr über dieses Projekt wissen wollt, dann schaut hier einmal nach.

 

 

Interesse an weiteren Forschungsfragen:

Falls Ihr noch weitere Informationen haben wollt, hier geht es zurück zur Hauptseite.