Automatische Spracherkennung – was sie für Kommunikation und Marketing leisten kann und welche Schweizer Dialekte sie (besser) versteht

Automatische Spracherkennung – was sie für Kommunikation und Marketing leisten kann und welche Schweizer Dialekte sie (besser) versteht

Autor: Antonia Steigerwald

Wissenschaftliche Mitarbeiterin am Institut für Kommunikation und Marketing IKM. Zudem leitet sie den Weiterbildungskurs «Voice Assistants in Business and Marketing».
+41 41 228 99 08 antonia.steigerwald@hslu.ch

Automatische Spracherkennung ist das Bindeglied zwischen Sprechen und Digitalisierung. Sie stellt zudem die Grundlage für den Dialog mit Voice Assistants dar. Um zu sehen, wo Spracherkennung gewinnbringend eingesetzt werden kann, hilft es, die Technologie besser zu verstehen. In diesem Blogbeitrag zeige ich, was automatische Spracherkennung leistet sowie mögliche Anwendungsgebiete.

Spracherkennung (engl. speech recognition) macht es möglich, dass wir mit Sprechen auch Schreiben können. Sie ist ein Feld der künstlichen Intelligenz und ein wichtiger Teil in allen smarten Geräten um uns herum, wie z.B. in Smartphones, in Notebooks oder in Smart Speakern.

Wir sprechen seit Jahrtausenden miteinander. Die Tastaturen verwenden wir seit weniger als 100 Jahren und ich denke, sie werden eines Tages wieder verschwinden», prognostiziert David Imseng

Quelle: Voice Search example with dialect, youtube

Spracherkennung macht das Leben leichter

Ob in der Hotline des Customer Service, wenn Sie dem Navigationssystem im Auto das Ziel sagen oder bei Apps, um Sprachen zu lernen – wir sind im Alltag umgeben von Anwendungen mit Spracherkennung.

Das hat grosses Potenzial für unterschiedliche Anwendungsgebiete. Aber vor allem ist es praktisch, wenn man die Hände frei haben möchte, es schnell gehen muss oder wenn man Auto fährt. Nutzende in der Schweiz gaben 2020 an, dass die Hauptmotivation für Sprachanwendungen die Möglichkeit sei, Dinge parallel machen zu können (vgl. Top 7 Insights Voice First Barometer Schweiz 2020). Stellen Sie sich zum Beispiel vor, Sie könnten alle Suchanfragen sprechen und damit auch Videos und Sprachnachrichten durchsuchen. Schon praktisch.

Wo wird Spracherkennung in Kommunikation und Marketing eingesetzt?

Es ist das eine, sich vorzustellen, wo Sprachanwendungen praktisch wären, aber etwas anderes den konkreten Use-Case im Unternehmen zu sehen. Ein einfacher Startpunkt kann der Customer Service sein, dem Kundinnen und Kunden ihre Anfrage per Sprachnachricht senden. Die Nachrichten würden mit Spracherkennung in Text übersetzt und anschliessend analysiert, kategorisiert und direkt an die zuständige Abteilung weitergeleitet. Bei der Übersetzung der Sprachnachricht in Text kommt David Imseng von der recapp IT AG ins Spiel. Sein Fokus liegt auf der Erkennung von Schweizerdeutsch.

«Cases, die gut funktionieren, sind solche, wo man repetitive Aufgaben automatisieren will. Wir arbeiten zum Beispiel mit unterschiedlichen Parlamenten zusammen. Deren Audiodateien haben hohe Qualität und die Sitzungen sind gut strukturiert, so dass wir relativ gut Wortprotokolle erstellen können.», nennt David Imseng als Beispiel. Er gibt allerdings zu bedenken: «Wenn der Text nicht nur eins-zu-eins wiedergegeben werden soll, sondern zusammengefasst oder interpretiert, dann ist Spracherkennung nicht geeignet.»

«Denkbar wäre es auch, einen Beratungsprozess vollständig oder teilweise zu automatisieren. Über Spracherkennung liessen sich zum Beispiel Formulare vorab ausfüllen. Man denke an die langen Zeiten in Warteschleifen oder Anfragen ausserhalb der Geschäftszeiten.», nennt Imseng einen weiteren Anwendungsfall.

Testimonial

Spracherkennung wird aber nicht nur eingesetzt, wenn gesprochene Sprache in Text übersetzt werden soll, sondern auch dort, wo Audiodateien durchsuchbar werden sollen. «Zum Beispiel arbeiten wir mit dem SRF zusammen, um das Medien-Archiv zu überarbeiten. Dank künstlicher Intelligenz werden relevante Informationen in dem audio-visuellen Material indexiert.» erklärt Imseng. Das ist nicht nur interessant für die User, sondern auch für die Mitarbeitenden, die das Material verwenden oder aufbereiten möchten – also für alle, die Content erstellen und teilen. Auch die automatische Untertitelung von Live-Sendungen ist mit Spracherkennung möglich.

Versteht das System Schweizerdeutsch?

Wie gut das Spracherkennungssystem einen gesprochenen Text versteht, hängt wesentlich von der Menge und der Qualität der Trainingsdaten ab. Während für den US-amerikanischen Raum sehr grosse Datenmengen zur Verfügung stehen – und diese verarbeitet werden – gilt das für den deutschsprachigen Raum nicht in gleichem Umfang. Noch eingeschränkter sind die Trainingsdaten, die für Schweizerdeutsch zur Verfügung stehen. Bisher.

Es gibt grosse Video- und Audio-Archive in der Schweiz, deren Schätze nur gehoben werden müssen. Man denke beispielsweise an die Sprachprotokolle der Parlamente, die Archive des SRF und RTR. Mit Schweizer Servern, lokalen Installationen und unter Einhaltung des Schweizer Datenschutzes, widmen sich David Imseng und sein Team diesen und weiteren Spracherkennungsprojekten. Die Erfolge sind bereits sichtbar (Video von 2019, «Schweizer Dialekt», youtube). «Ich schätze, dass die Systeme in zwei Jahren auf der Grundlage des Kontextes ihre Fehler noch besser korrigieren können», sagt Imseng und prognostiziert, dass in der Folge vor allem mehr verschiedene Dialekte verstanden werden können.

Während Youtubes automatische Spracherkennung meint, Viola Amherd rede Niederländisch (?!), ist es recapp bereits möglich, Walliserdeutsch zu transkribieren.

«Umso näher der Dialekt am Standard-Deutsch ist bzw. desto weniger spezielle Ausprägungen er hat, desto besser werden die Systeme den Dialekt verstehen. Das gilt häufig für die Dialekte, die in den Städten gesprochen werden – wo es dann auch mehr Daten des Dialekts gibt. In eher isolierten Regionen wie im Wallis oder in Graubünden sind die Ausprägungen vielfältiger», erklärt Imseng. «Wallis und Freiburg sind besonders schwierig, weil dort zwei Sprachen gesprochen werden und die Wortschöpfungen besonders vielfältig sind. Gleichzeitig sind aber relativ wenig Daten vorhanden. Zürich, Solothurn und Aargau sind bisher gut zu verstehen, gefolgt von Bern.»

Fazit: Vieles ist heute bereits mit Schweizerdeutsch möglich. Zumindest wenn man bereit ist, lokale Installationen zu verwenden. Die Zukunft sieht rosig aus.

Was brauchen Unternehmen für die Implementierung von Spracherkennung?

Das Rezept für Spracherkennung lautet: Input (Spektrogramm), akustisches Modell, Lexikon, Sprachmodell (siehe Abbildung 1). Denn Spracherkennung heisst, gesprochene Sprache wird in Text transkribiert. Das funktioniert in Echtzeit, wenn wir zum Beispiel unserem Smartphone etwas diktieren, oder aber nachträglich mit Audio- oder Video-Dateien.

Speech recognition
Abbildung 1: © https://jonathan-hui.medium.com/speech-recognition-acoustic-lexicon-language-model-aacac0462639

«Für eine minimale Implementierung benötigen wir Text damit das System sich ein Bild davon machen kann, von was für einer Domäne wir sprechen und was für ein Vokabular verwendet wird. Anwendungen werden auf das jeweilige Unternehmen zugeschnitten, wo die Spracherkennung verwendet wird; zumindest hinsichtlich des Vokabulars.», erklärt David Imseng. «Je standardisierter die Datenbank vorliegt, desto besser für recapp.»

Was vor und nach der automatischen Spracherkennung kommt, ist sehr wichtig. Das vermittelnde Interface muss designt werden. Es reicht nicht aus, wenn die Spracherkennung gut ist, die Systeme drumherum müssen sich ebenfalls gut verhalten. Wenn beispielsweise ein Formular ausgefüllt werden soll, muss das System wissen, welches Feld wann ausgefüllt werden muss. In diesem Fall muss der Voice Assistant die Konversation sinnvoll führen und Entscheidungen sinnvoll treffen.

Dem Design von Voice User Intervaces (VUI) und dessen Brand Identity widmet sich vertieft der Weiterbildungskurs «Voice Assistants in Business and Marketing».

Weiterführende Infos und Links

Wenn Sie die technologischen Grundlagen genauer interessieren, lesen Sie sich zum Beispiel hier ein: medium.com «Speech Recognition Seriens».
Weitere Projekte zu automatischer Spracherkennung von recapp: https://recapp.ch/#Produkte.
David Imseng ist Referent im Weiterbildungskurs Voice Assistants in Business and Marketing: https://www.hslu.ch/voice.
Hier können die Top 7 Insights des Voice First Barometer Schweiz 2020 heruntergeladen werden: https://www.unilu.ch/news/voice-first-barometer-studie-2020-erschienen-5714.
Einen Bericht zur Spracherkennung von Walliserdeutsch hat die Handelszeitung veröffentlicht: Dieser Mann lehrt Computern Walliserdeutsch.

Kommentare

2 Kommentare

Building Virtual Assistants (1/3) – Was Sie beachten sollten, wenn Sie einen Sprachassistenten einsetzen möchten | IKM-Blog

12. August 2021

[…] Automatic Speech Recognition oder auch automatische Spracherkennung bezeichnet den Prozess, in dem gesprochene Sprache in Text transkribiert wird. Das funktioniert in Echtzeit, zum Beispiel mit der Diktierfunktion oder automatischer Untertitelung oder nachträglich mit Audio- oder Video-Dateien. […]

Antworten

MarTech – Technologisierung im Marketing – aktuelle Trends und ihre Auswirkungen | IKM-Blog

26. März 2021

[…] 90ern: Einfach sagen, was man will ist einfach einfacher. Die Voice Technologie ist im Vormarsch. Spracherkennung wird häufig eingesetzt, um Sprache dann doch in Text umzuwandeln (speech to text). Auch für den […]

Antworten

Kommentar verfassen

Danke für Ihren Kommentar, wir prüfen dies gerne.