Speech-to-Text-Funktion

Facebook Messenger testet Spracherkennung

Apple dementiert Zusammenarbeit mit NSA

Sprachnachrichten nicht nur hören, sondern auch auf dem Handydisplay lesen: Facebook will es möglich machen. (Bild: rangizzz / Fotolia.com)

Sprache 2.0

Menschen kommunizieren im 21. Jahrhundert meist ausschließlich über den elektronischen Weg. Kurzmitteilungen, Chats und E-Mails ersetzen nahezu das persönliche Gespräch. Damit auch im digitalen Zeitalter die eigene Stimme nicht zu kurz kommt, bieten Voice-Nachrichten eine willkommene Lösung. Facebook knüpft an den Trend an und erweiterte seine Messenger App um eine Neuheit: Eingehende sowie abgeschickte Sprachnachrichten lassen sich in Zukunft in Textform auf dem Handydisplay abrufen.

Das innovative Feature befindet sich nach Angaben des Projektverantwortlichen David Marcus seit dem 16.01.2015 in einer Testphase – zunächst nur für eine kleine Gruppe von Auserwählten. Außerdem existiert die Funktion bislang allein in englischer Sprache.

Spracherkennungssysteme: Mathematische Stimmenanalyse

Spracherkennungssysteme im Überblick

  • Siri (Apple)
  • Google Voice
  • Realize Voice (Windows)
  • Vlingo (Android)
  • Nuance Dragon NaturallySpeaking

Die gesprochenen Wörter werden über das WLAN- oder Mobilfunknetz an einen Spracherkennungs-Server übermittelt. Das Programm interpretiert danach die Sprachdatei und wandelt sie in einen Text um. Dafür werden die Sätze in ihre Einzelteile zerlegt. Aus einer Datenbank sucht das System nach den passenden Klangmustern. Ein spezifischer Algorithmus ermittelt die Wahrscheinlichkeit für eine Übereinstimmung. Kurz gesagt, er versucht herauszufinden, was der Sprecher gemeint haben könnte. Eine gut funktionierende Anwendung besitzt eine große Datenbank an Klangmustern und eine ausgefeilte Statistik. Dialekte bereiten den Spracherkennungssystemen aber immer noch Probleme.

In den 1960er Jahren versuchten sich bereits einige Privatfirmen an der Entwicklung von Spracherkennungssystemen – mit wenig Erfolg. Mitte der 1980er Jahre erlangte die Forschung erste positive Resultate und etablierte sich in den Folgejahren als digitales Kommunikationsmittel:

  • 1980er Jahre: Trigrammstatistiken etablieren sich als zentraler Teil von Spracherkennungssystemen. Sie entstanden anhand der Häufigkeit bestimmter Wortkombinationen, die aufgenommen und analysiert worden sind. Dadurch lassen sich ähnlich klingende Wörter unterscheiden.
  • 1991: Tangora 4 von IBM wird auf der CeBIT präsentiert. Es erkennt bis zu 30.000 Wörter.
  • Ende1990er: IBM entwickelt massentaugliche Programme für den PC. 1997 wurden IBM Spracherkennungsanwendungen als Open Source vertrieben. Dies gilt als strategischer Schachzug gegen Microsoft. Das Unternehmen liefert 2007 mit WindowsVista erstmals ein integriertes Spracherkennungsprogramm.
  • Seit 2005: Dragon NaturallySpeaking von Nuance produziert.
  • 2006: MacSpeech bietet eine Drittanwender-Spracherkennungssoftware für iMac-PCs an.
  • 2007: Gründung von Siri Inc. Apple kaufte es 2010 und stellte Siri 2011 mit dem Release des iPhone 4s vor.

Fehler vermeiden

Es scheint, als ob der Social-Media Riese mit den Proben Googles Fehler umgehen möchte. Der Voice Messenger „Google Voice“ besteht seit Längerem auf dem Markt. Die integrierte Mailbox ist an eine Spracherkennung gebunden. Die Nachrichten werden anschließend in einer Infobox als Text angezeigt. Trotz vielfältiger Nutzungsmöglichkeiten bereitet das Telefon- und Kommunikationsprogramm seinen Anwendern Probleme. Die Umwandlung von Sprach- in Textnachrichten geht mit vielen Fehlern einher. Daher will Facebook das Feature anscheinend erst freischalten, wenn es ohne Komplikationen läuft.

Optionen

Drucken Drucken Schriftgröße Schrift vergrößern Schrift verkleinern Schriftgröße zurücksetzen
1 Star2 Stars3 Stars4 Stars5 Stars (noch nicht bewertet)
Loading...Loading...

Kommentar abgeben