Geschichte

Die Geschichte der Sprachassistenten

Die Geschichte der Sprachassistenten geht weiter zurück, als viele glauben. Denn sie begann bereits im Jahre 1877, als Thomas Edison seinen Phonographen entwickelte. Auch wenn das einfache Diktiergerät auf den ersten Blick wenig mit modernen Sprachassistenten gemeinsam hat, bot es doch die wesentliche Grundlage: Das Aufzeichnen von Sprache. Bis heute haben sich digitale und virtuelle Assistenzsysteme deutlich weiterentwickelt. Wir geben einen Überblick über die Geschichte der Sprachassistenten.

Sprachassistenten: Die Meilensteine der Geschichte

• 1877: Ediphone und die Revolution in Chefbüros

• 1930: Der Voder konnte Sprache synthetisieren

• 1952: Audrey verstand Zahlen von null bis neun

• 1962: Ein „Schuhkarton“ löste Rechenaufgaben

• 1970: Hidden Markov Model sagt Wortfolgen voraus

• 1971: US-Verteidigungsministerium fördert Forschung

• 1980er: IBM arbeitet an Spracherkennungssystem Tangora

• 1990er: Große Schritte in der Geschichte der Sprachassistenten

• 2000er: Spracherkennung avanciert zum Standard am Computer

• 2010er: Sprachassistenten erobern die Smartphones

1877: Ediphone und die Revolution in Chefbüros

Thomas Alva Edison erfand nicht nur die Glühbirne. Er legte auch den Grundstein für die Entwicklung der heutigen Sprachassistenten. Denn der US-amerikanische Erfinder entwickelte bereits 1877 ein Diktiergerät, das Geräusche aufzeichnen und immer wieder abspielen konnte. Der Phonograph arbeitete rein mechanisch und wurde unter anderem als „Parlograph“ oder „Ediphone“ bis in die 1920er Jahre hinein verkauft. Die Funktion, die heute selbst einfachste Smartphones beherrschen, sorgte damals für eine echte Revolution – vor allem in den Büros großer Unternehmen. Denn nie zu vor war es möglich, Briefe, Anweisungen oder sonstiges unabhängig vom anwesenden Personal zu diktieren.

Zum Video hier klicken

1930: Der Voder konnte Sprache synthetisieren

Ist es möglich, menschliche Sprache mit einer Maschine zu erzeugen, ohne diese vorher aufzunehmen? Mit dieser Frage beschäftigten sich die Bell Laboratories schon in den 1930er Jahren. Die amerikanischen Wissenschaftler erfanden daraufhin einen tastaturgesteuerten elektronischen Sprachsynthesizer. Der sogenannte Voice Operation Demonstrator (kurz Voder) konnte Sprache zum ersten Mal künstlich erzeugen. Er war aufwendig manuell zu bedienen und wurde der Öffentlichkeit auf der Weltausstellung 1939 in New York präsentiert.

1952: Audrey verstand Zahlen von null bis neun

Der Voder konnte menschliche Sprache ausgeben. Diese Funktion allein reicht allerdings nicht, um einen Sprachassistenten zu entwickeln. Denn der muss Sprachsignale auch verstehen und auswerten können. Möglich war das erstmals mit Audrey. Der Automatic Digit Recognizer wurde 1952 von den Bell Laboratories erfunden und konnte Ziffern von null bis neun verstehen. Die Genauigkeit lag etwa bei 90 Prozent, hing allerdings auch sehr stark von der Redegeschwindigkeit, der Stimme und dem Dialekt des Sprechers ab. Außerdem verstand Audrey nur, wenn Menschen zwischen den einzelnen Ziffern lange Redepausen einlegten.

1962: Ein „Schuhkarton“ löste Rechenaufgaben

Ein weiterer Meilenstein der Geschichte der Sprachassistenten war das Jahr 1962. Damals stellte IBM auf der Weltausstellung in Seattle eine Maschine vor, die 16 Begriffe verstand. Die sogenannte „Shoebox“ hatte die Größe eines Schuhkartons und konnte rechnen. Denn sie erkannte die Ziffern null bis neun sowie die Anweisungen "minus", "plus", "subtotal", "total", "false" und "of". Die erste Aufgabe auf der Weltausstellung „Fünf plus drei plus acht plus sieben plus vier minus neun, zusammen" löste sie korrekt mit dem Ergebnis 17 und das Publikum war begeistert. Interessant zu wissen: Den ersten Personal-Computer brachte IBM fast 20 Jahre später auf den Markt.

Zum Video hier klicken

1970: Hidden Markov Model sagt Wortfolgen voraus

Entscheidend für die jüngere Geschichte der Sprachassistenten war das sogenannte Hidden-Markov-Model. Ein stochastisches Modell, das Systeme mit unbeobachteten zuständen modellieren sollte. Es wurde nach dem russischen Mathematiker Andrei Andrejewitsch Markow benannt und in der zweiten Hälfte der 1960er Jahre aufgestellt. Eine der ersten konkreten Anwendungsfälle war die Spracherkennung. Hier kam das Hidden-Markov-Modell (HMM) etwa 1970 zum Einsatz, um zu berechnen, mit welcher Wahrscheinlichkeit ein bestimmtes Wort auf ein anderes folgt. Wichtig war das, um Wortfolgen mit ähnlichem Klanglaut besser voneinander unterscheiden zu können.

1971: US-Verteidigungsministerium fördert Forschung

Von 1971 bis 1976 erreichten Wissenschaftler der Carnegie Mellon University (CMU) in Pittsburgh weitere Erfolge in der Geschichte der Sprachassistenten. Gefördert von der Defense Advanced Research Projects Agency (DARPA), einer Behörde des Verteidigungsministeriums der Vereinigten Staaten, entstanden dabei drei Spracherkennungs- und Sprachverständnissysteme. Und zwar Dragon, Harpy und Hearsay-II.

Dragon wurde damals nicht von der DARPA getestet, bildete aber die Basis für ein kommerzielles Produkt mit dem Namen „Dragon NaturallySpeaking“. Letzteres wurde bis heute immer weiterentwickelt. Nach mehrmaligen Übernahmen gehört es inzwischen dem amerikanischen Unternehmen Nuance Communications (vormals ScanSoft).

Harpy benutzte heuristische Suchmethoden, um gesprochene Sätze zu erkennen. Das System verarbeitete ein Vokabular von rund 1.000 Wörtern und verstand 95 Prozent der im DARPA-Projekt eingesprochenen Testsätze richtig. Interessant zu wissen ist, dass Harpy etwa 30 Millionen Computeranweisungen ausführen muss, um eine Sekunde Sprache zu verstehen. Mit damaligen Computern war das zwar noch weit von einer Echtzeiterkennung entfernt, dennoch aber ein wichtiger Meilenstein in der Geschichte der Sprachassistenten.

Genau wie Dragon konnte auch Hearsay-II die DARPA-Anforderungen damals nicht erfüllen. Die Entwickler starteten aber mit dem wohl ambitioniertesten Ansatz: Die schrittweise Bildung von Sätzen. Zum Einsatz kam dabei die sogenannte Blackboard-Architektur. Bildlich dargestellt, schrieben die Systeme die erkannten Phone dabei ganz unten auf eine Tafel. Wissensroutinen erstellten daraus Silben, die dann von anderen Routinen zu Wörtern, Wortfolgen und Sätzen verarbeitet wurden.

1980er: IBM arbeitet an Spracherkennungssystem Tangora

In den 80er Jahren arbeitet der Computerkonzern IBM aktiv an einem Spracherkennungssystem mit dem Namen Tangora. Es erkennt Sätze aus isoliert eingesprochenen Worten und verarbeitete ein Vokabular von etwa 20.000 Begriffen in Echtzeit. Basis der Spracherkennung ist eine rein statistische Methode, die ganz ohne linguistisches Wissen arbeitet. Als die Lösung 1991 mit dem Namen Tangora 4 auf der CeBIT vorgestellt wurde, musste der Präsentationsraum allerdings komplett abgeschirmt werden. Der Messelärm hätte die Arbeit sonst erheblich gestört.

1990er: Große Schritte in der Geschichte der Sprachassistenten

In den 1990er Jahren nahm die Geschichte der Sprachassistenten weiter Fahrt auf. So brachte eine Puppe namens Julie die Spracherkennungstechnologie in die Kinderzimmer. Julie konnte einfache Worte verstehen und individuell auf ihr Gegenüber reagieren. Eine echte Sensation zu damaligen Zeiten. Zum Video hier klicken

Im Jahr 1990 brachte das Unternehmen Dragon (heute Teil von Nuance Communications) Dragon Dictate heraus. Dabei handelte es sich um das erste Programm zur Spracherkennung für Verbraucher, das bis heute weiterentwickelt und vertrieben wird. In den folgenden Jahren erschienen weitere Endanwenderprogramme, wie Speakable items (Apple), Sphinx-II (Xuedong Huang) und MedSpeak (IBM).

2000er: Spracherkennung avanciert zum Standard am Computer

In den 2000er Jahren setzen immer mehr Hersteller auf Systeme zur Spracherkennung, um Programme oder ganze Betriebssysteme zu bedienen. So integrierte Microsoft die Spracherkennungsfunktionen 2002 in seine Office-Produkte. 2007 wurde die Spracherkennung sogar komplett in das damals neue Betriebssystem Windows Vista eingearbeitet.

Die Möglichkeiten der modernen Technologie machten sich nun auch andere zunutze. So begann die National Security Agency (NSA) 2006 damit, automatisch einzelne Schlüsselwörter aus abgehörten Gesprächen herauszufiltern. Nur ein Jahr später startete Google mit GOOG-411 die erste, auf Spracherkennung basierende Geschäftsverzeichnissuche. Über die Nummer 1-800-GOOG-411 bekamen Anrufer Informationen zu Geschäften in ihrer Umgebung, mit denen sie sich direkt verbinden lassen konnten.

2010er: Sprachassistenten erobern die Smartphones

Mit dem Beginn der 2010er Jahre kommt die Geschichte der Sprachassistenten in der heutigen Zeit an. Immer mehr Anbieter bringen digitale Assistenten heraus, mit denen ein Jeder Smartphones, Tablets oder PCs ganz bequem per Sprachbefehl steuern kann. Die digitalen Assistenten erledigen tägliche Aufgaben und Antworten ihren Nutzern auf viele Fragen.

Einen Meilenstein erreichte dabei die 2007 gegründete SIRI Inc.. Die Firma entwickelte den intelligenten persönlichen Assistenten Siri und wurde im April 2010 von Apple gekauft. Anschließend sollte es noch ein Jahr dauern, bis der Tech-Konzern aus Kalifornien den Sprachassistenten für das iPhone 4s herausbrachte. Heute läuft Siri auf allen Apple-Geräten und verarbeitet weit mehr als 2 Milliarden Anfragen in der Woche.

Mit der Voice Search App, die anfangs nur für Desktop-PCs verfügbar war, schickte Google 2011 einen Siri-Konkurrenten ins Rennen. Die sprachgesteuerte Suche kam im Oktober 2012 auf Smartphones und wurde bis heute über Google Now bis zum Google Assistent (2016/2017) weiterentwickelt. Bei Letzterem handelt es sich wie bei Siri um einen intelligenten virtuellen Assistenten, der Aufgaben per Sprachbefehl erledigt.

In der Zwischenzeit erblickte 2014 auch Microsofts Cortana das Licht der Welt. Die Sprachassistentin, die eine Hommage an die gleichnamige künstliche Intelligenz aus der Spiele-Serie Halo ist, erschien zunächst auf Windows Phone 8.1 und ist heute auch für Windows 10 sowie iOS verfügbar.

Seit 2015 unterstützt Amazons virtuelle Assistentin Alexa ihre Nutzer im Alltag. Die Sprachassistentin erschien mit dem intelligenten Lautsprecher Amazon Echo und bietet eine Menge Funktionen, die sich mit den sogenannten Skills auch erweitern lassen.

Neben dem Anlegen von To-Do-Listen oder dem Abspielen von Nachrichten und Informationen können Sprachassistenten heute verschiedenste Geräte bedienen. So lässt sich das Licht oder die Heizung im eigenen Haus auf Zuruf ein- und ausschalten. Ende 2019 haben 60 Prozent aller Deutschen die Technologie schon einmal ausprobiert. 11 Prozent nutzen sie sogar tagtäglich – Tendenz steigend.

Interessant zu wissen: Die Grundlage moderner Assistenzsysteme lieferten die Ergebnisse des DARPA-Programms der 70er Jahre. Vor allem das dabei entwickelte Dragon-System, das auch heute als Basis vieler Lösungen zum Einsatz kommt.

Bildquelle

Geschichte der Sprachassistenten

© [Antonioguillem] / stock.adobe.com