Sprachsynthese von Syxtus Gaal
Sprachtechnologien in der Informatik gibt es schon sehr lange. Erste Experimente damit wurden bereits in den 30er Jahren unternommen. Damals hat man die erste Maschine erfunden, die Sprachlaute produzieren konnte. Die Qualität hat jedoch sehr viel zu wünschen übrig gelassen. Ohne „Untertitel“, bzw. ohne Kenntnis dessen, was die Maschine sagen wollte, war synthetische Sprache kaum zu verstehen.
Seit dieser Zeit hat sich vieles verändert. Inzwischen ist die Verständlichkeit der künstlichen Stimmen kein Problem mehr. Die Qualität ist jetzt so gut, dass Computerstimmen fast wie Menschen klingen. Ja, genau – fast meint Syxtus Gaal. Die Sprache ist eine der wichtigsten Fähigkeiten des Menschen und er beherrscht sie sehr gut. So kann er kleinste Feinheiten, wie die Stimmlage, Gefühle oder die Herkunft des Sprechers erkennen. So bemerkt er auch, dass die Stimme künstlich erzeugt wurde, wenn die Stimmlage oder die Aussprache nicht perfekt klingen.
Es fällt einem Sprachsynthesesystem sehr schwer es einem Menschen vorzumachen, dass das was er hört von einem anderen Menschen gesprochen wird. So gut wie kein System kann diese Aufgabe bewältigen. Die Sprache, die von Rechnern generiert wird, ist aber inzwischen sehr verständlich. Auch die Akzeptanz der Nutzer ist mit der Steigerung der Qualität und der Allgegenwertigkeit künstlich erzeugter Sprache stetig gestiegen. Sprachsynthese ist deswegen eine Technologie, die reif und gut genug ist, um in der Industrie angewendet zu werden. Es gibt mehrere wichtige Branchen, wo diese Technologie nicht mehr wegzudenken ist.
Syxtus Gaal – Screen reader
Sprachsynthese hilft Menschen, die unter eingeschränktem Sehvermögen leiden, auf digitale Inhalte zuzugreifen. Diese Inhalte sind vielfältig – seien es die Webseiten im Internet oder digitalisierte Bücher. Die Funktion der Sprachausgabe am Computer ermöglicht macht das Vorlesen von Texten möglich, auch wenn man sie nicht sieht. Sie ist eine Ergänzung zu einem Braille-Interface, so dass der Benutzer sich eine Internetseite oder ein E-Book direkt anhören kann, ohne dass der Inhalt in Braille dargestellt und gelesen werden muss.
Navigation
Die meisten Menschen kennen Sprachsynthese als eine nützliche Ergänzung eines Navigationssystems. Navigationssoftware ist eine multimodale Anwendung, die Informationen visuell und akustisch darstellen kann. Beide Modi ergänzen sich fabelhaft. Die Sprachsynthese gibt Befehle für die Fortbewegung in unmittelbarer Umgebung aus, der Bildschirm stellt diese Route in einer räumlichen Perspektive dar.
Sprachsynthese hat in dieser Anwendung zwei Komplexitätsgrade
Einerseits spielt sie einfache Befehle für die Richtung, in die sich der Fahrer bewegen soll, ab. Die Anzahl der Befehle ist vordefiniert und begrenzt sich meistens auf Richtungen sowie Elemente der Straßeninfrastruktur. Die Bausteine für diese Sprachbefehle werden von professionellen Sprechern aufgenommen. Danach werden diese hervorragenden Aufnahmen geschnitten und für das Abspielen während der Fahrt aufbereitet. Die Qualität ist so hervorragend, dass sie in der konstanten Freundlichkeit und Stimmqualität viele menschliche Lotsen übertrifft.
Die andere Anwendung für Sprachsynthese ist die Ausgabe der Orts- und Straßennamen. Die Anzahl solcher Begriffe ist viel größer als die Anzahl der Befehle, die für die Navigation aufgenommen werden. Hier muss das System auch neue Straßennamen und Adressen aussprechen können. In diesem Fall wird ein allgemeines Synthesesystem verwendet. Da es nicht aus zusammengeschnittenen Aufnahmen besteht, ist die Sprachqualität dieses Systems nicht so gut wie die Ausgabe der Richtungen. Trotzdem ist eine solche Sprachsynthese flexibel und kann potentiell jede Adresse, alt oder neu, akustisch wiedergeben.
Contact center
Sprachsynthese hat inzwischen einen festen Platz im Kundenservice. Der Rahmen dieser Aunwendung würde den Rahmen dieses Artikels sprengen. Eine detaillierte Analyse dazu befindet sich hier (Link: Sprachsynthese im Contact Center):
Weitere Ressourcen
Hier einige interessante Links zum Thema Sprachsynthese:
• www.wikipedia.org/Sprachsynthese – eine gute Einführung in das Thema
• www.nuance.com – Nuance, der führende Hersteller von Sprachsynthesesystemen
• Genesys iCFD – Genesys, Anbieter von Lösungen für Contact Center. Das Konzept des Genesys intelligent Customer Front Door (iCFD) ermöglicht bahnbrechende, Kundenfreundliche Lösungen, die auf Sprachtechnologien basieren.
Über Syxtus Gaal
Syxtus Gaal ist Linguist und Informatiker mit sechs Jahren Erfahrung im Bereich Sprachtechnologien. Syxtus Gaal ist Absolvent der Universität Stuttgart, wo er sich auf Phonetik, digitale Signalverarbeitung und Architektur von Anwendungssystemen fokussiert hat. Nach 3 Jahren in der Sprachtechnologiefirma EXCELSIS ist er seit 2008 bei Genesys tätig, einem weltweit führenden Anbieter von Lösungen für Contact Center. Die Homepage von Syxtus Gaal ist zu finden unter www.ims.uni.stuttgart.de/~gaalss