(SZ vom 8.10.2002) - Der Ton macht die Musik, sagt
man. Und es ist zumindest uns Menschen klar, was das bedeutet: Nicht was
gesagt wird zählt, sondern wie. Einfachste Sätze wie „Ich wohne in München“
gewinnen je nach Intonation in der menschlichen Sprachverarbeitung eine völlig
andere Bedeutung. Maschinen hingegen scheitern bislang kläglich an dieser
Form der Informationsübertragung. Sie können davon allenfalls den sachlichen
Gehalt verstehen, der dem geschriebenen Satz entspricht.
„Prosodie“
nennen Sprachforscher jene Satzmelodie, die mitunter mehr Information enthält
als die reine Aneinanderreihung der Wörter – und ihr sogar widersprechen
kann. Um die Prosodie gesprochener Sprache zu quantifizieren, benutzen Psycholinguisten
und Computerwissenschaftler drei physikalische Größen: Erstens die zeitliche
Struktur, also Dehnungen und Pausen zwischen den Satzteilen. Zweitens die
Tonhöhen (Frequenzen) und drittens den Verlauf der Lautstärke (Amplitude).
Indem sie diese drei physikalischen Größen kombinieren, sollen Computer so
scheinbar einfache Dinge lernen wie Sätze zu trennen. Und auch den Unterschied
zwischen einer Aussage und einer Frage sollen Rechner eines Tages aus der
Prosodie erkennen (München!, München?).
Doch obwohl Betonung und
Klangfarbe unterschiedlich ausgesprochener Sätze sich deutlich in physikalischen
Messkurven niederschlagen, tun sich Computer schwer, einen Sinn damit zu
verbinden. Anders als die Laute selbst, die an einer Stelle im Satz charakteristische
Frequenzspektren und Lautstärken erzeugen, erstrecken sich die Merkmale der
Prosodie oft über einen oder gar mehrere Sätze.
Von ersten Erfolgen
bei der automatischen Erkennung von Wut und Ärger berichten Forscher der
kalifornischen Firma SRI International. Sätze, die aus einer entsprechenden
Gefühlslage heraus gesprochen werden, weisen insgesamt eine zeitliche Dehnung
auf, Schlüsselbegriffe werden betont („Das hättest Du mir gestern sagen müssen.“)
und am Ende folgt meist ein deutlicher Abfall der Tonhöhe.
Doch trotz
aller Hoffnungsschimmer bekennen Computerlinguisten, dass einsatzreife Anwendungen
noch jenseits des Horizonts liegen. Erste Prototypen, die Grundelemente der
Prosodie erkennen können, sollen dennoch schon bald in automatischen Call-Centern
erprobt werden: Computerprogramme könnten zum Beispiel verärgerte Anrufer
bemerken und an einen menschlichen Gesprächspartner vermitteln.
Intensiv
erforscht wird die computerisierte Erkennung von Sprachmelodie auch in China.
Nicht ohne Grund: Dort entscheidet der Klang über den Sinn einzelner Wörter.
So bedeutet „Ma“ einmal Mutter und einmal Pferd – je nach Prosodie. |