Da steckt Musik drinn

(SZ vom 8.10.2002) - Der Ton macht die Musik, sagt man. Und es ist zumindest uns Menschen klar, was das bedeutet: Nicht was gesagt wird zählt, sondern wie. Einfachste Sätze wie „Ich wohne in München“ gewinnen je nach Intonation in der menschlichen Sprachverarbeitung eine völlig andere Bedeutung. Maschinen hingegen scheitern bislang kläglich an dieser Form der Informationsübertragung. Sie können davon allenfalls den sachlichen Gehalt verstehen, der dem geschriebenen Satz entspricht.

„Prosodie“ nennen Sprachforscher jene Satzmelodie, die mitunter mehr Information enthält als die reine Aneinanderreihung der Wörter – und ihr sogar widersprechen kann. Um die Prosodie gesprochener Sprache zu quantifizieren, benutzen Psycholinguisten und Computerwissenschaftler drei physikalische Größen: Erstens die zeitliche Struktur, also Dehnungen und Pausen zwischen den Satzteilen. Zweitens die Tonhöhen (Frequenzen) und drittens den Verlauf der Lautstärke (Amplitude). Indem sie diese drei physikalischen Größen kombinieren, sollen Computer so scheinbar einfache Dinge lernen wie Sätze zu trennen. Und auch den Unterschied zwischen einer Aussage und einer Frage sollen Rechner eines Tages aus der Prosodie erkennen (München!, München?).

Doch obwohl Betonung und Klangfarbe unterschiedlich ausgesprochener Sätze sich deutlich in physikalischen Messkurven niederschlagen, tun sich Computer schwer, einen Sinn damit zu verbinden. Anders als die Laute selbst, die an einer Stelle im Satz charakteristische Frequenzspektren und Lautstärken erzeugen, erstrecken sich die Merkmale der Prosodie oft über einen oder gar mehrere Sätze.

Von ersten Erfolgen bei der automatischen Erkennung von Wut und Ärger berichten Forscher der kalifornischen Firma SRI International. Sätze, die aus einer entsprechenden Gefühlslage heraus gesprochen werden, weisen insgesamt eine zeitliche Dehnung auf, Schlüsselbegriffe werden betont („Das hättest Du mir gestern sagen müssen.“) und am Ende folgt meist ein deutlicher Abfall der Tonhöhe.

Doch trotz aller Hoffnungsschimmer bekennen Computerlinguisten, dass einsatzreife Anwendungen noch jenseits des Horizonts liegen. Erste Prototypen, die Grundelemente der Prosodie erkennen können, sollen dennoch schon bald in automatischen Call-Centern erprobt werden: Computerprogramme könnten zum Beispiel verärgerte Anrufer bemerken und an einen menschlichen Gesprächspartner vermitteln.

Intensiv erforscht wird die computerisierte Erkennung von Sprachmelodie auch in China. Nicht ohne Grund: Dort entscheidet der Klang über den Sinn einzelner Wörter. So bedeutet „Ma“ einmal Mutter und einmal Pferd – je nach Prosodie.