Grundlagen Prosodie
Die zwei Hauptfunktionen von Prosodie sind (a) Hervorhebung und (b) Phrasierung. Hervorhebung dient der Markierung von Prominenzrelationen in einer Äußerung und Phrasierung unterteilt gesprochene Sprache in Sinneinheiten. Beide Funktionen resultieren aus dem Zusammenspiel verschiedener phonetischer Parameter.
Funktionen
Hervorhebung
Für das Deutsche wird Prominenz auf lexikalischer Ebene (auch: Wortebene) als Betonung bezeichnet, auf postlexikalischer Ebene (auch: Äußerungsebene) wird der Begriff der Akzentuierung verwendet. Postlexikalisch prominente Silben zeichnen sich durch größere Lautstärke und Länge sowie unreduzierte Vokalqualität aus. Diese werden Druckakzente (engl. stresses) genannt. Wenn zusätzlich eine Tonbewegung stattfindet, bezeichnet man diese Prominenzen als Tonakzente. Beispiele für die Hervorhebung durch Tonakzente sind unten abgebildet. Die Äußerung "Marlene trägt im Sommer eine Sonnenbrille" ist mit drei unterschiedlichen Intonationskonturen versehen. Dabei variiert die Position des Tonakzents. In (1) befindet sich der Tonakzent auf "Marlene", in (2) ist "Sommer" durch einen Tonakzent als die prominenteste Einheit der Äußerung gekennzeichnet und in (3) ist die erste Silbe von "Sonnenbrille" die prominenteste Konstituente.
Wir unterscheiden (potentielle) Hervorhebungen auf Wortebene von (tatsächlichen) Hervorhebungen auf Satz- oder Äußerungsebene. Aus Gründen der Übersichtlichkeit bezeichnen wir Hervorhebungen auf Wortebene als Betonungen, Hervorhebungen auf Äußerungsebene als Akzente (in der deutschsprachigen Literatur zur Intonation wird allerdings oft der Begriff Wortakzent für Hervorhebungen auf Wortebene verwendet). Wenn man unbetonte Silben mit einbezieht, können drei Stufen der Wortbetonung unterschieden werden: Eine Silbe im Lexikon hat in diesem System entweder eine primäre ['], eine sekundäre [,] oder gar keine Wortbetonung. Z.B. steht im Wörterbuch:
- Melo'die
- Bal'lon
- 'Dampfschiff,fahrt
Wie bei allen Einträgen im Wörterbuch werden keine konkreten Äußerungen beschrieben, sondern abstrakte Zitierformen, d.h. die Betonungsmarkierungen stehen für potentielle Hervorhebungen. Die im Wörterbuch angegebene (lexikalische) Hervorhebung kann (muss aber nicht) auf Satzebene (oder postlexikalischer Ebene) als Hervorhebung realisiert werden. Es gibt vier Möglichkeiten, eine lexikalisch betonte Silbe zu realisieren:
(a) unakzentuiert: Eine Silbe kann unakzentuiert sein.
(b) Druckakzent: Eine druckakzentuierte Silbe unterscheidet sich von einer nicht-akzentuierten Silbe dadurch, dass sie lauter, deutlicher (mit unreduzierter Vokalqualität) und länger ausgesprochen wird. Diese drei Faktoren müssen nicht alle vorhanden sein, da sie sich überlagern können. Dennoch treten sie oft zusammen auf.
(c) Tonakzent: Ein Tonakzent hat zusätzlich zu den Eigenschaften eines Druckakzentes auch noch tonale Eigenschaften. Bei der Realisierung eines Tonakzents findet man meistens eine Tonhöhenbewegung auf der akzentuierten Silbe. Es ist aber möglich, dass eine tonakzentuierte Silbe selbst keine Tonhöhenbewegung aufweist. In diesem Falle 'tanzt sie aus der Reihe'.
(d) nuklearer Tonakzent: Der nukleare Tonakzent hat die gleichen Eigenschaften wie ein nicht-nuklearer Tonakzent. Er ist der einzige obligatorische Akzent. Wenn mehrere Akzente in einer Äußerung vorhanden sind, ist der nukleare Akzent der letzte und wichtigste.
Phrasierung
Gesprochene Sprache wird in Intonationseinheiten eingeteilt. Dabei spielen verschiedene Faktoren eine Rolle, wie z.B. Pausen. Je länger eine Pause ist, desto größer ist die wahrgenommene Grenze. Grenzen können auch durch andere Parameter markiert werden, etwa durch eine abrupte Änderung der Tonhöhe zwischen unakzentuierten Silben. Außerdem werden die letzten Silben einer Intonationseinheit generell gelängt (final lengthening). In Theorien zur Beschreibung von Intonation finden sich verschiedene Klassifizierungen und Stärken prosodischer Grenzen. Im GToBI-Modell werden zwei Grenzstärken unterschieden. Die Beispiele unten zeigen verschiedene Phrasierungen. In (1) Computer, Tastatur und Bildschirm wird die Äußerung in drei Einheiten unterteilt. Dies wird mittels Pausen und einem Bruch im Tonhöhenverlauf (jeweils am Ende von Computer und Tastatur) realisiert. In Beispiel (2) Computertastatur und Bildschirm wird nur nach dem ersten Kompositum (und natürlich am Ende der Äußerung) eine Grenze realisiert. Die Äußerung wird hier durch einen Tonbruch plus finaler Dehnung und Pause nach -tastatur in zwei Einheiten gegliedert.
Phonetische Parameter
Tonhöhe
Der wichtigste perzeptive/auditive Parameter zur Markierung von Prominenz auf Äußerungsebene für das Deutsche ist die Tonhöhe. Auf akustischer Ebene entspricht die Tonhöhe der Grundfrequenz (auch F0 genannt; Einheit Hertz (Hz)). Die Grundfrequenz korreliert auf der Produktionsebene direkt mit der Frequenz der Stimmlippenschwingung. Da die Stimmlippen durch den Luftstrom in regelmäßigen Abständen geöffnet und geschlossen werden, bezeichnet man deren Schwingung als "quasi-periodisch". Je schneller die Stimmlippenschwingung, desto höher ist auch die Grundfrequenz und somit die wahrgenommene Tonhöhe. Grundfrequenz und Tonhöhe stehen allerdings in keinem linearen Zusammenhang zueinander. Eine Verdopplung der Grundfrequenz bedeutet nicht gleichzeitig eine Verdopplung der Tonhöhe. Ein Öffnungs- und Schließvorgang der Stimmlippen entspricht einer Periode im akustischen Signal. Die jeweilige Frequenz ergibt sich aus der Anzahl der Schwingungen pro Sekunde. Dabei entspricht eine Schwingung pro Sekunde einem Hertz. Die durchschnittliche Grundfrequenz liegt bei männlichen Sprechern bei ca. 125 Hz. Bei weiblichen Sprechern ist die durchschnittliche Grundfrequenz aufgrund kürzerer und dünnerer Stimmlippen höher und liegt bei ca. 225 Hz. Die Variation der Grundfrequenz wird primär durch die intrinsischen Muskeln des Kehlkopfs (Larynx) gesteuert. Als Tonhöhenumfang bezeichnet man den Bereich zwischen dem natürlichen Tonhöhenminimum und -maximum einer Stimme. Bei männlichen Sprechern liegt dieser durchschnittlich zwischen 60 und 240 Hz, bei weiblichen Sprechern zwischen 120 und 400 Hz. Der Tonhöhenumfang kann sich sprach- und sprecherabhängig verschieben oder auch erweitern bzw. reduzieren. Bei Verschiebung des (gleichen) Tonhöhenumfangs spricht man von einer Änderung des "pitch register", bei Erweiterung oder Reduktion des Umfangs von einer Änderung im "pitch span". Uhmann (1991) fasst die drei phonetischen Beschreibungsebenen der Tonhöhe wie folgt zusammen:
Die Grundfrequenz eines Sprachsignals wird mit Programmen wie PRAAT oder EMU berechnet, die den F0-Verlauf über die Zeit darstellen. Die x-Achse zeigt den zeitlichen Verlauf gewöhnlich in Sekunden (s) an, die y-Achse zeigt die Grundfrequenzwerte in Hertz (Hz). Nur bei stimmhaften Lauten ist es möglich, die Grundfrequenz zu berechnen, da lediglich bei diesen die Stimmlippen schwingen. Bei stimmlosen Lauten kann dem entsprechend keine F0 gemessen werden. Da Hintergrundgeräusche die F0-Berechnung stören, werden Sprachaufnahmen meist in schallreduzierten Kabinen gemacht. Aber auch bei Aufnahmen ohne störende Hintergrundgeräusche können Fehlberechnungen auftreten. Es kann z.B. vorkommen, dass stimmlose Laute als stimmhaft angezeigt werden oder dass für stimmhafte Laute keine F0 berechnet wird. Anhand der Wellenform im Oszillogramm kann man in diesen Fällen die Grundfrequenz per Hand ermitteln. Die untenstehende Abbildung zeigt eine komplexe Wellenform eines Sprachsignals. Man zählt die Wiederholungen der Perioden pro Zeiteinheit und rechnet die Anzahl auf eine Sekunde hoch. Eine Periode dauert hier 0,01 Sekunden (1/100 Sekunde). Auf eine Sekunde hochgerechnet entspricht dies hundert Wiederholungen, also 100 Hz.
Länge
Die Länge eines Segments oder einer Silbe ist eine auditive Größe. Der Begriff Dauer beschreibt das akustische Korrelat zur wahrgenommenen Länge. Sie wird in Millisekunden (ms) gemessen. Auf artikulatorischer Ebene entspricht die Dauer/Zeit dem Artikulationsprozess. Nach Fry (1955, 1958) ist der Parameter Länge für die Wahrnehmung einer Prominenz wichtiger als eine erhöhte Lautstärke, allerdings weniger wichtig als ein Wechsel in der Tonhöhe. Uhmann (1991) fasst die drei phonetischen Beschreibungsebenen für Länge zusammen:
Dauer kann sich auf verschiedene Domänen beziehen. Die kleinste Einheit für die Beschreibung von Dauer ist der Laut/das Phon. Für die Intonationsforschung ist Dauer als Parameter für Moren, Silben, Füße und prosodische Wörter, sowie größere prosodische Konstituenten wichtig. Größere Konstituenten können phonologische Phrasen, Intonationsphrasen oder Äußerungen sein. Für das Deutsche kann man sagen, dass Silbendauer und Akzentuierung direkt miteinander korrelieren, d.h., dass akzentuierte Silben auch gleichzeitig eine größere Dauer aufweisen.
Lautstärke
Das akustische Korrelat der wahrgenommenen Lautstärke wird als Intensität bezeichnet. Auf der Ebene der Produktion entspricht ihr der artikulatorische Aufwand bzw. Luftdruck. Lautstärke hat im Vergleich zu Dauer und Tonhöhenveränderung die geringste Bedeutung für die Perzeption von Prominenz auf Äußerungsebene.
Die Beziehung zwischen wahrgenommener Lautstärke und akustischer Intensität ist logarithmisch, d.h., dass beide Ebenen in keinem Eins-zu-eins-Verhältnis zueinander stehen. Intensitätswerte werden in Dezibel (dB) angegeben. Ein Dezibel beschreibt den Zehnerlogarithmus der gemessenen Intensität geteilt durch eine Referenzintensität. Der Referenzintensitätswert bezeichnet, wenn nicht anders angegeben, die Hörschwelle (10 hoch minus 16 Watt per cm² bezogen auf 1 kHz).
Literatur
- Cruttenden, A. (1986). Intonation. Cambridge: Cambridge University Press.
- Fry, D. B. (1955). Duration and Intensity as Physical Correlates of Stress. Journal of the Acoustical Society of America 27:4, 765-768
- Fry, D. B. (1958). Experiments in the Perception of Stress. Language and Speech 1,126-152
- Gussenhoven, C. (2004). The Phonology of Tone and Intonation. Cambridge: Cambridge University Press.
- Ladd, D. R. (1996). Intonational Phonology. Cambridge: Cambridge University Press.
- Uhmann, S. (1991). Fokusphonologie. Eine Analyse deutscher Intonationskonturen im Rahmen der nicht-linearen Phonologie. Tübingen: Niemeyer.