Audio-Codecs zur Sprachdigitalisierung

Wie bei der Digitalisierung der Sprache für die Fernsprechübertragung arbeiten Codecs nach dem Prinzip Sampling, Quantisierung und Kodierung. Dadurch erreicht man eine optimale Sprachqualität, um das analoge Sprachsignal über digitale Systeme zu übertragen.

Bei 8.000 Abtastungen pro Sekunde (Sampling), mit einer Quantisierung von 8 Bit pro Abtastung ergibt sich eine Bitrate von 64 kBit pro Sekunde (nach µ-Law/a-Law). Diese Technik wird als PCM bezeichnet. Sie wird im leitungsvermittelten ISDN für die Digitalisierung und Übertragung der Sprache verwendet.
In einem paketvermittelten Netz ist man immer bestrebt Bandbreite zu sparen. Deshalb werden die Sprachdaten meistens noch komprimiert. Allerdings nimmt bei zunehmender Komprimierung die Sprachqualität ab, die Dekomprimierungszeit und die erforderliche Rechenleistung nehmen zu.
Es gilt: Je höher die Bitrate eines Codecs ist, desto besser die Sprachqualität. Je niedriger die Bitrate, desto schlechter die Sprachqualität und höher der Bedarf an Rechenleistung. Das gilt jedoch nicht immer. Die meisten Codecs machen sich die Eigenschaften der menschlichen Sprache zu nutze um möglichst verlustfrei zu komprimieren.
Es gibt verschiedene Codecs, die für Multimedia-Übertragung im IP-Netzwerk geeignet sind. G.711 (PCM) ist der kleinste gemeinsame Nenner, was die Sprachqualität angeht. Es kommt ohne rechenintensive Kompression aus und braucht deshalb auch relativ viel Bandbreite. Werden die Sprachdaten mit einem anderen Codec komprimiert, dann wird G.711 oft beim Qualitätsvergleich herangezogen.

Codecs zur Sprachdigitalisierung müssen einige Bedingungen erfüllen. Bedingt durch die Struktur des Internets (paketorientierte Übertragung und Vermittlung) müssen sie Paketverluste (bis zu 5%) verkraften und Laufzeitunterschiede der einzelnen Pakete ausgleichen und in die richtige Reihenfolge sortieren können (Forward Error Correction und Jitter Buffering). Das bedeutet, dass Paketverluste und Laufzeitschwankungen keinen Einfluss auf die Sprachqualität haben dürfen.

Die Auswahl eines Codecs ist immer ein Kompromiss zwischen Sprachqualität, Bitrate, Bandbreite und Rechenleistung. Muss die Sprachqualität sehr gut sein, dann ist die Bitrate sehr groß. Entsprechend muss eine ausreichende Bandbreite über die gesamte Übertragungsstrecke zur Verfügung stehen. Reicht eine geringere Sprachqualität aus, dann sinkt dadurch die Bitrate und der Bedarf an Bandbreite. Gleichzeitig steigt dabei der Bedarf an Rechenleistung, um die Sprachdaten zu dekomprimieren.

MOS - Mean Opinion Score

MOS kleiner 4 MOS größer 4
vergleichbar mit
der Sprachqualität
im Mobilfunknetz
vergleichbar mit
der Sprachqualität
im Festnetz

Von Bell Labs wurde der "Mean Opinion Score" (MOS) definiert. Der MOS ermittelt das statische Empfinden der Sprachqualität eines Benutzers. Der MOS 4 gilt als Grenzwert. Darüber wird die Sprachqualität besser, darunter schlechter.

MOS-Wert Bedeutung
5 / excellent keine Anstrengung zum Verständnis der Sprache notwendig
4 / good keine Anstrengung notwendig, aber Aufmerksamkeit notwendig
3 / fair leichte Anstrengung notwendig
2 / poor merkbare, deutliche Anstrengung notwendig
1 / bad trotz Anstrengung kein Verständnis

G.711 / PCM - Pulse Code Modulation

G.711 ist der älteste Codec. Er wurde bereits 1965 von der ITU zugelassen. Er benötigt nur eine geringe Rechenleistung, erzeugt dafür einen Datenstrom von 64 kBit/s.
IP-Telefonie-Anbieter setzen häufig auf G.711. Es ist dasselbe Verfahren wie bei ISDN. Der Vorteil liegt in der einfachen Durchleitung der Sprachdaten vom Festnetz ins IP-Netz bzw. umgekehrt. Eine Umkodierung der Sprachdaten ist nicht notwendig.
Für schmalbandige Internet-Zugänge oder Netzwerkverbindungen ist dieser Codec jedoch ungeeignet.

G.722 / AMR - Adaptive Multi-Rate Codec

Der Codec G.722 bewertet die Signaldifferenz zwei aufeinanderfolgender Signale. So lässt sich mit der selben Bitrate von G.711 ein Sprachsignale bis 7 kHz mit einer Abtastrate von 16 kHz digitalisieren. Das Frequenzband reicht von 50 Hz bis 7.000 Hz. Je nach dem, wie hoch die Übertragungsrate und der Qualitätsbedarf ist, kann der Bandbreitenbedarf bei 48, 56 oder 64 kBit/s liegen.
Die Sprachqualität reicht bis an die Qualität eines UKW-Radios heran und wird zum Beispiel für CAT-iq (DECT) verwendet.
In VoIP-Netzen ist G.722 weit verbreitet und in Endgeräten und Vermittlungsstellen implementiert.

G.722.2 / AMR-WB - Adaptive Multi-Rate Wideband / HD-Voice

G.722.2 ist die Wideband-Version des Adaptive Multirate Codec. Man kennt es auch unter der Bezeichnung HD-Voice, was für HD-Telefonie eingesetzt wird. Trotz der Namensähnlichkeit mit G.722 hat G.722.2 nur den übertragenen Tonumfang gemeinsam.
AMR-WB ist auf die Übertragung im Mobilfunknetz zugeschnitten und komprimiert die Sprache sehr stark. Die Übertragungsbandbreite ist variabel und liegt zwischen 6,6 und 24 kBit/s. In Gesprächspausen kann die Datenrate auch auf 1,75 kBit/s fallen. AMR-WB ist allerdings nur dann interessant, wenn zwei Mobilfunkteilnehmer im selben Netz miteinander telefonieren. Noch gibt es zwischen den Netzbetreibern oder bei der Übergabe ins Festnetz kaum Gateways, die AMR-WB. Meistens sind nur netzinterne HD-Voice-Gespräche zwischen kompatiblen Gegenstellen möglich.
G.722.2 bzw. AMR-WB, tastet das Sprachsignal mit 16 kHz ab und quantisiert es mit 14 Bit. Im Vergleich dazu mutet sich G.711 a-Law (bei ISDN) mit 8 kHz und 8 Bit wie aus der Steinzeit an.

G.723.1

Durch ein Prädiktionsverfahren erreicht dieser Codec mit einer Bitrate von 5,6 oder 6,3 kBit/s, einer Audiobandbreite von 3,1 kHz und einer Bitbreite von 8 Bit eine etwas geringere Sprachqualität als G.711. Dabei ist die erforderliche Rechenleistung bei G.723 nicht zu unterschätzen. Das ist der Kompression geschuldet, die die Datenrate im Vergleich zu G.711 auf 10% drückt.

G.729 / G.729A

Bei G.729 handelt es sich um die optimierte Variante des CELP-Algorithmus für Sprachübertragungen. G.729 ist mit G.723 vergleichbar. Der Bandbreitenbedarf liegt bei nur 8 kBit/s, wodurch eine geringere Rechenleistung im Vergleich zu G.723 erforderlich ist.
Für VoIP-Anwendungen wird der Codec G.729A verwendet. Er ist die Grundlage für eine gute Sprachqualität in VoIP-Verbindungen. Unter Berücksichtigung des IP-Overheads, der Sprachkomprimierung und der Sprechpausenunterdrückung wird eine Bandbreite von ca. 10 kbit/s (1,25 kByte/s) pro Sprachverbindung benötigt. Diese Bandbreite muss das Datennetz für jedes Gespräch gewährleisten.
Alternativ stellen VoIP-Anbieter Verbindungen mit G.729 zur Verfügung. Die eingesetzte Kompression drückt die Datentransferrate auf fast 10%. Obwohl das Abstriche bei der Sprachqualität bedeutet, ist das deutlich besser als die Sprachqualität im Mobilfunknetz.

Linear-PCM 16 (L16)

Linear-PCM 16 (L16) ist von der TIA (Telecommunications Industry Association) im Rahmen der Spezifikation TIA 920 für Breitband-Kommunikation definiert (Breitband-Internet-Anschlüsse). Das Sprachsignal wird 16.000 mal pro Sekunden abgetastet (Sampling). Die Sprachdaten werden mit 16 Bit aufgelöst (Quantisierung). Die Übertragung findet ohne Kompression, ohne Latenz und ohne Umwandlung statt. Damit bietet L16 die beste Sprachqualität.

PCMA-16

PCMA-16 ist eine 16-kHz-Variante des G.711-Codecs. PCMA-16 bietet eine Abtastrate von 16.000 Samples pro Sekunde (Sampling). Die Sprachdaten werden nach dem A-Law in 8 Bit aufgelöst (Quantisierung).

GSM

GSM ist der Codec für die Sprachübertragung im Mobilfunknetz. Die Bandbreite beträgt 13,2 kBit/s.

iLBC

Der Codec iLBC wurde für schmalbandige Übetragungsstrecken im Internet entwickelt. Er ist darauf optimiert, im Falle von verloren gegangenen und verzögert eingetroffenen Datenpaketen, eine gleichbleibende Sprachqualität und -verständlichkeit zu liefern. Der Codec besitzt eine höhere Qualität als G.729. Die Bandbreite liegt bei 13,33 kBit/s.

Speex (SPX)

Speex zeichnet sich dadurch aus, dass er eine variable Bitrate hat und somit optimal an die Sprachübertragung angepasst ist. So zum Beispiel an Sprechpausen, in denen so gut wie keine Daten anfallen. Die Bandbreite variiert zwischen 2,15 und 24,6 kBit/s.

Skype

Skype verwendet einen propritären Codec, der Audiosignale bis etwa 12 kHz übertragen kann.

Übersicht und Vergleich der Audio-Codecs

Codec Name/Bezeichnung Bandbreite MOS MIPS Delay Sprachqualität
G.711 Pulse Code Modulation (PCM) 56 oder 64 kbit/s 4,10 1 0,25 ms ISDN
G.722 Adaptive Multi-Rate (AMR) 48 bis 64 kBit/s       ISDN
G.722.2 Adaptive Multi-Rate Wideband (AMR-WB) 1,75 bis 24 kBit/s       HD-Voice
G.723.1 Multiple Maximum Likelihood Quantization (MP-MLQ) 5,6 - 6,3 kbit/s 3,90 18 67,5 ms Gut
G.723 Algebraic Code Excited Linear Prediction (A-CELP) 5,3 kbit/s 3,65      
G.726 Adaptive Differential Pulse Code Modulation (AD-PCM) 16 - 40 kbit/s 3,85     Mobilfunk
G.728 Low Delay Code Excited Linear Prediction (LD-CELP) 16 kbit/s 3,61 30 1,25 ms ungefähr ISDN
G.729 Conjugate Structure Algebraic Code Excited Linear Prediction (CSA-CELP) 8 kbit/s 3,92 20 25 ms  
G.729A Conjugate Structure Algebraic Code Excited Linear Prediction (CSA-CELP) 8 kbit/s 3,70 11 25 ms besser als G.723.1
GSM   13 kBit/s        
iLBC   15 kBit/s        
Speex   2,15 - 44,2 kBit/s        
LPC10   2,4 kBit/s