Unicode

Unicode ("Einheitsschlüssel") ist ein von der internationalen Standardisierungs-Organisation ISO genormtes System zur Kodierung von Textzeichen (Buchstaben, Silbenzeichen, Ideogrammen, Satzzeichen, Sonderzeichen, Ziffern).

Er besteht aus einem alphanumerischen Zeichensatz, in dem weltweit alle bekannten Textzeichen zusammengefasst werden. Mit Unicode können Sie nicht nur die Buchstaben des lateinischen Alphabets, sondern auch das griechische, kyrillische, arabische, hebräische, thailändische Alphabet und die verschiedenen japanischen (Katakana, Hiragana), chinesischen und koreanischen Schriften (Hangul) darstellen. Zudem können mathematische, kaufmännische und technische Sonderzeichen kodiert werden. Zum Unicode gehören auch vier Steuerzeichen: Zeilenende, Absatzende, "Schreibrichtung von links nach rechts" und "Schreibrichtung von rechts nach links". Das Steuerzeichen für die Schreibrichtung von rechts nach links wird zum Beispiel für Arabisch und Hebräisch benötigt.

Der Hauptunterschied zwischen Unicode und den herkömmlichen Zeichensätzen liegt in der Kodierung. Über die 7 Bit-Kodierung können mit dem ASCII-Zeichensatz maximal 128 Zeichen dargestellt werden, mit einer 8 Bit-Kodierung immerhin 256 verschiedene Zeichen. Da es jedoch weltweit mehr als 256 verschiedene Zeichen gibt, wurden Zeichensätze eingeführt, die mehr als ein Byte für die Kodierung jedes Textzeichens verwenden.

Wenn von Unicode gesprochen wird, ist meist der Zeichensatz UCS-2 gemeint. Die 2 in der Bezeichnung gibt an, dass zwei Byte (16 Bit) für die Kodierung jedes Zeichens verwendet werden. Somit können in dieser sog. ersten Ebene von Unicode ("Basic Multilingual Plane", kurz: BMP) bereits 65.536 Zeichen dargestellt werden. Auf den übrigen Ebenen des Unicodes sind selten verwendete, meist historische Schriftzeichen wie alt-ägyptische Hieroglyphen und kaum noch gebräuchliche chinesische Schriftzeichen kodiert. Für die Darstellung dieser Zeichen reichen 16 Bit nicht mehr aus. Daher wird jedes Zeichen mit 32 Bit kodiert, so dass insgesamt 4.294.967.296 verschiedene Zeichen möglich sind. Diese Kodierung wird als UCS-4 bezeichnet, wobei die 4 darauf verweist, dass vier Byte (32 Bit) für die Kodierung jedes Zeichens verwendet werden.

So ermöglicht es die UCS-4-Kodierung, jedes beliebige Unicode-Zeichen, gleichgültig welcher Ebene des Unicodes, in einem 32 Bit langen Datenwort dazustellen. Diese Kodierung wird mit Rücksicht auf ihren hohen Speicherplatz-Bedarf jedoch nur dann verwendet, wenn auch Unicode-Zeichen verwendet werden sollen, die zu einer höheren Ebene als der BMP gehören.

In TCE werden alle Strings als Unicode-Strings behandelt.

In TCE können Sie generell Unicode-Zeichen der ersten Ebene verwenden.

Benötigen Sie komplexere Schriftzeichen, die Ihnen nicht in der ersten Ebene zur Verfügung stehen, öffnen Sie in der Systemsteuerung den Bereich "Regions- und Sprachoptionen". Hier selektieren Sie die Registerkarte "Sprachen". Im Bereich "Zusätzliche Sprachunterstützung" finden Sie zwei Kontrollkästchen, die Sie aktivieren können, um zusätzliche Sprachen zu aktivieren.