Link: Wichtiger Hinweis in eigener Sache!
Unicode
In der Welt gibt es viele Sprachen, und damit auch viele tausend Zeichen. Dazu bestand bei vielen Firmen und Softwareentwicklern der Wunsch nach Sonderzeichen, wie z.B. Steuerzeichen in grösserem Umfang zu standardisieren. All diese Zeichen können nicht mit dem ANSI-Zeichensatz dargestellt werden, 8 Bit geben nun mal nicht genügende Möglichkeiten für derart viele Zeichen her.
Dazu wurde der Unicode-Standard (Unique Code, auch ISO-10646) geschaffen, dieser verwendet für die Zeichendarstellung mehr Bytes. Aber wer entwirft Unicode, Wer ist dafür zuständig? Beim Unicode-Konsortium handelt es sich um einen Interessensverband, dessen Aufgabe es ist, einen umfangreichen Zeichensatz zu standardisieren. In diesem Zeichensatz sind sowohl internationale Schriftzeichen wie z.B. aus dem asiatischem Raum als auch spezielle oftmals nicht-darstellbare Steuerzeichen. Dem Unicode-Konsortium gehören viele Firmen, Interessensverbände und Softwareentwickler an, z.B. HP, IBM, Microsoft, Adobe, SAP. Auch Sie können diesem Unicode-Konsortium angehören, wenn Sie einen entsprechenden Mitgliedsbeitrag bezahlen.
Der Unicode wird immer wieder erweitert, derzeit ist die Version 4.0.0 die aktuellste. Die Anzahl der Bytes, welche für die Darstellung verwendet werden kann jedoch schwanken. Für die Darstellung werden 8, 16 oder 32 Bit verwendet. 32 Bit geben Platz für bis zu 4.294.967.296 Zeichen, derzeit werden aber "nur" 1.114.112 Zeichen verwendet. Die sind wie nachfolgend verteilt:
| Grafik | 96.248 |
| Formatierung | 134 |
| Kontrollzeichen | 65 |
| Privat | 137.468 |
| Ersatz | 2.048 |
| Nicht darstellbar | 66 |
| Reserviert | 878.083 |
Bei den meisten Dokumenten/Programme werden 8 Bit für ein Zeichen verwendet. 32 Bit bedeutet das vierfache an Speicherbedarf, zuviel für manche Programme und Dateien. Dazu ist es recht ineffizient. Deshalb hat man die Möglichkeit geschaffen, auch mit 8 oder 16 Bit ein Teil des Unicodes darzustellen. Dies wurde in den Unicode Bit Transformation (UTF) festgelegt. Es gibt UTF8, UTF16, UTF16LE, UTF16BE, UTF32, UTF32LE, UTF32BE.
In den allermeisten Fällen wird für das Darstellen des UNICODE-Zeichensatzes 16 Bit verwendet, von daher kommt auch der Irrtum, Unicode würde 16 Bit für die Zeichen-Darstellung verwenden. Mit 16 Bit kann jedoch nur ein Teil des Unicodes dargestellt werden, und zwar 65536 Zeichen, was zumeist auch völlig ausreichend ist.
Ein Problem bei der Verwendung von UTF-8 ist der erhöhte Rechenaufwand, schliesslich muss jedes Zeichen von 8 Bit auf 32 Bit umgewandelt werden. UTF-16 ist da etwas effektiver, beide Transformationen haben jedoch den Vorteil weniger Speicher zu benötigen, sowohl auf einem Medium (DVD, HDD) als auch im Arbeitsspeicher. Hier muss man eventuell einen Kompromiss eingehen, UTF-16 kann da eine gute Wahl sein. Dennoch wird bei Verwendung des UTF-16 mehr Speicher als beim ANSI-Zeichensatz verwendet.
Die Menge an Zeichen und die Erweiterbarkeit macht Unicode immer mehr zum Zeichensatz-Standard, sei es bei Grossrechnern, bei Betriebssystemen, bei Computersprachen wie z.B. XML, HTML und in der Kommunikation.
Aufgrund der Anzahl an Zeichen kann der Unicode hier nicht dargestellt werden, rufen Sie dazu die Zeichen-Übersicht bei Unicode.org auf. Dort können Sie den Unicode in verschiedene Bereiche aufgeteilt als PDF-Dateien herunterladen.
Links zum Thema Unicode:
Das Unicode-Konsortium
Zeichen-Übersicht
Mitglieder des Unicode-Konsortiums (PDF-Datei)
Aktueller Unicode 4.0.0
Versionen-Übersicht
|