asphelper.de - Referenz - Ascii- und ANSI-Tabelle

Link: Wichtiger Hinweis in eigener Sache!




Einführung ASCII/ANSI EBCDIC
Unicode Sonderzeichen  



Ascii, ANSI, Unicode & EBCDIC

Alle darstellbare Zeichen haben eines gemeinsam:
Die Zeichen werden durch einen numerischen Wert repräsentiert. Wenn Sie Zeichen in eine Datei schreiben, wird dieses Zeichen mit einem numerischen Wert gespeichert. Zum Beispiel A kann den binären Wert 0100 0001 haben. Wie Sie sicherlich schon gehört haben, werden Daten im Computer mit 0 und 1 behandelt, An oder Aus.

Welche Zahl repräsentiert jedoch welches Zeichen? Dafür gibt es mehrere Normierungen, die wichtigsten sind unter anderem:
ASCII/ANSI
Unicode
EBCDIC

Was ist der Unterschied dieser Normen? Zum einen gibt es Unterschiede bezüglich der Computersysteme: EBCDIC wurde von IBM für den Grossrechnerbetrieb entwickelt, ASCII/ANSI sowie Unicode findet überall Einsatz, vor allem aber im PC-Bereich. Der am meisten verbreitete Zeichensatz ist der ASCII/ANSI-Code. EBCDIC findet dagegen nur geringen Einsatz. Unicode wird immer mehr eingesetzt.

Eine weitere Unterscheidung ist in der Anzahl der Zeichen, die geringste Anzahl an Zeichen hat der EBCDIC-Code (108), der ASCII/ANSI-Code hat 256 Zeichen, der Unicode hat dagegen mehrere Hundertausend Zeichen, möglich sind derzeit über 1,1 Millionen unterschiedliche Zeichen.

Die nächste Unterscheidung ist bezüglich des Platzverbrauchs. Also wieviel Bits sind für das Darstellen eines Zeichens notwendig? Für den ASCII-Zeichensatz gibt es 2 Unterschiedliche Versionen: 7 Bit für den einfachen Zeichensatz, 8 Bit für den erweiterten Datensatz, welcher den einfachen beinhaltet. Der einfache ASCII-Zeichensatz und der erweiterte ASCII-Zeichensatz ist im ANSI-Zeichensatz zusammengefasst.

Der EBCDIC-Zeichensatz verwendet zumeist 8 Bit. Unicode dagegen ist bezüglich dem Speicherverbrauch variabel, möglich sind 8 Bit, 16 Bit und 32 Bit.

Aufgrund der Unterschiede muss, bevor eine Datei im Textformat gelesen werden soll, festgestellt werden welcher Zeichensatz in der Textdatei verwendet wird. Liest man im "ASCII-Modus" eine Datei aus, die in UNICODE geschrieben wurde, ist die Darstellung nicht korrekt.

Wie aber stellt man fest, welcher Zeichensatz verwendet wurde? Einmal so ausgedrückt: Die Welt des Computers ist gross, genauso gross ist das (Zeichensatz-)Chaos. Leider gibt es keine einheitliche Regelung. Im Bereich HTML und HTTP wird der verwendete Zeichensatz im HTTP-Header angegeben, so wird dem Browser mitgeteilt, welcher Zeichensatz verwendet werden soll.

Der Programmierer kann dies durch meta-Angaben im HTML-Header oder durch Anweisungen im HTTP-HEADER festlegen. Eine Angabe im HTML-Header sieht so aus:
<meta http-equiv="content-type" content="text/html;charset=iso-8859-1" />


Im HTTP-Header kann die Angabe in ASP per @-Direktive erfolgen:
<% @ Language="VBScript"<br>
     Codepage = 1252 %><%
%>
für die einzelne Sitzung kann die Angabe per Session-Objekt erfolgen:
<% @ Language="VBScript" %><%
   Session.CodePage = 1252
%>

Welche Nummer (wie hier z.B. 1252 oder iso-8859-1) welchen Zeichencode darstellt, habe ich in der Seite Codepage beschrieben, dort finden Sie eine kleine Auswahl.

Rund um das Thema Zeichensätze stehen Ihnen mehrere Seiten zur Verfügung.

top top
© Copyright By Klaus Keller, 2001-2008 - Alle Rechte vorbehalten.