Schritt 2: Optionale Erinnerung über Unicode:
Unicode ist kompatibel mit dem alten ASCII-Standard (in diesem Fall, dass die ersten 128 Zeichen des Unicode die gleichen Codes als jene aus ASCII) und enthält jeden Code jedes möglichen Zeichen und Symbole für alle Alphabete, Adjabs und Kreateur von allen Nationen und Kulturen der Welt. Und derzeit gibt es etwa 100.000 verschiedene Charaktere.
Dies bedeutet, dass wir mehr als 1 Byte zum Speichern von Code für die meisten von ihnen brauchen.
Mit einem Byte (8 Bits) konnten wir nur die 256 ersten Unicode-Zeichen kodieren (die ASCII kompatibel sind)
Mit zwei Byte (16 Bit) konnten wir die ersten 65.536 Unicode-Zeichen kodieren.
Mit vier Byte (32 Bit) könnten wir sie alle und noch mehr codieren...
So scheint der universellste Weg zu Unicode kompatibel Text in Dateien speichern, wäre 4 Bytes pro Zeichen zu verwenden.
Jedoch würde alten ASCII-Text-Dateien nicht mehr lesbar (wie sie nur 1 Byte pro Zeichen). Und in 4 Bytes pro Zeichen konvertieren würde verschwenden viel Platz (vier Mal mehr Platz)...
Deshalb erfanden sie verschiedenen Codierungsmethoden um Unicode-Text zu kodieren, ohne zu viel Platz zu verschwenden, und die Kompatibilität mit alten ASCII-Dateien. Diese Codierung Methoden sind benannt: UTF-7, UTF-8, UTF-16 und UTF-32.
.