Was ist ASCII, UNICODE und UTF-8. Der PC ist ein großartiger Taschenrechner. Er führt lediglich Berechnungen mit Zahlen durch. Ich kann einen Text nicht verstehen. Codes sind daher Möglichkeiten, Textinformationen in numerische Daten umzuwandeln, die für den PC verständlich sind.

Was ist ASCII, UNICODE und UTF-8: Codes

ASCII

Es gibt verschiedene Codes. Der bekannteste ist der Code ASCII (Amerikanischer Standardcode für den Informationsaustausch). Dies ist ein amerikanischer Standard, aber einer der am weitesten verbreiteten der Welt. Er ASCII-Code definiert genau die Entsprechung zwischen Symbolen und Zahlen bis zur Zahl 127.

Die Zahl 97 wird also verwendet, um "a" darzustellen. Um die zu vertreten ?Einige von ihnen (weniger als 63) sind Steuercodes und sollten nicht angezeigt werden. Beispielsweise überspringt Code 32 die Zeile, Code 10 piept unter anderem auf dem PC.

Aber was ist mit Zeichen mit Akzent? Ja, die Amerikaner haben nicht an den Rest der Welt gedacht. Wir verwenden häufig die Codes 128 bis 255 für Akzente, aber die Codes unterscheiden sich von Land zu Land. Es ist nicht praktisch, Dokumente auszutauschen. Also mussten wir einen praktischeren Code finden: UNICODE.

UNICODE

Anstatt nur die Codes 0 bis 127 zu verwenden, verwendet UNICODE Codes mit viel größeren Werten. Damit können Sie darstellen alle spezifischen Zeichen mehrsprachig. Neue Codes werden regelmäßig neuen Codes zugewiesen, z. B. Latein (akzentuiert oder nicht), Griechisch, Kyrillisch, Armenisch, Hebräisch, Thailändisch, Hiragana, Katakana usw. Allein das chinesische Kanji-Alphabet enthält 6.879 Zeichen.

UNICODE definiert eine Entsprechung zwischen Symbolen und Zahlen. Auch wenn UNICODE gut entwickelt war, wurde es im Vergleich zu ASCII wenig genutzt. Senden Sie also niemandem eine UNICODE-Nachricht - er wird sie wahrscheinlich nicht lesen können. Selbst für Programmierer ist es nicht immer einfach zu manipulieren.

Obwohl wir sagen können, dass dieses Muster immer mehr wächst. Sprachen Java y Python werden bereits von UNICODE unterstützt. Die meisten von den OS (Windows, Linux, MacOS X usw.) können es ebenfalls lesen.

UNICODE in der Praxis: UTF-8

Theoretisch ist UNICODE sehr gut. In der Praxis ist die Geschichte jedoch anders. Im Allgemeinen wird in UNICODE ein Zeichen verwendet 2 bytes. Mit anderen Worten, jeder Text benötigt doppelt so viel Speicherplatz wie in ASCII. Es ist eine Verschwendung. Zeichen, die UNICODE erfordern, sind selten. Aber es gibt einen Trick: den UTF-8.

Ein Text in UTF-8 ist einfach, er wird vollständig in ASCII erstellt. Wenn wir ein UNICODE-Zeichen benötigen, verwenden wir ein Sonderzeichen mit der Aufschrift "Achtung, das nächste Zeichen befindet sich in UNICODE". Um genauer zu sein, geben wir den Anfang der Datei, die sich in UTF-8 befindet, mit Sonderzeichen an.

UTF-8 vereint die Effizienz von ASCII und die Reichweite von UNICODE. Tatsächlich wurde UTF-8 als Standard für die Codierung übernommen XML-Dateien. Die meisten aktuellen Browser unterstützen auch UTF-8 und erkennen es automatisch auf Seiten HTML.

Vorgehensweise auf Webseiten

Wenn Sie direkt die 'Ja Auf einer Webseite ist das nicht gut. Sie müssen eine dieser drei Lösungen auswählen:

Verwenden Sie HTML-Entitäten und setzen Sie '> is' anstelle von 'si‚;

Lassen Sie die 'si'trotzdem und geben Sie die Zeichenkodierung an, die Sie am Anfang der HTML-Datei (im Head-Tag) verwenden werden:

meta http-equiv = "Inhaltstyp" content = "text / html; charset =ISO-8859-1

(ISO-8859-1 ist der lateinische Zeichensatz, der unter Windows ausgeführt wird.)

Arbeiten Sie direkt in UTF-8 in Ihrem HTML-Editor (falls möglich). Dann fügen Sie hinzu:

meta http-equiv = "Inhaltstyp" content = "text / html; charset = UTF-8"

ISO-8859-1 ist für die meisten lateinischen oder westlichen Sprachen (Englisch, Französisch, Deutsch, Spanisch usw.) geeignet, und UTF-8 ist für unverzichtbar andere Sprachen (Japanisch, Hebräisch usw.).

Sie müssen eine dieser drei Optionen auswählen, um Ihre Anforderungen zu erfüllen.