Τι είναι ASCII, UNICODE και UTF-8. Ο υπολογιστής είναι ένας υπέροχος υπολογιστής, το μόνο που κάνει είναι να εκτελεί υπολογισμούς με αριθμούς. Δεν μπορώ να καταλάβω ένα κείμενο. Επομένως, οι κωδικοί είναι τρόποι μετατροπής πληροφοριών κειμένου σε αριθμητικά δεδομένα, κατανοητοί από τον υπολογιστή.

Τι είναι οι κωδικοί ASCII, UNICODE και UTF-8:

ASCII

Υπάρχουν διαφορετικοί κωδικοί Ο πιο γνωστός είναι ο κωδικός ASCII (Αμερικανικός τυποποιημένος κώδικας ανταλλαγής πληροφοριών). Αυτό είναι ένα αμερικανικό πρότυπο, αλλά είναι ένα από τα πιο ευρέως χρησιμοποιούμενα στον κόσμο. Αυτός Κωδικός ASCII καθορίζει με ακρίβεια την αντιστοιχία μεταξύ συμβόλων και αριθμών έως τον αριθμό 127.

Έτσι, ο αριθμός 97 χρησιμοποιείται για να αντιπροσωπεύει το "a" Για την εκπροσώπηση του ?, χρησιμοποιείται ο κωδικός 63. Μερικοί από αυτούς (λιγότερο από 32) είναι κωδικοί ελέγχου και δεν πρέπει να εμφανίζονται. Για παράδειγμα, ο κωδικός 10 παραλείπει τη γραμμή, ο κώδικας 7 μπιπ στον υπολογιστή, μεταξύ άλλων λειτουργιών.

Αλλά τι γίνεται τονισμένους χαρακτήρες; Ναι, οι Αμερικανοί δεν σκέφτονταν τον υπόλοιπο κόσμο. Συχνά χρησιμοποιούμε κωδικούς 128 έως 255 για τόνους, αλλά οι κωδικοί διαφέρουν από χώρα σε χώρα. Δεν είναι πρακτικό να ανταλλάσσονται έγγραφα. Έτσι, έπρεπε να βρούμε έναν πιο πρακτικό κώδικα: UNICODE.

UNICODE

Αντί να χρησιμοποιείτε μόνο τους κωδικούς 0 έως 127, το UNICODE χρησιμοποιεί πολύ μεγαλύτερους κωδικούς αξίας. Με αυτό, μπορείτε να εκπροσωπήσετε όλους τους συγκεκριμένους χαρακτήρες πολύγλωσσο. Νέοι κωδικοί εκχωρούνται τακτικά σε νέους χαρακτήρες όπως Λατινικά (με έμφαση ή όχι), Ελληνικά, Κυριλλικά, Αρμενικά, Εβραϊκά, Ταϊλανδέζικα, Χιραγκάνα, Κακάτα, κ.λπ. Το κινεζικό αλφάβητο Kanji περιέχει μόνο 6.879 χαρακτήρες.

Η UNICODE καθορίζει την αντιστοιχία μεταξύ συμβόλων και αριθμών. Ακόμα κι αν το UNICODE είχε αναπτυχθεί καλά, χρησιμοποιήθηκε ελάχιστα σε σύγκριση με το ASCII. Επομένως, μην στείλετε σε κάποιον ένα μήνυμα UNICODE - πιθανότατα δεν θα είναι σε θέση να το διαβάσει. Ακόμη και για προγραμματιστές, δεν είναι πάντα εύκολο να χειριστείτε.

Παρόλο που μπορούμε να το πούμε, αυτό το μοτίβο αυξάνεται όλο και περισσότερο. Γλώσσες Ιάβα y Python υποστηρίζονται ήδη από τη UNICODE. Οι περισσότεροι απο OS (Windows, Linux, MacOS X κ.λπ.) μπορούν επίσης να το διαβάσουν.

UNICODE στην πράξη: UTF-8

Θεωρητικά, το UNICODE είναι πολύ καλό. Αλλά στην πράξη η ιστορία είναι διαφορετική. Γενικά, στο UNICODE, ένας χαρακτήρας χρησιμοποιεί 2 bytes. Με άλλα λόγια, οποιοδήποτε κείμενο χρησιμοποιεί διπλάσιο χώρο από το ASCII. Είναι σπατάλη. Οι χαρακτήρες που απαιτούν UNICODE είναι σπάνιοι. Αλλά υπάρχει ένα τέχνασμα: το UTF-8.

Ένα κείμενο στο UTF-8 είναι απλό, γίνεται εξ ολοκλήρου σε ASCII και όταν χρειαζόμαστε έναν χαρακτήρα UNICODE, χρησιμοποιούμε έναν ειδικό χαρακτήρα, ο οποίος λέει «Προσοχή, ο επόμενος χαρακτήρας είναι στο UNICODE». Τέλος πάντων, για να είμαστε πιο αυστηροί, υποδεικνύουμε την αρχή του αρχείου, το οποίο είναι στο UTF-8, με ειδικούς χαρακτήρες.

Το UTF-8 συνδυάζει την αποτελεσματικότητα του ASCII και την εμβέλεια της UNICODE. Στην πραγματικότητα, το UTF-8 έχει υιοθετηθεί ως πρότυπο για την κωδικοποίηση Αρχεία XML. Τα περισσότερα τρέχοντα προγράμματα περιήγησης υποστηρίζουν επίσης το UTF-8 και το εντοπίζουν αυτόματα στις σελίδες HTML.

Πώς να κάνετε σε ιστοσελίδες

Εάν εισαγάγετε απευθείας το «Ναί σε μια ιστοσελίδα, αυτό δεν είναι καλό. Πρέπει να επιλέξετε μία από αυτές τις τρεις λύσεις:

Χρησιμοποιήστε οντότητες HTML και βάλτε '> is' αντί για 'si«?

ΑΣΕ το 'si"Τέλος πάντων και καθορίστε την κωδικοποίηση χαρακτήρων που θα χρησιμοποιήσετε στην αρχή του αρχείου HTML (στην ετικέτα Head):

μετα-http-equiv = "Content-type" content = "text / html; charset =ISO-8859-1 "

(ISO-8859-1 είναι το σύνολο λατινικών χαρακτήρων που εκτελείται στα Windows)

Εργασία απευθείας στο UTF-8 στον επεξεργαστή HTML (αν είναι δυνατόν). Στη συνέχεια, προσθέστε:

meta http-equiv = "Τύπος περιεχομένου" content = "text / html; charset = UTF-8"

Το ISO-8859-1 είναι κατάλληλο για τις περισσότερες Λατινικές ή Δυτικές γλώσσες (Αγγλικά, Γαλλικά, Γερμανικά, Ισπανικά κ.λπ.) και το UTF-8 θα είναι απαραίτητο για Άλλες γλώσσες (Ιαπωνικά, Εβραϊκά κ.λπ.).

Πρέπει να επιλέξετε μία από αυτές τις τρεις επιλογές για να καλύψετε τις ανάγκες σας.