CĂUTARE SITE

Codificare Unicode: standard de codificare a caracterelor

Fiecare utilizator de Internet în încercăriînființat una sau alta dintre funcțiile sale cel puțin o dată văzute pe ecran scrise cu litere latine cuvântul "Unicode". Ce este, veți învăța citind acest articol.

Unicode ce este

definiție

Codarea "Unicode" este un standard de codificarede caractere. A fost propusă de organizația non-profit Unicode Inc. în 1991. Standardul este conceput pentru a combina cât mai multe tipuri de simboluri posibil într-un singur document. Pagina creată pe baza sa poate conține litere și hieroglife din diferite limbi (de la rusă la coreeană) și semne matematice. Toate caracterele din această codare sunt afișate fără probleme.

Motive pentru crearea

O dată, cu mult înainte de apariția unui sistem unificat"Unicode", codificarea a fost aleasă pe baza preferințelor autorului documentului. Din acest motiv, de multe ori pentru a citi un document, a trebuit să utilizați tabele diferite. Uneori trebuia să se facă de mai multe ori, ceea ce complica semnificativ viața unui utilizator obișnuit. După cum sa menționat deja, soluția la această problemă în 1991 a fost propusă de organizația non-profit Unicode Inc., care a propus un nou tip de codificare a caracterelor. El a fost chemat să combine standardele morale învechite și diverse. Codificarea "Unicode", care a permis realizarea imaginilor de neimaginat la momentul respectiv: crearea unui instrument care să suporte un număr mare de caractere. Rezultatul a depășit multe așteptări - au apărut documente care conțineau atât text în limba engleză, cât și rusă, expresii latine și matematice.

Dar a fost precedată crearea unei singure codărinevoia de a rezolva o serie de probleme care au apărut datorită varietății largi de standarde care existau deja la acel moment. Cele mai frecvente sunt:

  • scrierile elfic, sau "karkozyabry";
  • set de caractere limitate;
  • problema conversiei de codare;
  • duplicarea fonturilor.

Standardul Unicode

O scurtă deviere istorică

Imaginați-vă că curtea este de 80 de ani. Tehnologia informatică nu este atât de răspândită și are o formă diferită de azi. În acel moment, fiecare sistem de operare este unic în felul său și este finalizat de fiecare entuziast pentru nevoi specifice. Nevoia de schimb de informații se transformă într-o revizuire suplimentară a tuturor lucrurilor din lume. Încercarea de a citi un document creat de un alt sistem de operare, de multe ori afișează un set ciudat de caractere, iar jocul incepe cu codificarea. Nu este întotdeauna posibil să faceți acest lucru rapid și uneori documentul necesar poate fi deschis după șase luni sau chiar mai târziu. Persoanele care schimbă frecvent informații creează tabele de conversie pentru ele însele. Și apoi de lucru pe ele dezvăluie un detaliu interesant: necesitatea de a le crea în două direcții, „de la meu în“ înainte și înapoi. Asigurați-inversiune banală mașină de calcul nu poate, pentru el, în coloana din dreapta a sursei, iar stânga - rezultatul, dar nu și invers. Dacă vedeți necesitatea de a utiliza orice caractere speciale în document, au trebuit să fie adăugate mai întâi, și apoi altul, și pentru a explica partenerului ceea ce trebuie să facă pentru aceste personaje să nu devină o „păsărească.“ Și să nu uităm că pentru fiecare codificare a trebuit să dezvolte sau să pună în aplicare propriile lor fonturi, ceea ce a dus la crearea unui număr foarte mare de duplicate în sistemul de operare.

Imaginați-vă, de asemenea, că pe pagina de fonturi tineVeți vedea 10 bucăți Times New Roman identice cu notații mici: pentru utf-8, UTF-16, ANSI, UCS-2. Acum înțelegeți că dezvoltarea unui standard universal a fost o necesitate urgentă?

Codare Unicode

„Părinții fondatori ai creatorii“

Originea creării Unicode trebuie căutată în 1987an când Joe Becker de la Xerox, împreună cu Lee Collins și Mark Davis de la Apple a inceput cercetarea în domeniul creației în practică a unui set caracter universal. În august 1988, Joe Becker a publicat un proiect de propunere pentru crearea unui sistem de codificare internațional de 16-bit multi-lingvistic.

Câteva luni mai târziu, grupul de lucru Unicodea fost extins pentru a include Ken Whistler și Mike Kernegan de la RLG, Glenn Wright de la Sun Microsystems și câțiva alți specialiști care au permis finalizarea lucrărilor privind formarea preliminară a unui singur standard de codificare.

Codare Unicode

Descrierea generală

Unicode se bazează pe conceptul de simbol. Această definiție este înțeleasă ca un fenomen abstract care există într-o formă specifică de scriere și realizat prin grafeme ("portretele" sale). Fiecare caracter este setat în Unicode printr-un cod unic care aparține unui bloc specific al standardului. De exemplu, grafemul B se află în alfabetul englez și rusesc, dar în Unicode corespunde 2 caractere diferite. Acestea sunt convertite într-o literă mică, adică fiecare dintre ele este descrisă de o cheie de bază de date, de un set de proprietăți și de un nume complet.

Avantajele Unicode

De la alți contemporani care codifică "Unicode"a variat o mare rezervă de semne pentru "criptarea" simbolurilor. Adevărul este că predecesorii săi aveau 8 biți, adică aveau 28 de caractere, dar noua dezvoltare avea deja 216 de caractere, ceea ce a fost un pas gigantic înainte. Acest lucru a permis codarea aproape tuturor alfabetelor existente și distribuite.

Odată cu apariția "Unicode" nu mai este nevoieutilizați tabelele de conversie: ca un singur standard, pur și simplu anulează nevoia lor. În mod similar, ei au scufundat în uitare, și „păsărească“ - un standard unic le-a făcut imposibilă, precum și de regulă necesitatea de a crea fonturi duplicat.

Dezvoltare Unicode

Desigur, progresul nu se oprește și din momentprima prezentare a trecut de 25 de ani. Cu toate acestea, charset „unicode“ păstrează cu încăpățânare poziția sa în lume. În multe privințe, acest lucru a fost posibil datorită faptului că a devenit ușor de implementat și sa extins, fiind recunoscut dezvoltatorii de software cu sursă de proprietate (plătite) și deschis.

codare unicode (standard de codificare a caracterelor)

În acest caz, nu este necesar să credem că astăzi noiAceeași codare Unicode este disponibilă în urmă cu un sfert de secol. In acest moment, a fost înlocuit cu versiunea 5.h.h, iar numărul de simboluri codificate a crescut la 231. Pe posibilitatea folosirii unei marje mai mari mărci a refuzat să mențină în continuare suport pentru Unicode-16 (care codifică, în cazul în care valoarea maximă a numărului limitat al acestora 216). Încă de la începuturile sale și până la versiunea 2.0.0 „Standardul Unicode“ a crescut numărul de caractere care a inclus aproape de 2 ori. Creșterea oportunităților a continuat și în anii următori. La versiunea 4.0.0 a existat deja o necesitate de a crește standardul însuși, ceea ce sa făcut. Ca rezultat, Unicode a dobândit forma în care o cunoaștem astăzi.

Unicode ce este așa

Ce altceva există în Unicode?

În plus față de imens, în mod constant de completarenumărul de caractere, „Unicode“ -Encoding informații text este o altă trăsătură utilă. Vorbim despre așa-numita normalizare. Mai degrabă decât a parcurge întregul caracter de document prin caracterul și substituie pictogramele din tabel de corespondență, utilizați unul dintre algoritmii de normalizare existente. Ce este?

În loc să risipești resursele de calculMașini pentru verificarea periodică a aceluiași caracter, care pot fi similare în diferite alfabete, folosind un algoritm special. Acesta vă permite să faceți un tabel coloană de căutare separat simboluri similare și se aplică deja pentru ei, nu peste si peste din nou pentru a reverifica toate datele.

Există patru astfel de algoritmi dezvoltați și implementați. În fiecare dintre ele transformarea are loc în conformitate cu un principiu strict definit, care se deosebește de ceilalți, prin urmare, nu este posibil să numim una dintre ele cea mai eficientă. Fiecare a fost dezvoltată pentru nevoi specifice, a fost implementată și utilizată cu succes.

Codificarea textului Unicode

Răspândirea standardului

Pentru 25 de ani de istorie, codificarea "Unicode"probabil a primit cea mai mare distribuție în lume. În conformitate cu acest standard, programele și paginile web sunt de asemenea ajustate. Lățimea aplicației se poate spune prin faptul că, astăzi, Unicode utilizează mai mult de 60% din resursele de internet.

Acum știți când a apărut standardul "Unicode". Ce este, știți și veți putea aprecia întreaga valoare a invenției, realizată de un grup de specialiști de la Unicode Inc. cu mai mult de 25 de ani în urmă.

</ p>
  • Evaluare: