💻

Introduzione a Unicode e codifica caratteri

Apr 10, 2025

Appunti sul Video di Unicode

Introduzione

  • Il video è per principianti e si consiglia di provarlo anche se può sembrare complesso.
  • È possibile tornare sui concetti più avanti quando ci si sente pronti.

Situazione Prima di Unicode

  • Prima di Unicode, ogni paese adottava tabelle di codifica caratteri diverse.
  • I primi 127 caratteri erano simili a livello mondiale, ma oltre a questi c'era molta incertezza.
    • Esempio: Carattere per grado centigrado diverso in Europa centrale e nell'Unione Sovietica.
    • Problemi di compatibilità tra messaggi di paesi diversi.

Problemi di Codifica

  • In Asia, lingue come il cinese utilizzano ideogrammi, richiedendo più di un byte per la codifica.
  • Questo ha portato a una maggiore incompatibilità tra sistemi diversi.

Introduzione a Unicode

  • Unicode è una soluzione per le incompatibilità nelle codifiche caratteri.
  • Separare il concetto di simbolo/ carattere dalla codifica (codice numerico che lo rappresenta).
  • Unicode come una grande mappa con tutti i caratteri.

Struttura di Unicode

  • Ogni quadratino colorato rappresenta un insieme di 256 caratteri.
  • I primi 256 caratteri corrispondono a simboli degli alfabeti occidentali.
    • Questi sono posti all'inizio della mappa.
  • I caratteri a partire dalla posizione 128 sono fissati e non variano tra nazioni.

Piani di Unicode

  • Unicode è composto da 17 piani, il primo è il "Basic Multilingual Plane" (BMP).
  • Ogni piano contiene simboli/ caratteri, con un totale di 1.114.112 code points.
  • I code points sono rappresentati da sei cifre esadecimali, le prime due identificano il piano.
    • Esempio: pian 00 per BMP, piano 10 per l'ultimo piano.
  • Ogni cifra esadecimale necessita di un semi-byte (4 bit).

Conclusione

  • La codifica dei caratteri (encoding) sarà trattata in un video successivo.