Transcript for:
Introduzione a Unicode e codifica caratteri

se stai seguendo questa playlist come principiante e dovessi trovare questo video un po' troppo dettagliato difficile puoi saltarlo senza compromettere il resto della playlist ma il mio consiglio è di provarci e in ogni caso ritornare più avanti quando ti sentirai più Pronto Buona visione riprendiamo da qui Cioè dalla situazione un po' prima dell'adozione di unicode il meglio sul quale A livello mondiale si era riusciti a mettersi d'accordo prevedeva l'adozione da parte di ciascun paese di una sua tabella Dove almeno i primi 127 caratteri erano praticamente diciamo così identici indipendentemente dalla nazione Ma oltre il 127 ci si avventurava in terre ove regnava l'incertezza Ecco allora che secondo la tabella in adozione in Europa centrale al 176 poteva corrispondere il pallino del grado centigrado mre nell'Unione Sovietica la loro lettera a cirillica per cui due messaggi di ipotetici climatologi non contenenti l'indicazione della codifica in adozione potevano generare nei rispettivi client di posta elettronica notevoli FR intendimenti a peggiorare le cose le regioni asiatiche dove è facile trovare pensate al cinese lingue basate su una moltitudine di ideogrammi per Codificare i quali un byte non era fin da subito sufficiente e infatti le codifiche adottate prevedevano anche 2 Byte questo però Pot ben immaginare generava ancora più incompatibilità tra i diversi sistemi A livello mondiale ed entra in gioco unicode e per fare quattro chiacchiere su questo signore vi devo chiedere lo sforzo mentale di separare il concetto astratto di simbolo carattere nelle varie lingue dalla codifica cioè Dalla scelta del codice numerico che per noi lo rappresenta Pensate ad unicode come a un enorme mappe dove sono presenti tutti ma proprio tutti i caratteri un elenco che potremmo anche rappresentare graficamente in forma tabellare in questo schema ogni quadratino colorato Rappresenta in realtà un insieme di 256 caratteri per non rompere la compatibilità con la maggior parte de applicativi di stampo Più che altro occidentale era così qualche decennio fa si è deciso di privilegiare i simboli corrispondenti ai nostri alfabeti occidentali che hanno trovato posto Guarda caso proprio qua all'inizio nell'angolino in alto a sinistra in questi primi 256 caratteri trovano posto quelli che corrispondono da 0127 come posizione agli stessi caratteri che trovavamo abbiam detto praticamente identici in tutte le varie tabelle di codici la grossa differenza rispetto a prima e che adesso Andando a considerare il carattere che è a posizione 128 partendo da zero non è più un simbolo che cambia a seconda le nazioni ne è stato scelto uno fissato per tutti anche qui secondo criteri di rapporti di forza sullo scenario internazionale chiaro che tu l'Americano lo statunitense non lo convinci ad usare codici che lo mettono in posizione di svantaggio sarà il contrario anche perché la sua forza sullo ripeto sul sul bilanciere internazionale era enorme lo è tutt'oggi lo sappiamo e così possiamo estendere anche questo strapotere a livello occidentale Ecco perché anche gli altri posti i primi tre blocchi da 256 simboli sono tutti dedicati al Latin script poi in questa graduatoria forse anche un po' antipatica chi troviamo non Latin ma europei e così via sembrano già un'infinità vero Eppure questo non è che uno dei 17 piani Plain che formano l'intero Universo unicode quello che abbiamo appena discusso viene indicato anche con il nome di Basic multilingual Plane BMP il piano Zero poi abbiamo il supplementary multiling Plane quindi unulteriore blocco elementare Plane 2 che è il supplementary ideographic Plane e così via fino ad arrivare all'ultimo che è il 17o che è strano perché tutto va con le potenze di due non informatica quindi ci saremmo aspettati in modo naturale non so 16 Plane questo un motivo tecnico però non non mi interessa approfondire facciamo allora quattro conti ogni minuscolo quadratino contiene 256 caratteri o meglio simboli molti dei quali corrispondono a dei caratteri dei diversi alfabeti ma non solo e ogni singolo simbolo corrisponde a quello che non i code viene chiamato un code Point quindi un simbolo carattere un code Point da qualche parte troveremo la Z maiuscola quella corrisponde a un code Point la z in cirillico corrisponderà a un altro code Point e così via quindi ogni bloccheto 200 Cod Point simboli in un Plane abbiamo 16 x 16 blocchi da 256 code Point che fanno la bellezza di 65.536 cioè 2 o 256 quad se preferite tutti e 17 i piani corrispondono alla bellezza di 1.14.12 Cod po le coordinate binarie di 1 qualunque di questi code Point simboli sono rappresentate da sei cifre es decimali di cui le prime due identificano il Plane però senza sfruttare l'intero possibile range perché con due cifre potremmo arrivare a FF 256 Plane vuol dire che ci si fermerà a 10 che corrisponde appunto a 16 in decimale per cui il basic Plan avrà come coordinata di piano 00 e l'ultimo come coordinata di piano 1 le altre quattro cifre es decimali invece servono proprio tutte da quella con tutti Zeri a quella con tutti un che corrisponde a FF FF che è la posizione all'interno di quel Plane corrispondente all'ultimo code Point l'ultimo quadratino in basso a destra 65.535 finito direte voi ogni cifra Ale necessita di un semi Byte cioè di 4 bit come dire che con un byte riusciamo a Codificare due cifre es decimali 1 Byte 2 Byte 3 Byte usandoli possiamo identificare in modo univoco qualunque code Point di questa bella ma la realtà per vari motivi che poi vedremo non è quella che a volte si spera e dovremo confrontarci con un nuovo concetto e cioè quello del encoding dei caratteri Ne parleremo però nell'ultimo dei video il pro prossimo che dedicherò all'unico a risentirci