Transcript for:
Statistica Descrittiva

ti do il benvenuto in questo nuovo video nel quale approfondiremo la statistica descrittiva i cui principi Sono alla base di tantissime tecniche di analisi dei dati e della loro organizzazione all'interno delle aziende Questo è il secondo video di una playlist dedicata alla statistica che lascio in descrizione nella quale il nostro obiettivo è esplorare tutti i concetti principali che bisogna conoscere per lavorare nel campo Tech e dell'intelligenza artificiale detto questo entriamo subito nel vivo del video come abbiamo detto nella scorsa puntata la statistica si divide in due grandi rami quella descrittiva e quella inferenziale oggi ci Conc entreremo sulla prima parte quella descrittiva che è fondamentale per raccogliere e organizzare i dati e mostrarli all'interno di visualizzazioni nello specifico oggi parleremo di tecniche di campionamento organizzazione dei dati definizioni statistiche fondamentali e grafici e diagrammi Partiamo quindi dalle tecniche di campionamento cioè quelle tecniche che permettono di andare a scegliere un campione all'interno di una popolazione il primo tipo di campionamento quello più conosciuto è chiamato campionamento casuale semplice in questo tipo di campionamento Ogni unità di quella che è la nostra popolazione per esempio dei cittadini italiani ha la stessa probabilità di essere inclusa nel campione quindi in quel gruppo sulla quale verrà svolta l'analisi questo metodo assicura che il campione sia rappresentativo perché sceglierò per esempio su 60 milioni di persone un campione di 100.000 persone in modo Random come vedete è molto semplice da implementare anche da capire Basta pescare a caso delle persone da quella che è la popolazione Però anche degli svantaggi Infatti Può essere difficile da realizzare immaginiamoci di Dover fare dei sondaggi Porta a porta se estraiamo a caso ci ritroveremmo a girare tutte le città d'Italia Dalle più piccole alle più grandi e sicuramente il percorso non sarebbe ottimizzato Oltre al fatto che magari qualche persona che vive dispersa in qualche paese di montagna avrebbe pochissima probabilità di entrare nel campione e quindi di rappresentare quella specifica tipologia di persona però comunque rimane un'alternativa di base molto valida parliamo ora del campionamento sistematico un'altra opzione nel campionamento sistematico immaginiamoci di mettere in linea una popolazione per esempio per età prendiamo 60 milioni di cittadini italiani dal più giovane al più vecchio e in questa lista ordinata scegliamo una variabile K che dice ogni quanti passi dobbiamo scegliere una persona in questa linea ordinata dalla persona più giovane a quella più vecchia andremo a prendere ogni 10.000 persone Una persona in questo modo avremo un campione che sicuramente si distanzia bene rispetto alla variabile per il quale il campione ordinato quindi in questo caso di diverse età di popolazione ma allo stesso tempo può introdurre dei bias soprattutto se nella lista c'è una periodicità che corrisponde al parametro che andiamo a scegliere quindi dobbiamo stare attenti al parametro che scegliamo in modo che non corrisponda con qualche caratteristica particolare della popolazione vi faccio un esempio veloce di un problema di bias se dobbiamo campionare L'inquinamento dell'aria in una giornata all'interno di una città potremmo decidere di prendere la misura ogni 6 ore all'interno delle 24 ore e misurare la qualità dell'aria in questo caso la misureremo a mezzanotte alle 6:00 del mattino alle 12:00 e poi alle 18:00 Quindi quattro volte al giorno Però magari il piccolo sia tra le 8 le 10 quando tutti si spostano per lavoro però non andando a prendere quel dato non catturiamo quell' inquinamento Maggiore dell'aria e lo lasciamo fuori a priori quindi sempre stare attenti quando si fa questo tipo di campionamento sistematico a scegliere una variabile K che riesca a catturare tutte le informazioni Poi c'è un altro tipo di campionamento che è quello stratificato immaginate di dividere la popolazione in strati omogenei per esempio per età per genere e campionare all'interno di Ciascun strato che verrà rappresentato in modo proporzionale all'interno del campione finale questo aumenta la precisione delle Stime statistiche ma ovviamente una conoscenza preliminare di quella che è la popolazione per andare a creare questi strati queste categorie Per esempio nelle abitudini di acquisto si potrebbe stratificare le persone per fasce di età e poi campionare all'interno delle fasce per essere sicuri di avere un po' di unità statistiche all'interno di ogni fascia poi c'è anche il campionamento a grappolo che divide la popolazione in grappoli o gruppi ad esempio quartieri scuole aziende e campiona interi gruppi quindi magari si fa il sondaggio all'interno di una intera classe all'interno del liceo che poi rappresenta l'intero liceo a livello statistico in un pool di altre scuole questo è efficace in termini di tempo e costi ma ovviamente crea rischio di bias nel caso in cui i grappoli non siano rappresentativi della popolazione e non siano neanche omogenei tra loro Quindi stare molto attenti capire se ha senso farlo ok Finita la parte sui campionamenti passiamo alla seconda parte del video quella riguardante le tabelle di frequenza si tratta di tabelle che vanno a riassumere i dati categoriali e anche quelli numerici mostrando quante volte ogni valore o ogni categoria appare nei dati per creare le tabelle di frequenza se i dati sono quantitativi bisogna creare delle categorie quindi dei range nella quale i dati sono distribuiti per esempio se abbiamo l'età persone tra 0 e 10 anni tra i 10 e 20 anni eccetera eccetera se i dati invece sono qualitativi si identifica le categorie Per esempio colore degli occhi oppure che ne so il frutto preferito per le persone grazie a queste tabelle si può calcolare le frequenze per esempio le frequenze assolute indicano il numero di volte che una categoria o un valore si verifica per esempio abbiamo una tabella di frequenza dell'altezza all'interno di una classe possiamo vedere che le persone tra 1,50 m e 1,59 m sono 5 Se volessimo invece calcolare la frequenza relativa che è la proporzione di ciascuna categoria rispetto al totale a quel punto dovremmo dividere questo numero 5 per il numero di persone nella classe in questo caso verrebbe fuori 10% perché la nostra classe immaginaria Gli studenti sono 50 un altro dato interessante è la frequenza cumulativa che è la somma delle frequenze assolute fino a una certa categoria se sommiamo le frequenze relative delle persone tra 1,50 m e 1,59 m e 1,60 1,69 m avremo 10% + 30% che è uguale a 40% e Potremo dire che il 40% delle persone nella classe Ha un'altezza uguale inferiore a 1,69 m Probabilmente questo vi fa pensare Ok ma che mi serve queste tabelle sono molto semplici Però in realtà sono utilissime per fare diverse cose soprattutto riassumere i dati avendo una panoramica Chiara della distribuzione di questi dati facilitare l'analisi aiutano a individuare già partendo dalle tabelle delle tendenze o dei modelli che poi puoi andare a studiare all'interno di questi dati e soprattutto aiutano nel creare visualizzazioni possono essere utilizzate per dare vita a grafici come istogrammi grafici a barre e boxplot che rendono questi dati dal formato tabellare a un formato visuale più comprensibile però Ricordatevi si passa sempre da queste tabelle di frequenza prima di arrivare a raccontarvi i grafici Volevo passare per alcune definizioni magari semplici però utilissime da conoscere probabilmente le conoscerete ma vi rinfresca un po' la memoria la più conosciuta di tutte la media è la somma di tutti i valori divisa per il numero totale di valori chiamata anche media aritmetica la più semplice Dopodiché c'è la mediana che è il valore centrale di un insieme di dati ordinati Quindi se mettiamo i dati in scala o le persone della classe dalla più bassa alla più alta prendiamo il valore centrale quindi la persona che sta in mezzo e quella sarà la mediana se il numero è pari prenderemo invece la media tra i due valori centrali Poi definiamo la moda che il valore che appare in modo più frequente Quindi se ci sono sette persone alte 1 m e 70 su una classe di 20 persone molto probabilmente quella sarà la moda e poi c'è il concetto di deviazione standard che è importantissimo misura la dispersione dei dati rispetto alla media quindi una deviazione standard alta porta a dire che rispetto alla media i dati Si spalmano molto lontani da questa in un intervallo di valori ampio Mentre se la deviazione standard è piccola Vorrà dire che i dati sono molto concentrati vicini a questa media lasci in sovraimpressione anche la formula per calcolarla Ma potete anche cercarla su Internet e poi per finire c'è la varianza che è definita come la media delle deviazioni al quadrato dei valori dalla loro media misura quanto un insieme di dati si discosta da questa media ma in realtà è molto più facile a farsi che a dirsi aggiungo altri due concetti molto importanti che è il concetto di percentili e il concetto di outlier i percentili sono misure che indicano il valore sotto il quale cade una certa percentuale di osservazioni sempre riferite a un insieme di dati ordinati quindi si ordina i dati in modo crescente e si può dire al percentile 40 che è dato da un valore cade il 40% dei dati che ho osservato poi c'è anche la formula ma come ve l'ho spiegato secondo me è molto più intuitivo il concetto di outlier invece legato ai valori anomali Quindi quelli che si discostano in modo significativo che sono lontanissimi dalla media possono influenzare le statistiche in modo drastico se abbiamo una media di persone che guadagna €2000 al mese e poi una persona che ne guadagna 20.000 facciamo la media tra tutti e probabilmente la media sarà molto più alta di €2000 al mese ma non perché le persone mediamente guadagnano di più ma perché c'è una persona che guadagna 10 volte tanto rispetto agli altri quindi bisogna stare attenti E molto spesso nell'analisi anche gli outlier sono tolti oppure trattati in modo diverso bene ora che abbiamo definito alcune definizioni di base che potete andare a riprendervi o approfondire nel dettaglio Ovviamente andiamo a parlare dei principali grafici e diagrammi partiamo dagli istogrammi forse i più conosciuti visualizzano la distribuzione di dati quantitativi e ogni barra rappresenta la frequenza delle osservazioni nell'intervallo specifico relativo a quella barra proprio quegli intervalli delle tabelle di frequenza per esempio una barra potrebbe rappresentare il numero di studenti alti tra 1,50 m e 1,59 m Poi ci sono i grafici a barre che sono diversi dagli istogrammi i grafici a barre confrontano invece dati categoriali le barre possono essere verticali o orizzontali e rappresentano la frequenza o la percentuale che quella categoria rappresenta per esempio il grafico a Barra e delle preferenze della frutta all'interno della stessa classe per fare un esempio Poi ci sono i grafici a torta Anche se spesso non son ben visti perché quando le fette della Torti diventano tante non si capisce più niente quindi fatelo solo se avete pochissime categorie abbiamo i diagrammi a dispersione dette anche scatter plot che analizzano la relazione tra due variabili quantitative Quindi quei grafici con tanti puntini e ogni punto sul grafico rappresenta una coppia di valori per esempio peso e altezza oppure relazione tra ore di studio e voto degli studenti e questo è molto utilizzato poi per andare a modellare i dati ma questo lo vedremo in altre puntate finiamo con l'ultimo tipo di diagramma che è il boxplot detto anche diagramma scatola Questo è molto molto interessante come vedete ha una forma un po' particolare ma adesso ve la spiego è utilissimo per riassumere la distribuzione di dati quantitativi e aiuta anche a visualizzare i valori anomali mostra la mediana i quartili e come ho già detto i Valor valori estremi dei dati bisogna misurare il primo quartile che corrisponde al 25o percentile la mediana che corrisponde al 50% Quindi al 50o percentile il terzo quartile che corrisponde al 75 percentile e disegnare una scatola tra il Q1 e il Q3 quindi quartile 1 e quartile 3 dentro questa scatola cadrà il 50% dei dati al centro ci sarà una linea per la mediana volendo si può aggiungere anche quella della media ovviamente andando a esplicarsi stremi non anomali dei dati eventuali valori anomali che stanno proprio fuori possono essere inseriti come punti singoli potete anche approfondire la formula che indica se un valore anomalo oppure no facciamo così per i più curiosi la lascio in sovraimpressione bene anche per questa puntata è tutto Commentate esprimendo un vostro parere se questa serve vi è utile magari per imparare cose nuove o per ripassare delle cose che magari già utilizzate ma che vi possono tornare utili Io vi saluto e vi do appuntamento al prossimo video della serie sulla statistica