Transcript for:
Stokastiske Variable

Goddag og velkommen til denne video, som skal omhandle begrebet stokastisk variable. Stokastisk betyder virkelig bare tilfældigt, så stokastisk variable er noget, vi bruger i forbindelse med tilfældige eksperimenter, det vil sige et eksperiment, hvor vi ikke på forhånd kan sige, hvad udfaldet bliver. Nogle eksperimenter har ikke naturligt et tal knyttet til deres udfald. Det kunne fx være, hvis vi kaster med en mønt. Så resultatet af vores eksperiment, hvor vi kaster med en mønt, kan blive enten plat eller krogende. Hvis vi nu gerne vil prøve at regne lidt mere på det her eksperiment, så kunne det være godt at knytte nogle tal til de udfald, vi kunne få. Det er det, vi kan med en stokastisk variable. En stokastisk variable knytter et tal til de enkelte udfald for et givet eksperiment. Så hvis vi altså slår med en mønt, så har vi udfaldet, at vi kan få plat. Og til udfaldet plat, der kunne jeg godt tænke mig at tilknytte tallet 0. Og hvis jeg får krone, vil jeg gerne tilknytte tallet 1. Når jeg skal definere min stokastiske variable, så plejer vi som regel at bruge et stort bukstav. Og ofte så starter vi bare med at bruge bukstavet x. Og har vi at gøre med flere stokastiske variable, så hedder det xyz osv. Min stokastiske variable vil jeg gerne kalde for store x, og den knytter altså tallet 0 til udfaldet plat og tallet 1 til udfaldet krone. Nu kan jeg begynde at skrive tingene op lidt mere matematisk, som fx hvad sandsynlighederne for de enkelte udfald er. Hvis jeg nu gerne vil hjælpe, at min stokastiske variable vil skrive op, at sandsynligheden for at få plat er 50%, eller det vil sige en halv, så kan jeg skrive p af store x lige med 0. er lige med en halv. Og sandsynligheden for, at store x er lige med 0, den er en halv. Men når store x er lige med 0, det svarer jo bare til udfaldet plat. Så en anden måde, jeg kunne have skrevet det her op på, det var, at jeg kunne i virkeligheden bare have skrevet sandsynligheden for plat. Og så kunne jeg skreve lige med en halv. Så det er altså to måder at skrive det samme på, men hvor den her op er en lille smule mere matematisk. For der i stedet for at bare skrive et ord her, så kan jeg nu sætte et tal på, som er tallet 0. Der er andre eksperimenter, hvor det mere naturligt falder for at definere den stokastiske variable. Det kan være et eksperiment, hvor udfaldet i sig selv er et tal, som fx hvis vi slår med en terning. Hvis vi slår med en terning, så er vores udfaldsrum Det er udfaldene 1, 2, 3, 4, 5, 6, hvis vi bare tæller antal øjne på terningen. Den stokastiske variable, vi kunne definere i denne forbindelse, kunne være en, der bare tilegner tallet 1 til udfaldet ved at få et øje, tallet 2 til udfaldet ved at få to øjne osv. Så nu kan jeg lave en tabel over værdier for den stokastiske variable. I den tabel vil jeg skrive de enkelte udfald heroppe, og de enkelte udfald betegner jeg med en lille x. Så en lille x betegner altså en bestemt værdi af den stokastiske variable. Så hvis lille x kan antage værdierne 1, 2, 3, 4, 5 og 6, Og det, jeg så kan skrive nedenunder, det er så sandsynligheden for at få en etter. Og måden, jeg vil gøre det på, det er altså, at jeg vil skrive sandsynligheden for, at min stokastiske variable, som jeg kalder stor x, den bliver lige med 1, eller 2, eller 3, eller 4, og det kaldte jeg jo x, de tal heroppe. Så derfor bliver notationen altså, at det hedder sandsynligheden for, at store x er lige med lille x. Det, det betyder, det er bare sandsynligheden for, at den stokastiske variable får værdien 2, for eksempel. Så her, der er x lige med 1, så står der sandsynligheden for, at store x er lige med 1, og 1, det svarer jo til at få en 1'er, og hvis det er en ganske almindelig terning, så vil det være en 6'edel hele vejen hen. Det her, det er jo sådan set også at opfatte som en funktion. Så til enhver værdi, den stokastiske variable kan antage, så har jeg tilknyttet en sandsynlighed. Og den funktion kunne vi også betegne med lille f'a'x, og den kalder vi for frekvensfunktionen. Hvis nu jeg gerne vil afbilde den her funktion i et diagram, så kommer den ikke til at ligne en så vanlig funktion, som vi er vant til fra matematisk analyse. Det er fordi, at i det her tilfælde har vi faktisk at gøre med en stokastisk variable, som kun kan antage nogle meget bestemte værdier. Så når jeg slår med en terning, så kan jeg netop få udfaldene 1, 2, 3, 4, 5 eller 6. Der er ikke noget, der hedder at slå 2,7 med en terning eller 2,3 med en terning. Så her har jeg altså fokuseret på det, man kalder for en diskret stokastisk variable. Så en diskret stokastisk variable betyder bare en stokastisk variable, der kun har bestemte værdier. I modsætning til det kunne man forestille sig en kontinuert stokastisk variable, og en kontinuert stokastisk variable kunne fx beskrive højden af de mennesker, der er til stede på rådhuspladsen en given aften fx. Men jeg vil altså tilbage til at tegne et diagram her for frekvensfunktionen for vores diskrete stokastiske variable, så jeg tegner 10 inddelinger, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10. Så heroppe står der 100%, eller et ettal, hernede står der 0,1, 2, 3, 4, 5. Og eftersom sandsynligheden er en sjættedel, det er jo ca. 17, eller procent, så kan jeg nu tegne det ind i mit lille koordinatsystem her. Og hernede på x-aksen, der skriver jeg lige alle de mulige udfald af vores stokastiske variable, så det var altså x, vi havde hernede. Og den her skal så gå op til 0,17 eller 17 procent, og det skal den her også, og det skal den her også, og den der, og den der, og den der. Så det her er et eksempel på en forholdsvis kedelig fordeling. Vi kalder det også en lige fordeling, når alle udfald har samme sandsynlighed for at blive udtrukket. Og det her diagram kalder vi for et pindediagram eller stolpediagram, og det er altså en illustration eller en måde at illustrere frekvensfunktionen på, når vi har at gøre med en diskret stokastisk variable. Nu kan vi også godt tænke os at se på de kumulerede sandsynligheder. Og de kumulerede sandsynligheder kan jeg også skrive op i en tabel på den her måde. Så jeg skriver altså mit lille x her, og det kan stadig antage værdierne 1, 2, 3, 4, 5 og 6. De kumulerede sandsynligheder betyder, at jeg tager den første her, og der skriver jeg bare den. Næste gang lægger jeg det næste tal til, så får vi to sjættedel. Så lægger jeg det næste tal til igen, så får vi tre sjættedel. Og så lægger jeg det tal til, der står her, så får vi fire sjættedel, og så videre derhenad. Sådan der. Den her måde at skrive en kumuleret sandsynlighed op på, kunne jeg også skrive ved hjælp af min stokastiske variable herovre, så jeg kan sige, at det her er sandsynligheden for, at min stokastiske variable er mindre end eller lige med dx, der står heroppe. Så sandsynligheden for at få noget, der er mindre end eller lige med en 1'er, når jeg slår med en tærning, det er en 6'edel. Sandsynligheden for at få noget, der er mindre end eller lige med en 2'er, det vil altså sige en 1'er eller en 2'er, det er 2 ud af 6, 2 6'edel. Sandsynligheden for at få noget, der er mindre end eller lige med en 3'er, det er en 1'er eller en 2'er eller en 3'er, det er 3 ud af 6, eller 3 6'edel, osv. Nu har vi jo igen en tabel, som jo faktisk kan bruges til at definere en eller anden funktion med. Og den funktion, den vil vi kalde for fordelingsfunktionen og skrive som store f af x. Store f af lille x. Så man kan sige, at den her sandsynlighed her for, at den stokastiske variable er mindre end eller lige med en given værdi, det er faktisk det, der definerer vores fordelingsfunktion. Hvis man kender lidt til en integralregning. så kan man se, at nu har jeg brugt et stort f her, og det er nok fordi, at den her funktion er en stammefunktion til den her funktion. Så med andre ord, så hvis vi nu havde en kontinueret stokastisk variable, så kunne vi finde fordelingsfunktionen ved at integrere frekvensfunktionen. Så vi kan altså sige, at store f'er x her, Det vil være integralet fra minus uendeligt, fordi vi skal starte med at tælle sammen så langt ud til venstre, som vi overhovedet starter, og så hen til et eller andet punkt x, så tæller vi sammen til et eller andet punkt x, og det er altså den her, vi så skal integrere dertil, og så får vi værdierne af vores fordelingsfunktion. Når vi nu har vores stokastiske variable defineret her, så vil vi gerne kunne udregne middelværdien for vores eksperiment. Og middelværdien kalder det også forventningsværdien eller expectation value. Det er den værdi, vi gennemsnitlig set forventer at få, hvis nu vi udfører eksperimentet rigtig mange gange. Så hvis nu jeg slår med en terning 1000 gange, så kan vi spørge os selv om, hvad forventer jeg i gennemsnit af øjnene viser. Så du vil sige, at jeg skal lægge alle de... antal øjne sammen, som jeg har fået på de 1000 slag, og så dividerer med 1000. Så middelværdien, den beskriver vi også. Vi hjælper det græske bogstav my. Det er et græsk m for middel, men vi bruger også betegnelsen store e af x. Det viser altså, at middelværdien her er en funktion af den stokastiske variable, så det vil sige, at den middelværdi, jeg udregner, afhænger selvfølgelig af den stokastiske variable, som jeg arbejder med. Og middelværdien udregner vi, som vi på sædvanlig vis udregner en middelværdi, hvis vi fx bare skal udregne middelværdien for et eller andet dataset. Det gør vi ved at tage hver enkelt observation i det her tilfælde, hver enkelt værdi, som den stokastiske variable kan antage, og så gange med sandsynligheden for at få den enkelte værdi, og så videre. I tilfældet med vores terning her, så skulle jeg altså sige, at den første værdi, jeg kunne få, det var et øje gange sandsynligheden for det, det var en sjættedel, plus to øjne gange sandsynligheden for det, det var en sjættedel, plus osv. osv., helt hen til, at det var en sekser gange en sjættedel. Hvis vi nu regner det her sammen, så kunne vi jo sætte en sjættedel uden for en parentes. Så ser vi 1 plus 2, det er 3, plus 3, det er 6, plus 4, det er 10, plus 5, det er 15, plus 6, det er 21. Og divideret med 6, 21 divideret med 6, det giver 3,5. Så nu har jeg altså udregnet middelværdien for vores stokastiske variable, og det betyder, at hvis jeg slår 1000 gange med en terning, så vil øjnene i gennemsnit vise 3,5. Og læg mærke til, at de 3,5 her, det er jo ikke et udfald, som ligger i udfaldsrummet, for det der kunne vi jo kun få et helt antal øjne, men vores middelværdi kan altså godt give et tal, som ikke nødvendigvis er et udfald i udfaldsrummet. Det næste, vi gerne vil udregne, det er variansen. af vores stokastiske variabel her. Variablen er defineret til at være den samlede kvadratiske afstand fra de forskellige værdier, den stokastiske variabel kan antage, til vores middelværdi. Grunden til, at det skal være kvadratisk, er dels fordi, at hvis vi tager og skal finde en afstand, så kunne vi jo trække to tal fra hinanden, så vi kunne tage den første værdi, hvor stokastiske variabler kunne antage minus middelværdien. Hvis jeg ikke gjorde andet end det, så kunne jeg jo gå hen og få nogle negative tal her, og jeg kunne også gå hen og få nogle positive tal, og så kunne vi jo risikere, at det hele gik ud med hinanden, og vi altid ville få en variance på 0. selvom vi godt kunne se, at der var variation i vores udfaldsrum herovre. Men hvis nu jeg sætter den i anden, så får jeg et mål, som altid er positivt, og samtidig får jeg så givet en ekstra stor straf til observationer eller til udfald, som ligger langt væk fra middelværdien. Så det vil sige, at man giver et ekstra stort bidrag til variancen, hvis man gør det. Og så skal jeg så gange med sandsynligheden her for at få udfald 1. Og det gør jeg så for alle de udfald, der er i udfaldsrummet. Så det her kan jo godt blive et længere regnestykke at skrive op. Og derfor er sådan noget som variansen også noget, som vi... altid bruger en computer til, fordi man kan jo forestille sig, at der er virkelig mange forskellige muligheder. Nu har en terning kun seks muligheder, men man kan sagtens forestille sig et eksperiment med rigtig mange muligheder. Hvis nu jeg for eksempel måler højderne af alle personerne i en eller anden klasse, så vil jeg få mange udfald, og det vil sige, at det her bliver et rigtig langt regnestykke. Så det er altså noget, man sætter en computer til, så vanligvis. Men her med terningen kan vi jo godt lige prøve at stille op, hvad vi får. Så her skal jeg altså tage den første værdi i vores udfaldsrum. og så skal jeg sige minus middelværdien, som vi jo lige har fundet ud af, at var 3,5, så det er gangen med sandsynligheden for at få det første udfald i udfaldsrummet her, som jo er en sjættedel, plus, og så gør vi det igen for det næste udfald, som var 2 minus 3,5, og den har heldigvis den samme sandsynlighed, så der ganger jeg med en sjættedel igen, plus, og så videre, og så videre, indtil vi har nået op til udfald nummer 6. Og hvis man regner det her ud, så får man 2,7. Et regnet. Man får nemlig 2,97. Det sidste, vi gerne vil udregne, er spredningen. Den er heldigvis nem, for det er spredningen, også kaldet standardafvielsen, den er bare kvadrat rundt af variancen. Så når vi først har udregnet vores varians, så er det nemt at udregne spredningen. Og i tilfælde med tærningen her, så giver den 1,7. Så det her var altså lidt om diskrete stokastiske variable, dels hvad en... hvad stokastisk variable overhovedet er for noget, og så hvordan vi ser på den her frekvensfunktion og fordelingsfunktion, hvad det er, de beskriver, og så hvordan vi kan udregne middelværdi, varians og spredning.