Sådan en del voksne kønner vi tilbage og tager dem ud af skålen. Vi tager dem op med en skål. Matematisk statistik går ud på at sige noget rimeligt om en fordeling ud fra stikprøver. Derfor er det meget vigtigt i praksis at udtage sin stikprøve korrekt, ellers kan det gå galt på to måder. Der kan enten ske det, at en korrekt hypotese forkastes på grund af en uheldig stikprøve, ellers kan det ske det modsatte, nemlig at en forkert hypotese accepteres på grund af en heldig stikprøve. I denne lektion... Nu vil vi beskæftige os med at teste af hypoteser. Vi antager i det følgende, at fordeling er normalt fordelt. Dessuden antages, at de enkelte elementer i stikprøven er uafhængige af hinanden. Der gælder eksempelvis, at hvis vægten af en lastbilskods overstiger et bestemt antal ton, skal ejeren idømmes en bøde. Men der vil dog ikke nødvendigvis blive idømt den bøde, selvom en række målinger viser en mindre gennemsnitlig overvægt. Overvægten skal nemlig være signifikant, dvs. betydningsfuld og ikke bare tilfældigt. Om overvægten er signifikant afgøres ved en statistisk test med opstilling af to hypoteser. En 0-hypothese, som man ofte betegner med H0, står for det, som vi vil anse for sandt, indtil vi via en statistisk test bliver overbevist om noget andet. Den anden hypothese bliver så med tider betegnet med H1, som indeholder en benægtelse af 0-hypothesen. Lad os se på et eksempel. Vi antager, at vi befinder os på en kødfabrik, hvor der er en maskine, der har til opgave at indpakke 100 gram pålæg. Som et led i fabrikkens kvalitetskontrol udtages med mellemrum ved simpel tilfældig udvæltelse 8 pakker pålæg, hvis vægt kontrolleres. Nulhypotesen i dette tilfælde er altså vægten på en pakke pålæg er lige 100 gram. Med andre ord, hvis middelvægten for pakkerne er stadig lige u0, altså 100 gram, så kører maskineriet perfekt. Hvis det viser sig, at middelvægten ikke er under kontrol, jamen så skal maskinen nok efterses. Og middelvægten af de otte pålæg er acceptabelt afhængig helt af vores signifikansniveau. Vælger vi en høj signifikansniveau, så er sandsynligheden for, at vi forkaster 0-hygitesen også stor. Lad os nu forestille os, at pålægget må højst have en fedtprocent på 10 gram per 100 gram kød. Vores nullhypotese er nu, at der er højst 10 gram fedt per 100 gram pålæg. Det som er interessant eller uheldigt i sådanne situationer er, om fedtindholdet ligger over ifølge H0. Kun hvis fedtindholdet ligger signifikant over parameterværdien ifølge H0, altså de 10 gram, så går vi i aktion. Fejlsandsynligheden ligger altså i højre hale af sandsynlighedsfordelingen. Lad os nu forestille os, at pålægget er kendt for et rigt proteinindhold, som er efterspurgt af fitnessfolk. Derfor garanterer fabrikken mindst 20 gram protein per 100 gram pålæg. Lulhypotesen er derfor, at der er mindst 20 gram protein per pakke pålæg. Hvis det viser sig ikke at være sandt, så skal kødet altså efterses. Man kan naturligvis justere signifikansniveauet, hvis fætnesfolket er mere tolerante. Lad os kigge på et eksempel. Vi tager udgangspunkt i kødfabrikken. I dette eksempel vil vi kontrollere om pålægspakkerne vejer 100 gram. Til dette formål anvender vi følgende formel. Vi beregner os frem til et estimat fra stikprøven. Vi trækker parameterværdien ifølge nullubitesen fra. Og herefter dividerer vi altså med standardafvielsen for estimatet. Kender man standardafvielsen for proleget, anvender man den selvfølgelig. For at holde det simpelt, så antager vi i denne lektion, at vi kender standardafvielsen for proleget. Derfor anvender vi følgende formel. Hvor Z-observator er værdien på en vandrette akse for en normal fordelingskurve, som vi skal se lige om lidt. X-bar er gennemsnittet af værdierne af de uafhængige elementer i stikprøven. U0 er naturligvis parameterværdien. I dette tilfælde er den altså lige med 100. Sigma er standardafvielsen, og vi kan godt tyde den som en usikkerhed. For mere om det, så er det en god idé at se lektionen med normalfordelingskurven. Her har vi kvadratruden af stikprævens størrelse, hvor n altså er stikprævens størrelse. Vi har altså at pålægget skal i pakken veje 100 gram med en usikkerhed på 0,095 gram. Dette er altså standardafvielsen. Som et led i kvalitetskontrollen på fabrikken vælges 8 pålægspakker tilfældigt, hvis vægt vi har fået noteret her. Vi vil i dette tilfælde teste på et 5% signifikansniveau, om middelvægten for prolekspakkerne stadig er 100 gram. Det vil sige, at vi accepterer 0-hypotesen, hvis vi er i dette område. Men vi forkaster hypotesen, hvis vi befinder os i de røde områder. Vi laver altså med andre ord en dobbeltside test. Nulhypotesen siger, at middelvægten er 100 gram. H1 benægter hypotesen. N er naturligvis lige 8, da vi altså kontrollerer 8 pakker. Gennemsnittet af pakkerne beregner vi naturligvis ved at lægge dem sammen. Og herefter dividerer vi altså med stikprævens størrelse. Nu er vi i stand til at anvende formulen. Vi får en z-værdi på minus 3,57. Lad os se, hvad det betyder. Y-aksen angiver som så vanlig tætheden, og z-værdierne på en vandret af akse har følgende værdi. Ved hjælp af dette forhold kan man altså transformere en hver normalfordeling til en standard normalfordeling, med en middelværdi på 0 og en variance på 1. Dette gør tingene nemlig meget nemmere at arbejde med. Skriver man eksempelvis følgende i en af Excels felter, hvor 1,96 i parenthesen er en z-værdi, så giver Excel altså 0,975 fra ktilen. En sætværdi på angiver altså et 95% konfidensniveau. Og hvorfor det gør det, det vil jeg ikke komme ind på her, men vi accepterer det som det er. Og siden stikprøven har en sætværdi i det røde område, så må det afvises at vægten er under kontrol. Og derfor skal maskinen altså efterses.