Transcript for:
Inzicht in P-waarde en Hypothesetesten

Dan een woordje uitleg over het rapporteren van de p-waarde, zeer kort. Er zijn bepaalde conventies binnen de statistiek om p-waarde te gaan rapporteren. Waar is niet oké, of wat vind ik niet oké, als je zegt dat de p-waarde bijvoorbeeld kleiner is dan het significantieniveau. Dat is hetgeen dat we nodig hebben om dat besluit te kunnen nemen. Maar ik vind dat er een verschil is tussen een p-waarde van 0,049 en een p-waarde van 0,001. Als je enkel dit rapporteert, dan weet ik niet, is het dit scenario of is het dit scenario of een ander scenario. En voor mij is er een verschil, want dit is veel sterkere bewijskracht tegen de nulhypothese dan dit. Terwijl het wel oké is als je p-waarde heel heel klein is, dan is het niet nodig om ze volledig te gaan rapporteren. Dan weten we als ze heel klein is, een hele sterke bewijskracht tegen de nulhypothese. Dus vanaf een zeker moment, ik neem dit hier, vanaf het moment dat het kleiner is dan 0,001, zal ik gewoon zo rapporteren. Omdat dat me niet echt veel extra informatie oplevert. Ik weet, het is zeer klein. Maar ik vind 0,5 niet klein genoeg om te zeggen... Ik vind dat er echt wel nog een verschil is tussen getallen die dichtbij 0,05 liggen en getallen die er verder weg van liggen in termen van bewijskracht tegen de nulhypothese. En nu komen we tot de hele belangrijke eigenschap van hypothesetoetsen. Indien de observaties onafhankelijk zijn, dat wil zeggen dat de keuzes van de baby's onafhankelijk zijn van elkaar. Als ik de keuze weet van de ene baby, heb ik geen informatie over de keuze van een andere baby. Dat is een belangrijke assumptie voor ons, want dan kunnen we de binomiale verdeling gebruiken om het kansmodel te gaan modelleren. We berekenen de p-waarde op basis van de binomiale verdeling 1, dan is dat correct. Als de observaties afhankelijk zijn, is dat niet correct. Maar als dus dan die voorwaarde voldaan is, dan kan je aantonen dat de kans op een type 1-fout, die we zo klein mogelijk willen hebben, die is gelijk aan alpha. En dat is een heel bijzonder resultaat. Waarom? Omdat we wensen heel graag de kans te weten dat we een bepaalde fout maken, hier een type 1-fout. Het liefst van al willen we die kans ook kunnen controleren. We willen controle uitoefenen over die kans. En die alpha, dat significantieniveau, dat was iets dat we eigenlijk zelf kunnen kiezen. En dat we zelf naar voren kunnen schuiven. Dat wil zeggen dat we controle hebben op een kans dat we fout maken. Namelijk, de kans op een type 1 fout, 1 bijzonder soort van fout, is gelijk aan alpha. Dus dat is ook een van de redenen waarom we die alpha vaak klein gaan kiezen. Ten eerste omdat kleine p-waarden wel zeggen meer bewijskracht. En dus kleiner dan bepaalde grenswaarden wil zeggen voldoende bewijskracht om de nulhypothese te verwerpen. Maar we kiezen ook lijnen omdat we de kans op een fout, hier een type 1 fout, ook klein willen houden. En dat is een hele belangrijke eigenschap. Dus als we een hypothese toets uitvoeren, zijn we niet zeker of ons besluit juist of fout is. Dat kunnen we nooit met zekerheid zeggen. Maar de manier waarop we dit doen, via de hypothese toets, de instrumenten die we gebruiken, die garanderen ons, als we ze correct gebruiken, als we onafhankelijke observaties hebben, garanderen die ons... dat de kans dat we een type 1 fout maken maar 5% is. En dat is nog een ongelooflijk krachtig resultaat. Nu vraag je je misschien af, als het significantieniveau gelijk is aan de kans op een type 1 fout, waarom zet ik dat gewoon niet op 0? Waarom zou ik nog 5% toelaten om een type 1 fout te maken? Het antwoord daarop is, als je al vergelijkbaar 0 zou kiezen, dan gaat de kans op een type 2 fout, die hangt samen met elkaar. Niet via zo'n wiskundige formule, ik heb die niet getoond, die hangt wel op een bepaalde manier samen met elkaar. Maar ik kan dan aantonen dat de kans op een type 2 fout... zeer hoog zal zijn. Die zal naar 1 gaan. En dat houdt wel steek. Want stel nu even dat je alpha gelijk aan 0 kiest. Wanneer ga je de 0-hypothese gaan verwerpen? Dat is wanneer de p-waarde 0 is of kleiner. En de p-waarde kan niet kleiner zijn dan 0. Dus wanneer ga je dat gaan verwerpen als de p-waarde 0 is? Wel, in essentie, als je de p-waarde maar nauwkeurig genoeg berekent, voor gelijk welke hypothese het doet, is die eigenlijk nooit 0. Die gaat altijd groter zijn dan 0. Misschien maar een heel klein beetje, misschien maar 1 op een miljard. Maar die gaat altijd groter zijn dan 0. Dus dat wil zeggen, als je de nulhypothese, als je alpha kiest gelijk aan nul, omdat je die kans op een type 1-fout op nul wil zetten, ga je nooit de nulhypothese kunnen verwerpen. Want de p-waarde zal in essentie, als je het nauwkeurig genoeg berekent, nooit nul zijn. Dus ook als de alternatieve hypothese opgaat, ga je met alpha gelijk aan nul nooit de p-waarde kleiner, ga je nooit gaan verwerpen. Dus als de alternatieve hypothese opgaat, ga je altijd een fout maken van je gaat nooit verwerpen. Dus de kans op een type 1, type 2-fout zal... 1 zijn. Dus als je de kans op een type 1 fout op 0 zet, gaat automatisch de kans op een type 2 fout naar 1 gaan en dat willen we niet. Dus vandaar dat we een alpha gaan kiezen die klein is, omdat we zo'n kans op een type 1 fout echt wel klein willen houden. Maar we gaan hem ook niet te klein kiezen, omdat we anders een grote prijs betalen in termen van de kans op een type 2 fout. Die kans op een type 2 fout, en dus ook de power, dat is 1 met een kans op een type 2 fout, ja, we willen die kans op een type 2 fout ook graag zo klein mogelijk, maar die kunnen we niet controleren zoals dat we die kans op een type 1 fout kunnen controleren. We kunnen niet zomaar... een getal naar voren schuiven en zeggen van kijk dit is de kans op een type 2 fout. Wij focussen dus op de controle. op de kans op een type 1-fout. Maar we willen wel weten wat er allemaal een invloed heeft op de power of wat er een invloed heeft op een type 2-fout. Want dan kunnen we misschien op die manier toch nog trachten die power te maximaliseren of die type 2-fout zo klein mogelijk te houden. Dus we gaan even nadenken wat zou een invloed kunnen hebben op de power. Dus de kans om een correct besluit te nemen als in werkelijkheid de alternatieve hypothese opgaat. Met andere woorden, de kans om de nulhypothese te verwerpen als in werkelijkheid de nulhypothese niet opgaat. Oké, en we gaan daarvoor terugkeren naar de geldstukken. Verzwaarde geldstukken, en straks zou die koppeling wel maken naar het onderzoek van morele intuïtie. En we gaan twee experimenten doen. Ik heb twee geldstukken, A en B, want ik heb er hier maar één. Maar denk nu even dat dit een verzwaard geldstuk is, dat de kans op kop is een beetje meer dan 50%. 55%, een klein beetje verzwaard. En ik heb een tweede geldstuk, hier, geldstuk B. En hier is de kans op kop, is het veel meer verzwaard, is 80%. En ik ga dit geldstuk een aantal keer opwerpen. En ik wil dan toetsen, is dit geldstuk eerlijk of niet? Stel dat de tegenpartij niet weet, is het eerlijk of niet? Ik weet het wel, ik gooi een aantal keer elk geldstuk op. En dan moet die persoon, de andere persoon, gaan beslissen op basis van de reeks van kop en munt, is het eerlijk of niet? Voor welk geldstuk denk je, degene die een klein beetje verzwaard is, of degene die veel verzwaard is, ga ik sneller tot een besluit komen, een correct besluit? En we zitten hier dus te kijken naar de power, want ik ben aan het simuleren. In de veronderstelling dat de nulhypothese niet waar is. Want nulhypothese zegt 0,5 en dus verschillend van 0,5 is ook verschillend. Dus voor welk helstuk denk je dat we sneller bewijs zullen vinden tegen die nulhypothese?