Transcript for:
Einführung in die deskriptive Statistik

Liebe Studierende, weiter im Programm. Wir haben jetzt hier das Video 3, in dem wir in die deskriptive Statistik einsteigen wollen. Ich schreibe das hier auch mal hin, damit wir sehen, ob das alles funktioniert. Deskriptive Statistik. Manchmal benutze ich sozusagen das iPad hier unten ein bisschen als Tafel. Ich hoffe, das funktioniert so für Sie. Was möchte ich in dem Video schaffen? Es wird wahrscheinlich ein bisschen länger als eine halbe Stunde gehen. weil es sehr viele Inhalte versucht auf einmal hier abzudecken. Vielleicht wird es etwa eine Dreiviertelstunde werden, dieses Video. Die Idee ist, dass wir uns mit dem Begriff der absoluten und der relativen Häufigkeit auseinandersetzen und dass wir dann erste Formen kennenlernen, um Daten grafisch aufzubereiten. Im Prinzip wird es hier darum gehen, als wichtige Botschaft im Hintergrund den Unterschied zwischen einem sogenannten Balkendiagramm und einem sogenannten Histogramm zu verstehen. Beides sind Diagramme, die irgendwie Balken haben und deshalb irrtümlicherweise als Balkendiagramm bezeichnet werden könnten. Aber ein Histogramm ist eine sehr spezielle Art, die nur für spezifische Arten von Variablen auch funktioniert, wie wir sehen werden. Also, lassen Sie uns heute einsteigen in die deskriptive Statistik. Deskriptiv, was meint es? Konventionellerweise, wie im letzten Video auch dargestellt, ist es erstmal, wenn wir von deskriptiver Statistik sprechen, gemeint als Gegensatz zur schließenden oder Inferenzstatistik. Die Inferenzstatistik möchte Aussagen über die Population treffen, die Deskriptivstatistik möchte das nicht, die möchte erstmal nur beschreiben, was wirklich gemessen wurde. Schätzen, Unsicherheiten, mit Unsicherheit behaftete Schlussfolgerungen, spielen in der Deskriptivstatistik keine. Rolle. Wir haben etwas beobachtet, gemessen. Wie können wir diese Beobachtungen nun aufbereiten? Und was können wir also mit Sicherheit über unsere Beobachtungen sagen? Auf unser typisches Diagramm mit Population einerseits, Stichprobe andererseits zurückkommt, heißt es auch, wir reden jetzt nur über die Stichprobe und wir reden nur eigentlich in lateinischen Buchstaben die nächsten Wochen, weil wir die griechischen Buchstaben für die Population noch nicht brauchen. Was sind Elemente der deskriptiven Statistik? Elemente, von denen Sie auch gehört haben sollten und die, wie Lernziele Sie auch beherrschen sollten, wenn Sie hier fertig sind. Wir wollen Häufigkeiten, mit denen bestimmte Merkmalsausprägungen auftreten, beschreiben, ineinander überführen können. Wir werden Häufigkeiten grafisch darstellen. Wir werden also erste... Diagramme kennenlernen. Das machen wir heute und dann in dem nächsten Video wird es darum gehen tatsächlich die Verteilung von Daten kennenzulernen, sogenannte Lage-Maße, also Kennwerte zu finden, mit denen sich eine Variable, eine ganze Menge von erhobenen Merkmalsausprägungen gebündelt in Kennwerten oder Statistiken darstellen lassen. Die Maße, in die es da gehen wird, lassen sich grob unterteilen in Maße der zentralen Tendenz. Also man kann sagen, wo hat so ein Merkmal seinen Schwerpunkt? Da wird es um den Mittelwert, den Median, den Modus gehen, das nur schon mal vorneweg, und Maße der Streuung oder auch eleganter ausgedrückt Dispersionsmaße. Und dann gibt es noch ein paar weitere Verteilungsmaße und Darstellungen, die wir dann brauchen können, zum Beispiel die sogenannten Quantile, die gehören auch zu den Lagemaßen. die zusammen dann zum Beispiel nochmal einen speziellen Plot, den sogenannten Boxplot führen. Aber da greife ich jetzt ein bisschen vor, nur damit Sie es auf einen Blick mal sehen. Dies sind die Elemente der deskriptiven Statistik. Wann beginnt denn deskriptive Statistik? Deskriptive Statistik beginnt, sobald ich meine Daten erhoben habe. Vorher kann ich nichts machen, vorher kann ich auch nichts mit Sicherheit sagen, aber dann, wenn ich die Daten habe, muss ich mir überlegen, wie ich sie organisiere, wie ich sie aufbereite. Also stehen irgendwie immer auch letztlich tabellarische Darstellungen. Dieses Tabellarische kann auch in Form von, erfolgt heute meist in Form von Datenblättern in sowas wie in Excel oder in einem Statistikprogramm wie Jamobi. Das werden sie auch in ihren Seminaren. kennenlernen. Aber so eine Organisation startet immer mit eigentlich so einer sogenannten Urliste. Die typische Organisationsform, die sich wirklich durch alles durchzieht, ist, dass wir die Beobachtungen, die wir getan haben, wissen Sie noch vom letzten Video, welchen Buchstaben wir dafür gewählt haben, bis N sozusagen, wir in Zeilen organisieren und alles, was wir so gemessen haben, quasi... in Spalten. Also verschiedene Merkmale. Zum Beispiel könnten wir ein Merkmal x gemessen haben, x1, ein Merkmal x2, ich würde sogar lieber sagen ein Merkmal y, ein Merkmal z. Verschiedene Variablen, Schuhgröße, Körpergröße, Geburtsdatum, im Prinzip alles mögliche kann als Merkmal erfasst werden und würde dann aber, sofern es von demselben Proband kommt, eben hier rüber abgetragen werden. Also vielleicht war die Körpergröße 172, die Schuhgröße aber, eine kleine Laune der Natur, nur 39. Und Y war vielleicht das Geburtsjahr, da steht dann 1984 oder irgend sowas. Dies eine sogenannte Urliste. Ganz wichtig, wir gehen davon aus, dass in so einer Zeile alle Einträge untereinander erstmal unabhängig voneinander sind, unabhängige Merkmalsträger, Beobachtungseinheiten darstellen. Und dann eine Spalte wiederum, aber sozusagen tatsächlich ein Merkmal darstellen. In dem Fall das Merkmal Y, also vielleicht die Geburtsjahre. Das wäre dann für das Ente, der war zum Beispiel hier unten, die Ente-Beobachtung, der war 1977 geboren, ein paar dazwischen, da war einer ein bisschen jünger, der war 1992, und dann noch einer von 1983 und so weiter. Die ist also die Beobachtung in einer. Variable. Die Urliste. Das ist eigentlich schon eine organisierte Form, die wir hier haben. Die Urliste unserer Daten, die würde zum Beispiel so aussehen. Das sei hier mal ein Beispiel aus dem Eid und Golgatha Schmidt dargestellt. Man könnte sich dieses Datenbeispiel so vorstellen wie eine Art loses Logbuch, was vielleicht eine psychiatrische... Ambulanz führt oder eine psychotherapeutische Ambulanz, wo Probandinnen, Probanden, also Patientinnen, Klienten, wie immer man sie nennen will, vorstellig werden und denen werden sozusagen bestimmte Diagnosen verliehen. PS steht hier für Persönlichkeitsstörung. Zum Beispiel die erste Probandin, die da mal reinkam oder die erste Klientin, wurde eine paranoide Persönlichkeitsstörung. Bei der zweiten eine dissoziale Persönlichkeitsstörung, bei der dritten auch eine histrionische Persönlichkeitsstörung usw. Wir sehen dann, irgendwann kommt mal wieder jemand Paranoides, der vierte Proband ist wieder jemand mit einer paranoiden Persönlichkeitsstörung, emotional instabil. Wir sind uns sicher auch gleich einig, dass das nicht die beste Darstellungsform sein kann. Ist eigentlich auch noch gar keine Darstellungsform, das ist die sogenannte Urliste von Diagnosen. Wie könnte man das in der ersten Annäherung etwas handlicher organisieren? Nun, man könnte eine Art Tabelle draus machen, in dem man überhaupt mal sagt, welche verschiedenen Merkmalsausprägungen kamen denn vor. Also Paranoid wäre eine, ängstlich eine andere. Und dann einfach mal zu zählen, wie oft kamen die denn vor. Dabei verlieren wir auch Informationen. Sehen Sie das? Wir verlieren jetzt die Information... welcher der Probanden was zeigte und ob es der fünfte oder der siebte war, der reinkam oder der 21. Aber das interessiert uns jetzt eben an der Stelle auch nicht, sondern wir sagen, wir wollen einfach wissen, wie oft tritt welche Merkmalsausprägung eigentlich auf. Und dieses wie oft ist natürlich ein Maß der Häufigkeit. Und was wir de facto hier haben, sind sogenannte absolute Häufigkeiten. Paranoide Persönlichkeitsstörung kam also zweimal vor, das sehen Sie hier. Emotional instabile dreimal und irgendeines kam wahrscheinlich auch am häufigsten vor, genau die dissoziale Persönlichkeitsstörung kam sechsmal vor. Sie sehen hier in dem Lehrbuch noch so gelöst die verschiedenen Merkmalsausprägungen, die es gibt. Die werden hier mit so einem eigenen kleinen Laufindex bezeichnet. Ganz lustiger Rückgriff auf unsere Nomenklatur vom letzten Video. Hier wird also mit einem... Laufindex j gleich 1, 2 bis 9, weil es 9 verschiedene Ausprägungen gibt, werden hier die verschiedenen Merkmalsausprägungen auch durchnummeriert. Das spielt jetzt gerade noch keine große Rolle. Die absolute Häufigkeit ergibt sich dann einfach natürlich über das Aufsummieren dieser n pro j Ausprägung. Also ergibt sich hier unten wieder die insgesamte Anzahl der Probanden, nämlich 24 Probanden. Eine erste Darstellung, eine ganz, ganz wichtige Darstellung für solche Merkmale ist jetzt das sogenannte Säulendiagramm. Bevor ich Ihnen das zeige, kurz aber nochmal die Überlegung der Rückgriff auf das Berühmtes Skalenniveau. Was ist denn eigentlich das Skalenniveau? Was ist die Messskala, mit der wir es hier zu tun haben? Wir haben verschiedene Ausprägungen von Persönlichkeitsstörungen gemessen. Lassen die sich irgendwie in Zahlen in ein sinnvolles, numerisches, metrisches Verhältnis zueinander bringen? Kann ich sagen, die soziale Persönlichkeitsstörung ist zweimal so stark, so schlimm wie paranoide Persönlichkeitsstörungen? Natürlich nicht. Ich kann auch nicht sagen, das ist... fünf Persönlichkeitseinheiten stärker als schizoide Persönlichkeitsstörungen. Das macht also alles offensichtlich keinen Sinn. Ich würde nicht mal sie in irgendeine Rangreihe bringen können. Ich kann nicht mal ordinal argumentieren, zwanghaft ist irgendwie schlimmer als histrionisch, sondern wir haben es hier klassischerweise mit Äpfeln und Birnen, also einem nominalen, einem kategorialen Merkmal zu tun. Das ist ganz wichtig, denn den Graph, den wir uns jetzt anschauen, das Säulendiagramm, der ist eben dafür gemacht. Kategorien. in ihrer Ausprägung abzubilden. Das heißt wir haben hier unser erstes Säulendiagramm oder Balkendiagramm, ein Ausdruck den ich austauschbar verwende, im Englischen oft auch als Bar Chart oder Bar Graph bezeichnet. Das ist wichtig, weil in vielen Statistikprogrammen Sie dann auch unter Bar Chart oder unter Bar diese gesuchte Darstellung dann finden, wenn Sie Ihre Daten so plotten wollen. Wir haben jetzt also hier auf der Kategorienachse würde man sagen, die verschiedenen vorkommenden Kategorien abgebildet. Interessanterweise wurden hier auch noch zwei abgebildet, die eigentlich die die klinische Psychologin vielleicht noch erwartet hätte, deren Abwesenheit in dieser Stichprobe aber vielleicht auch informativ ist. Sie sind also hier mal mit abgetragen. Zum Beispiel schizoide Persönlichkeitsstörungen und abhängige Persönlichkeitsstörungen kamen ja eben gar nicht vor. Und was haben wir hier auf der Y-Achse? Die ist durchaus metrisch, die trägt nämlich die absoluten Häufigkeiten ab. Nj. Wie oft kam die j-te Ausprägung eigentlich vor? Was jetzt wichtig ist an dem Säulendiagramm noch? Die Reihenfolge, in der die Kategorien hier auf der Achse abgebildet sind, auf der Kategorienachse, die ist komplett willkürlich. Ganz getreu der Eigenschaft einer Nominalskala. Diese Kategorien stehen nicht in irgendeiner informativen Verhältnis zueinander, schon gar nicht in irgendeinem metrischen Verhältnis. Und entsprechend ist Ihnen hier auch alles erlaubt, die anders anzuordnen. Wenn Sie finden, dass es schön aussieht, wenn Sie jetzt eine Art Datenjournalistin bei der Zeit oder bei der Welt oder bei der FAZ wären, dann würden Sie vielleicht sagen, ich möchte meiner Leserin hier was Bestimmtes vermitteln, ich ordne die jetzt gleich mal an, damit man sofort auf den ersten Blick sieht, welche die häufigste ist. Dann würde man zum Beispiel die Dissoziale hier ganz nach links oder ganz nach rechts rücken. Das wäre völlig erlaubt und würde keinerlei Informationen Ihnen rauben. Also Sie könnten natürlich ein Bar-Diagramm auch so machen, dass Sie sagen, Sie haben drei Kategorien. A, B, C. Und die Kategorie B ist die häufigste. Die Kategorie C kommt kaum vor. Dann könnten Sie natürlich ohne Datenverlust die Daten dann auch so plotten, dass Sie sagen, Sie machen sich das hier so. C. Die Daten bleiben dann natürlich dieselben. B. Und hier auf der y-Achse müsste natürlich stehen, was das Merkmal y wäre, was hier abgetragen wird. In unserem Fall ist es gerade einfach nur die absolute Häufigkeit, ganz einfach. Aber sehen Sie, wie dann hier eine andere Botschaft vermittelt wird als hier. Es ist aber trotzdem völlig legal, so etwas zu machen. Wir haben dann neben dem Balkendiagramm auch noch die Möglichkeit, diese Daten in einem sogenannten Tortendiagramm oder Pie Chart darzustellen. Der Pie Chart hat unter Wissenschaftlerinnen und Wissenschaftlern keinen so sehr guten Ruf. Er war so die letzten 15, 20 Jahre, glaube ich, extrem beliebt, weil er auch in Excel und in Word die naheliegendste Diagrammform war. Er hat aber ganz spezielle Funktionen, die er eben sehr gut kann. Was kann ein Tortendiagramm sehr gut? Ein Tortendiagramm kann sehr gut auf... einen Blick zeigen, wie sich quasi die Gesamtheit zusammensetzt. Also, die Tatsache, dass die ängstliche Persönlichkeitsstörung fast... So, wenn man hier drauf schaut, würde man sofort sagen, das macht etwa ein Viertel aller Daten aus. Und die Dissoziale sogar fast ein Drittel aller Daten. Das sehe ich einfach. Ohne irgendwelche Zahlen zu benutzen, kann ich das mit diesem Graph kommunizieren. Wenn ich nochmal zurückspringe, kann ich das hier nicht ganz so gut. Ich weiß nicht, was diese 6 wirklich wert ist. Ich sehe, es sind viele drin, aber wie viele von allen, das sehe ich hier nicht so gut. Diese Möglichkeit habe ich hier also eher. Wenn ich... ein Tortendiagramm benutzen möchte, um solche, die letztlich relative Verteilung zu studieren, dann muss ich mich fragen, wie groß soll ich dann aber so ein Kreissegment eigentlich machen. Wir brauchen also jetzt eigentlich zum ersten Mal so etwas wie eine relative Häufigkeit, denn wir müssen fragen, wie groß war denn das Kreissegment. Also wenn es heißt, wir gehen nochmal zurück, Für die dissoziale Persönlichkeitsstörung zum Beispiel brauchen wir 6 von wie viel Anteilen? Ja, eigentlich von 24 Anteilen quasi. Und das müssen wir dann übersetzen, diese Anteile, in Grad, Winkelgrade, um das Kuchenstück entsprechend groß zu machen. Die Formel ist natürlich dann eigentlich denkbar einfach, nämlich die Häufigkeit HJ, über die wir gleich noch sprechen müssen. Also die relative Häufigkeit eigentlich multipliziert mit 360 Winkelgraden. Wenn ich also fragen würde, zum Beispiel, was ist die sogenannte relative Häufigkeit von Lübecker Studierenden, die den Namen der Unikanzlerin kennen. Sie sitzen jetzt zu Hause am Computer, Sie können es natürlich schnell googeln, beziehungsweise in den letzten Wochen hat sie an Popularität vermutlich gewonnen, weil sie uns viele E-Mails geschrieben hat, wie jetzt in dem... in diesem speziellen Sommersemester 20 alles zu laufen hat. Die Kanzlerin heißt natürlich Sandra Magens. Ich habe mal vermutet, dass vielleicht eigentlich gar nicht so viele der Studierenden das wissen. Und wenn ich zum Beispiel erhoben hätte, wirklich gemessen hätte, dass es 14% aller Studierenden wissen, dann könnte ich hier ein Kreissegment ermitteln, in dem ich sage, 14% überführe ich in eine Proportion von 0.14 oder 0.14. multipliziert es mit 360, weiß dann etwa, um 14% abzubilden, oder nicht etwa, sondern genau, muss ich also ein 50 Grad großes Kuchenstück machen. Genau, mit Kuchendiagrammen, weil sie eben so einen schlechten Ruf auch haben, lässt sich auch gut Scherze treiben, das ist von dem berühmten, auch sehr wissenschaftsaffinen Comic XKCD, kennen Sie wahrscheinlich. Wenn Sie es noch nicht kennen, lernen Sie es heute kennen. XKCD hat sehr viele auch statistisch interessante Comics, natürlich immer mit so Augenzwinkern. Dann sehen Sie hier ein Kuchendiagramm, was im Übrigen völlig korrekt ist. Können Sie sich ja auch mal anschauen. Ein Beispiel möchte ich noch kurz zu den absoluten Häufigkeiten aber machen. Und zwar möchte ich das mal am Beispiel einer E-Mail-Inbox, und zwar meiner eigenen E-Mail-Inbox von vor ein paar Jahren, durchspielen. In meiner Inbox habe ich mich gefragt, von welchen meiner Mitarbeiterinnen und Mitarbeitern komme ich eigentlich wie viele E-Mails? Wie viele E-Mails tausche ich so mit denen aus? Da gibt es den Malte Wüstmann, da gibt es die Sarah Thun, da gab es auch mal den Michael Plöchel. Das sind alles Mitarbeiter von mir. Wir sehen jetzt hier schon an diesen drei Screenshots auch gleich, wie viele E-Mails da jeweils gefunden wurden. Wir können uns also fragen. wie sähe eigentlich die sogenannte Urliste dieser Daten aus? Und wieder Frage an Sie, was ist eigentlich das Skalenniveau des Merkmals, was hier gemessen wird? Da muss man mal kurz drüber nachdenken. Vielleicht ergibt sich das mit dem Skalenniveau sogar daraus, wenn wir uns die Urliste mal anschauen. Die Urliste dieser Daten sieht übrigens eigentlich einfach so aus. Das sind im Prinzip die lange, lange Inbox oder die Absenderspalte meiner Inbox, das wäre in dem Fall die... Urliste. Da steht dann Malte Wüstmann, Malte Wüstmann, Malte Wüstmann, Sarah Thun, Malte Wüstmann, Michael Blöchel und so weiter. Frage an Sie nochmal, was ist das Skalenniveau hier eigentlich? Ich messe ja eigentlich Absender. Und der Absender, das ist eigentlich naheliegend, weil es hier auch Namen sind, ist tatsächlich nominal skaliert. Das ist eine kategoriale Variable, die in dem Fall nur diese drei Ausprägungen annehmen kann. Ich kann jetzt diese Uhrliste also nehmen und mal zählen, wie oft kam denn je mehr vor. Wir hatten das gerade schon in dem Screenshot gesehen. Dann könnte ich schreiben quasi mit diesem Subskript-Trick hier nMW, also n Malte Wüstmann 565 mal, n Sarah Thun 127 mal, mal Michael Blöchel 217 mal. Jetzt können wir zum Säulendiagramm wieder greifen und ein Säulendiagramm mit drei Säulen oder Balken gestalten, was dann etwa so aussehen würde. Malte Wüstmann, Sarah Thun, Michael Plöchel und hier auf der Y-Achse die absoluten Häufigkeiten. Und ich wüsste dann, Malte Wüstmann ist also der Inbox-König sozusagen zu dem Zeitpunkt, als ich diese Daten damals... erhoben habe oder ausgelesen habe. Also meine Inbox hatte ich am meisten E-Mails von Malte Wüstmann. Wir können es kurz durchexerzieren. Wie würde daraus ein Pie-Chart werden? Ich muss die relative Häufigkeit für Malte ermitteln. Ich muss wissen, er hat zwar 565 E-Mails mir geschickt, aber das ist die absolute Häufigkeit. Aber was ist die relative Häufigkeit? Ich muss das in Bezug setzen. Ich muss die Häufigkeit in dieser Kategorie, also dieses NJ, in Bezug setzen zum N-Total. Das ist jetzt der einzige Ausflug, den ich mir kurz erlaube, auch zur aktuellen Situation mit dieser Corona-oder Covid-19-Pandemie, weil genau diese Debatte, was steht eigentlich im Nenner, was ist das Total, eine hochbrisante epidemiologische Frage ist, wie Sie sich vielleicht noch erinnern können, jetzt vor zur Zeit oder vor einigen Wochen, wann immer Sie dieses Video schauen oder auch Vielleicht schauen Sie es auch in der Zukunft und können sagen, damals bei dieser Corona-Pandemie, war auf jeden Fall eine große Frage der Public Health, also der ganzen epidemiologischen Diskussionen, was ist eigentlich die Gesamtfallzahl? Um zu wissen, was ist die relative Häufigkeit jener, die schwer erkrankt sind oder jener, die verstorben sind, ob das 5% sind oder 8% oder 0,5% oder 0,05% hängt natürlich davon ab, durch was ich teile. Und das ist dieses N-Total, das Totale aller Fälle. Da sehen Sie also, in der Praxis kennen wir das manchmal gar nicht so sofort. In diesem einfachen Fall hier kennen wir aber N-Total natürlich. Das ist nämlich einfach die Anzahl aller E-Mails, also letztlich die Länge meiner Urliste, die ich habe. Ich kann fragen, wie viele Einträge für Malte Wüstmann geteilt durch die Länge aller Einträge, das totale N. Das totale N ist in dem Fall 909, das sind 909 E-Mails, um die es geht. Und ich kann dann einfach das ausrechnen, die relative Häufigkeit. Kurzer Einschub hier zur relativen Häufigkeit nochmal. Nur damit wir uns da völlig einig sind und es führt doch auch immer mal wieder im Eifer des Gefechts zu einer Verwirrung. Ob ich schreibe 100% oder ob ich schreibe 1 ist sozusagen natürlich genau dasselbe. Das ist aber deshalb manchmal tricky, wenn man so in den kleineren Bereich hier geht, wie hier unten gezeigt, wenn ich von zum Beispiel 5% spreche oder auch von einem Prozent, wie wir es später bei den Wahrscheinlichkeiten relativ oft tun, dass man dann als Proportion natürlich 0,05 schreibt oder 0,01. Manchmal, zur völligen Verblüffung aller Verteidigung, interessiert einen aber auch was wirklich sehr kleines, wie 0,01. Prozent, dann muss man sich überlegen, wie viele Nullen muss ich denn da jetzt hin machen, da muss ich dann sozusagen 0,001 So sozusagen das schreiben, um 0,01 Prozent überhaupt noch abzubilden. Also da muss man einfach sagen Obacht zwischen Prozent und Proportion. Okay? Am Tortendiagramm ist es dann allerdings immer ganz schön, da kann ich sagen, ich habe noch 75% meiner Torten, das sind also noch, ich habe noch 3 Viertel meiner Torten oder 0,75. Aber jetzt zurück zu dem Pie Chart für dieses Inbox Beispiel. Ich muss also sagen, wie groß ist mein relatives Kreissegment. Ich habe ermittelt, dass die relative Häufigkeit der Malte Wüstmann E-Mails zum Beispiel 0,62 oder 62% war und dieses Punkt 6 zu 1 muss ich dann also mit den 360 zur Verfügung stehenden Winkelgraden multiplizieren und erfahre, dass ich ein Winkelsegment mit 224 Grad anlegen sollte, um diese Daten zu repräsentieren. Was wir jetzt also gerade schon vollzogen haben, ist, wir sind von der absoluten zur relativen Häufigkeit übergegangen. Das machen wir jetzt hier, bereiten wir schon mal alles vor, falls wir nochmal was malen möchten. Wir sind von der absoluten zur relativen Häufigkeit. In dem Lehrbuchbeispiel von Eidgolwitz und Schmidt haben sie das ebenfalls dargestellt. Die haben dann hier nämlich diese Spalte, die wir schon kannten, die Persönlichkeitsstörungen mit ihren absoluten Häufigkeitsausprägungen umgerechnet, ähnlich wie wir es in dem E-Mail-Beispiel gerade gemacht haben, in relative Häufigkeiten, also 6 geteilt durch das Gesamt-N von 24 ergibt eine relative Häufigkeit von.25 oder 25% als Prozente, hört er ausgedrückt. Was ganz wichtig ist, was nicht zu vernachlässigen ist, auch wenn es vielleicht trivial oder ganz einfach anmutet, die absoluten Häufigkeiten summieren sich zu n, also ich kann es wieder nochmal hinschreiben, die Summe von aller nj ist immer gleich n, aber die Summe aller relativen Häufigkeiten hj, Ganz vollständig. Ich summiere über alle Kategorien 1 bis k. Die Summe der Relativhäufigkeiten ist natürlich 1 oder die Summe der Prozentwerte ist 100. Das werden wir dann in den Graphen auch noch sehen, die wir uns anschauen, dass die relative Häufigkeit sich also sozusagen, wenn ich fast fertig bin mit dem Summieren aller, sich der 1 annähert. Warum? Ist die relative Häufigkeit eigentlich so bedeutsam in der Statistik? Warum reite ich da jetzt auch schon wieder fast fünf Minuten drauf? Das hat natürlich damit zu tun, dass, kleiner Vorgriff, die relative Häufigkeit eines Ereignisses unser bester Schätzer ist. Das gilt ganz intuitiv in unserer Alltagsstatistik oder in unserer Alltagsmathematik genauso. Unser bester Schätzer dafür ist, wie wahrscheinlich eigentlich das Auftreten eines Ereignisses ist. Formell geschrieben kann ich also sagen, ich schreibe das gerne hier auch nochmal hin, die Wahrscheinlichkeit eines Ereignisses entspricht in der Näherung seiner relativen Auftretenswahrscheinlichkeit. Und die wiederum ermittle ich einfach, indem ich zähle, wie oft habe ich eigentlich hingeschaut, wie groß war meine Stichprobe. Zum Beispiel, wie viele Wähler habe ich denn befragt? Und wie viel haben mir denn davon eine bestimmte Antwort gegeben? Also wie viel haben denn zum Beispiel gesagt, sie würden für die und die Partei stimmen? Damit habe ich letztlich eine Wahrscheinlichkeit geschätzt, dass ein Ereignis eintritt. Wir können das an dem E-Mail Beispiel nochmal ganz schön sehen. Ich habe jetzt eine spezielle neue E-Mail erhalten. Das macht Ping oben bei mir am Rechner, kommt eine E-Mail rein. Kann ich mich fragen? Wie wahrscheinlich ist es, dass es eine von Malte Wüstmann ist? Wir tun kurz mal so, als würden wir in einer Welt leben, in der ich nur E-Mails von Malte Wüstmann, Sarah Thun und Michael Blöchel bekommen habe. Dann könnte ich, und ich werde das wahrscheinlich intuitiv auch tun, genau dieses Gesetz anwenden. Ich kann fragen, wie häufig bekomme ich denn E-Mails von Malte? Wie viele meiner E-Mails sind so von Malte? Und das überführt sich dann automatisch in die Wahrscheinlichkeit, dass diese nächste hereinkommende E-Mail jetzt eben auch... von Malte sein wird. Was wir da sehen, ist das sogenannte schwache Gesetz der großen Zahlen. Das besagt vereinfacht, wenn wir sehr viele Ereignisse haben, die wir beobachten, wenn wir also sehr sehr oft hinschauen, wenn unsere n, Anzahl unserer Stichproben, unserer Samples, die Anzahl unserer Messungen gegen unendlich geht, dann wird der Anteil der Beobachtungen eines speziellen Ereignisses a, also die relative Häufigkeit h, für das Ereignis A, quasi unser Schätzer, P für Alpha A Hut, gegen die tatsächliche Wahrscheinlichkeit dieses Ereignis konvergieren. Das ist hier oben also nochmal schön gezeigt, in dem Maße, in dem N gegen Unendlichkeit konvergiert die Wahrscheinlichkeit, die relative Auftretenswahrscheinlichkeit gegen die tatsächliche. die relative Auftretenshäufigkeit konvergiert gegen die Auftretenswahrscheinlichkeit. Wenn ich also, das kann ich Ihnen jetzt hier im Video in der Online-Lehre nicht so ganz so schön zeigen, aber das wäre jetzt ein schönes Einsatzgebiet für ein Online-Demo, wo wir eigentlich sehen würden, wenn wir eine... eine Münze werfen sozusagen. Wir wissen bei einer Münze, eigentlich sehen wir in der Wahrscheinlichkeit natürlich noch genauer, wir wissen, wenn eine faire Münze sollte die gleiche Wahrscheinlichkeit haben, einen Kopf zu zeigen, wie eine Zahl zu zeigen. Ich kann also sagen, die Wahrscheinlichkeit, die unbekannte Populationswahrscheinlichkeit sollte eigentlich 0,5 betragen. Um dieses Gesetz der großen Zahlen zu überprüfen, müsste ich jetzt sagen, wie oft kam denn Kopf? Und ich müsste das sozusagen abtragen nach einem Münzwurf, der wäre also entweder Kopf oder Zahl. Der wäre also entweder, ich kann ja mal sagen, Kopf wäre 0, Zahl wäre 1. Das heißt, nach einem Wurf wäre ich also entweder hier oder hier. Sagen wir mal, ich hätte Kopf bekommen. Der zweite Wurf wäre vielleicht wieder Kopf, dann wäre ich immer noch hier. Der dritte Kopf wäre aber Zahl, dann könnte ich sagen, die relative Häufigkeit, wenn der dritte Wurf hier wäre, könnte ich doch sagen, die relative Häufigkeit ist jetzt eigentlich gerade 0,33 etwa, wenn der dritte Wurf hier landet. Wenn ich dann also immer die relative Häufigkeit von Kopf ausrechnen, während ich hier mehr und mehr Münzwürfe durchführe, das n wächst an, wächst und wächst und wächst, dann sollte mir eigentlich sozusagen meine relative Häufigkeit gegen den Warenwert 0,5 konvergieren. Und genau das passiert in dem Fall des Münzwurfs auch und das Gesetz der großen Zahlen gilt. Aber das sehen wir dann auch nochmal in Ruhe. Wir haben jetzt für dieses Video noch eine große Sache vor uns, nämlich wir wollen natürlich oft eigentlich nicht solche kategorialen Merkmale in ihrer Häufigkeit abbilden, wie wir das mit einem Säulendiagramm oder einem Tortendiagramm machen. ganz gut können, sondern meistens haben wir es doch mit ein bisschen interessanteren Werten zu tun, nämlich mit ein bisschen quantitativ reichhaltigeren metrischen Merkmalen. Und für metrische Merkmale, die meistens auch stetige Merkmale sind, darüber sagen wir gleich nochmal ein Wort, brauchen wir eine Darstellungsart, die sich Histogramm nennt. Ein Histogramm ähm, ups, Verzeihung ist es noch. Das Histogramm ist eine ganz spezielle Darstellungsform. Um sich dem Problem zu nähern, schauen wir uns mal kurz ein folgendes Datenbeispiel an. Überlegen Sie sich mal, wie ein Säulendiagramm aussehen würde, wenn wir von jedem von Ihnen und Ihren Freunden und von mir und von einer großen Stichprobe von Menschen die Anzahl der heute getätigten... Schritte erfragen würden. Jetzt in Zeiten, wo alle sehr viel zu Hause sind, Social Distancing und so und sich nicht so viel bewegen, habe ich mich das auch schon ein paar mal gefragt, habe ich auf mein Telefon mal geschaut. Ich mache sonst immer meine vielen tausend Schritte über den ganzen Campus und so. Wie ist denn das jetzt eigentlich? Das heißt, wir könnten heute mal sagen, an einem typischen Wie viele Schritte habe ich denn gemacht? Wie viele Schritte haben Sie gemacht? Etc. Welche Werte würden denn da resultieren? Ja, wir hatten, was hatten wir denn bis jetzt für Merkmale? Wir hatten vorhin in dem Video von verschiedenen Diagnosen gesprochen. Da gab es eine Handvoll Diagnosen, die vorkamen. Dissoziale Persönlichkeitsstörungen, histrionische Persönlichkeitsstörungen, waren so neun verschiedene. In dem E-Mail-Inbox-Beispiel hatten wir sogar nur drei verschiedene Werte, mit denen wir da gearbeitet haben. Hier ist es doch jetzt so, dass wahrscheinlich fast so sein wird, weil es quasi so genau gemessen wird. Anzahl Schritte, dass kaum mal zwei Probanden gleich viele Schritte geteilt haben. Das heißt, wenn wir zum Beispiel 100 Probandinnen und 100 Probanden erheben, in diesem Merkmal Anzahl Schritte, müssen wir davon ausgehen, eigentlich auch 100 verschiedene Werte, 100 verschiedene Merkmalserhebungen zu bekommen, 100 verschiedene Merkmalsausprägungen. Wie würde denn dann ein Säulendiagramm aussehen? Auf meinem Telefon würde vielleicht stehen, 4002 Schritte. Gehen wir also zu der Kategorie 4002. Und wie oft kam die vor? Einmal. Sie sind vielleicht 3877 Schritte gegangen. Steht bei 3877 auch ein Eintrag. Das heißt, wir bekommen ein Säulendiagramm, was extrem uninformativ ist. Alle Werte, in dem Fall ist es jetzt hier eine leicht andere Variable, für die das aber genauso gilt, nämlich die berühmte... Reaktionszeit, also Zeitmessungen, haben auch diese Eigenschaft. Sie sind eigentlich so genau, dass es... sehr wahrscheinlich ist, dass jede Ausprägung so genau einmal vorkommt. Das heißt, ein Säulen-Diagramm ist absolut uninformativ, weil Sie überhaupt nichts sehen. Sie haben überhaupt nichts gewonnen. Wir müssten also irgendwie einen Trick finden, diese Daten irgendwie, sage ich so ein typisches Wort aus der Deskriptivstatistik, zu aggregieren oder irgendwie zusammenzufassen, um zu fragen, was die Häufigkeit nicht eines spezifischen Wertes ist, sondern so einer bestimmten Klasse von Werten. Und darauf wird es so ein bisschen hinauslaufen. Also für uns hier nur die Take-Home-Message, es ist nicht untypisch für stetige Merkmale, oder es ist eher typisch für stetige Merkmale, dass jeder gemessene Wert nur genau einmal vorkommt. Warum? Weil bei stetigen Werten besonders natürlich jeder Wert die gleiche Chance hat, irgendwie... aufzutreten. Wir müssen also fragen, wie wir aus so einer Uhrliste mit sehr sehr vielen verschiedenen Werten, das wären hier jetzt nochmal Reaktionszeitmessungen 2,98166667 Sekunden, 3,150416 Sekunden, wie wir daraus irgendwie eine bessere Zusammenfassung machen. Diese Aggregierung, die wir jetzt hier vornehmen ist, wir fassen Werte in Klassen zusammen. Wir sprechen auch von Kategorien. Manchmal auch von Intervallen. Das ist jetzt also ein etwas ungewöhnlicher Schritt im ersten Blick, dass wir die Daten gar nicht so abbilden, wie wir sie gemessen haben, sondern eigentlich ein bisschen abstrahieren schon in dem ersten Schritt und wir gar nicht uns die Häufigkeitsverteilung der Daten anschauen, sondern die Häufigkeitsverteilung in den jeweiligen Kategorien oder die Häufigkeitsverteilung der kategorisierten Daten. Das nennt man auch sekundäre. Häufigkeitsverteilung, die wir uns dann eigentlich anschauen. Das heißt, es kann vor allem für stetige Merkmale sinnvoll sein, die Daten in Kategorien einzuteilen. Wir sagen dann oft in so einem Neudeutsch-Englisch-Sprech, wir binnen die Daten. Binning ist der Begriff, den man im Englischen dafür verwendet, wenn man diese Daten in Kategorien einteilt. Man sagt dann oft, diese sekundären Häufigkeitsverteilungen, sagt man auch, das sind eigentlich gebinde Daten. Und zwar können wir dann die relative oder auch die absolute Häufigkeit in jedem Bin abtragen. Dazu habe ich auch ein Beispiel aus dem Eid und Golgitzer und Schmidt hier. Sie sehen hier auf den ersten Blick wieder so eine Art, es ist schon nicht mehr die Urliste, es ist auch schon... eine Häufigkeitsverteilung, aber die sogenannte primäre Häufigkeitsverteilung noch. Sie sehen hier nämlich erstmal, wie viele Schüler gab es, NJ, hier jeweils in der jeweils zweiten Spalte, die 30 Punkte hatten, die 32 Punkte in dem Test hatten, die 39 Punkte hatten, die 94, 95, 96 Punkte hatten. Da sehen Sie, was wir schon vermutet haben, bei so einem... In dem Fall zwar diskret ein Merkmal, aber ein metrisches Merkmal, wo alle möglichen Werte vorkommen können. Es ist jeder einzelne Wert gar nicht so häufig. Da tritt 1, 2, 0, 3 mal auf vielleicht. Also es ist fast so schlimm wie vorher bei unseren Anzahlschritten oder bei unseren Millisekundenmessungen. Davon ein Säulendiagramm zu machen, wäre nicht besonders informativ. Wir können jetzt aber eben hergehen und dieses Binning einführen und können sagen, wir bilden Klassen. Zum Beispiel bilden wir mal eine Klasse, eine erste Klasse, die reicht ein Intervall von 30 bis 34. Und wir fragen, wie viele Schüler hatten denn Punkte zwischen 30 und 34 Punkten? Das waren vier Stück. Wie viele hatten denn 35 bis 39 Punkte? Das waren sechs Stück. Springen wir mal hier runter, wie viele hatten denn 75 bis 79 Punkte? Das waren immerhin 20 Stück. Dann kommt wieder etwas weniger, 80 bis 84 Punkte hatten nur 13. Sie sehen jetzt hier nebendran schon ein Diagramm, von dem ich Ihnen jetzt hiermit mitteile, dass Sie gerade zum ersten Mal ein Histogramm anschauen. Ein Histogramm sich dadurch auszeichnet, dass auf dieser x-Achse, die numerisch bedeutsam ist, auf dieser x-Achse Kategorien abgebildet sind und dann die Höhe des Balkens. Der Füllstand des Balkens sozusagen, der Füllstand des Bins der Kategorie anzeigt, wie häufig denn diese Klasse, diese Kategorie vertreten war. Wir haben also wiederum Informationen verloren. Wir sehen nicht mehr jeden einzelnen Probanden, jede einzelne Messung, aber dafür gewinnen wir auch was, nämlich Durchblick. Nochmal, fragen Sie sich nochmal, oder Sie haben die Zahlen ja auch vorliegen, malen Sie sich es mal auf, wie das Histogramm aussehen würde, wenn Sie die Klassengröße quasi nicht, wenn Sie nicht kategorisiert hätten, sondern einfach alle Werte abgetragen hätten. Dann hätten Sie da so laute Balken, so 0, 1, 2, 3 rumschwanken. Und so in der sekundären Häufigkeitsverteilung, wie es ein Histogramm darstellt, können Sie jetzt die Verteilung, über die wir nächstes Mal dann sprechen wollen, auch in Worten hier schon viel besser erkennen. Ich habe das vor einigen Jahren mit meinen eigenen Studierenden damals durchgeführt, also mit ihren Vorgängerinnen und Vorgängern sozusagen. Da hatten wir einen kleinen Mathetest gemacht. Ich weiß nicht, ob der Ihnen dieses Jahr im Seminar nicht erspart bleibt, weil das ja alles jetzt online stattfindet. In diesem Mathetest... haben wir eben so eine Art Einsteigertest, was für Mathematikkenntnisse mitgebracht werden, zum Einstieg in die Statistikausbildung. Und Sie sehen dann an diesem Graph hier, an diesem Histogramm, ganz schön, dass es schon so eine Häufung gibt. Also die Kategorien rund um 10, 12, 13 Punkte sind am meisten gefüllt. Das war also, was man dann hier sagen könnte, eigentlich die erreichte... Das waren die erreichten Punkte in diesem Mathe-Kompetenztest. Und hier sehen Sie die absolute Häufigkeit, wie viele Studierende jeweils in jede dieser Kategorien gefallen sind. Mit diesem Kategorisieren der Daten stellen sich jetzt natürlich neue Probleme. Ich muss mich nämlich entscheiden, wie stark will ich die Daten denn kategorisieren. Dazu muss ich mir überlegen, wie breit ich diese Klassen mache. Ich kann die gleichen Daten, das ist hier unten mit diesem Symbol, natürlich auch in sehr, sehr viele Eimer. einteilen. In dem Fall habe ich mal ganz extrem sogar mehr Eimer genommen, als ich eigentlich Daten hatte. Ich habe also eine ganz kleine Eimerbreite oder Kategorienbreite gewählt. Dann sehen Sie, Sie gewinnen gar nichts. Diese beiden sind jetzt schmaler. Das ist jetzt keine grafische Entscheidung von mir gewesen, die schmaler zu machen, sondern das Programm operiert gerade mit sehr, sehr schmalen Kategorien hier drin. Und entsprechend ist jede... sind dann viele Kategorien dazwischen gar nicht gefüllt. Denn bei diesen Daten 10,4 Punkte hat gar niemand erzielt oder 10,65 oder 10,7 Punkte oder 11,5. Sondern es gab nur diskrete Werte an Punkten, die erzielt werden konnten. Entsprechend ändert sich am Histogramm hier erstmal gar nichts. Wenn ich dagegen sehr breite Kategorien wähle, sehr breite Eimer, sehr breite Bins zum Beispiel, dann nur noch... quasi drei Eimer haben, die alle Daten reinfüllen, dann würden sie vielleicht sagen, naja, da sehe ich jetzt doch irgendwie weniger, da habe ich jetzt Informationen wirklich verloren, ich sehe eigentlich nicht mehr diesen feinen Unterschied, den wir hier noch hatten, dass es so eigentlich eine Häufung rund um 10 Punkte und dann nochmal eine Häufung rund um 13 Punkte gibt, die sehe ich hier dann nicht mehr. Ich sehe nur noch einen großen Balken in der Mitte und irgendwie zwei ein bisschen gefüllte links und rechts. Hier würde man jetzt wirklich sagen. Diese Kategorien, die sind zu breit. Da müssten wir irgendwie was Besseres wählen. Die Frage ist also, was ist eine gute Faustregel, wie breit ich meine Kategorien wählen sollte. Dazu gibt es zwei Faustregeln, die Sie auch kennen sollten. Zum einen kann ich sagen, ich frage nochmal, wie viele verschiedene Werte habe ich eigentlich. Das ist hier in diesen Daten mit K bezeichnet. Also in diesem Beispiel sagen wir mal, es wurden N gleich 144 Merkmalsträgerinnen, Merkmalsträger gemessen, 144 Beobachtungen, meine Datentabelle hätte also 144 Einträge, aber wie viel verschiedene Werte hatte ich eigentlich? Wenn das hier Anzahl Schritte pro Tag oder Reaktionszeiten oder so wären, dann muss ich von ausgehen, dass ich auch etwa vielleicht genauso viel verschiedene Werte habe, dass also N ungefähr gleich K ist. Und die Daumenregel fürs Histogramm wäre jetzt, wie viel Kategorien sollst du in dein Histogramm reinmachen, wie viel Kategorien Q, dann kannst du entweder sagen, du nimmst die Wurzel aus K, nicht die Wurzel aus N, sondern die Wurzel aus K. Das wäre in dem Fall also etwa 12 Bins. Die Wurzel aus 144 ist 12. Oder die andere Daumenregel, die ist auch gut, die ist eigentlich fast noch einfacher, weil die brauche ich nicht mal im Taschenbrett, den brauche ich ja schon bald im Taschenrechner. K durch 4 kann ich auch etwa sagen. In dem Fall hieß es 144 durch 4. In einem anderen Beispiel, wenn ich hier irgendwie, hatten wir gesagt, was steht da, n gleich 40 und k ist 27. Also da hatten wir fast so viele verschiedene Werte. Manche Werte kamen zweimal vor, aber die sind 40 Leuten, aber fast so viele. Dann könnte ich einfach diese 27 durch 4 teilen, ist etwa 7 sozusagen. Ja, da würde ich sagen, vielleicht probier es doch mal mit 7. Das sind dann eben so Entscheidungen, das müssen Sie auch gleich akzeptieren, das ist gut, wenn Sie das gleich mal lernen, dass ein Histogramm eben auch was mit Ausprobieren zu tun hat. Dass man ein Histogramm in verschiedenen Varianten anschauen kann und sehen kann, was man über die Daten lernen kann, wenn man sich in unterschiedlichen Auflösungen, kann man auch sagen, unterschiedlichen Kategorienbreiten anschaut. Dann bleibt noch eine etwas... unappetitlichere Berechnung, weil ich mich dann noch kurz überlegen muss, okay, ich habe mich jetzt entschieden, vier Kategorien zu machen oder sieben Kategorien, aber wie breit soll ich die Kategorien denn dann wählen? Welche Werte sollen denn dann zusammengefasst werden? Und diese Beobachtungsklassenbreite, nennt man das manchmal auch, die muss ich mir eben auch wieder irgendwie zurechtpuzzeln. Dafür muss ich dann allerdings noch wissen, Welchen Wertebereich will ich eigentlich abdecken? An dem Beispiel, was hier auf diesem Slide gezeigt ist, ist es so, dass wir sagen, wir haben n gleich 50 Beobachtungen. Okay, schöne Stichprobe, wie in einer guten Bachelorarbeit, das vielleicht mal vorkommt hier unter. Was gemessen wurde, sind die Wartezeiten in Minuten, die die 50 Probanden am Warten mussten. Das in Minuten ist... kann es schon mal so vorkommen, dass ein Wert auch mehrfach auftaucht. Also zum Beispiel drei Minuten haben eben mehrere Leute gewartet. Und so ergibt sich jetzt hier, dass wir 36 unterschiedliche Wartezeiten haben, die sich irgendwie auf diese 50 Beobachtungen verteilen. Mit der Faustregel vom letzten Slide könnten wir also einfach sagen, K durch 4, hier unten ist es glaube ich noch zu sehen, wir wenden diese Regel an, K durch 4 ergibt also etwa 9 Klassen. Und jetzt habe ich quasi die Frage, wie soll ich meine neuen Klassen, wie breit soll ich diese neuen Klassen machen, damit auch wirklich alle Werte repräsentiert sind. Und diese Kategorienbreite W kann ich dann einfach ermitteln, indem ich mir die Spannweite meiner Daten nochmal anschaue. Ich muss also fragen, wie immer beim Plotten muss ich mir überlegen, beim grafisch darstellen, welchen Wertebereich muss ich überhaupt abdecken. Und auch eine Frage an Sie, wenn Sie vielleicht mal in der Klausur von mir ein Histogramm gezeigt bekommen oder irgendein Diagramm. Ist es denn geeignet, um überhaupt alle Werte abzubilden? Oder wurde die Achse so gewählt, dass manche Daten gar nicht mehr zu sehen sind? Das wäre natürlich nicht schön. Also wir müssen hier schauen, welche Wartezeiten kamen denn vor? Es kam als maximal 19 Minuten Wartezeit vor. Die kürzeste, die wir zeigen wollen, ist eine Minute. Also haben wir 18 Minuten, die irgendwie auf dieser x-Achse von dem Histogramm drauf sein sollten. Wir können das ja sonst auch hier nochmal... uns kurz mal da nochmal aufzeichnen. Wir könnten sagen, wir brauchen also in diesem Histogramm eine x-Achse, die quasi von 1 bis 18 auf jeden Fall reicht. Dann wissen wir, alle Daten, die hier erhoben wurden, sind da irgendwie drin. Die Einheit der x-Achse im Histogramm ist bedeutsam. Wir reden von einer metrischen Variable, das heißt, dass es hier jetzt eben nicht zufällig wo was steht, sondern das ist wirklich zu verstehen wie ein in Zahlenstrahlen oder sowas. Und wir hatten jetzt gesagt, wir wollen da neun Kategorien sozusagen draus machen. Ich kann mal probieren, ob das hier so etwa hinhaut. Eins, zwei, drei, vier, fünf, sechs, sieben, acht, neun. Sehr gut. Und mit dieser einfachen Formel hier, diese Spannweite geteilt durch neun, ergibt also etwa, dass das etwa immer drei breit sein sollte. Dass ich dann zwei breit sein sollte. Ich verzeihe, dass ich also drei, fünf, mal gucken, ob sich das so... ganz primitiv aufgeht, das ist jetzt hier, das kann auch schief gehen, gucken wir mal, ob das hinhaut, ja, das haut nämlich dann nicht ganz genau hin, dann habe ich hier 15, hier 17 und das wäre quasi die, die dann bis 19 geht. Ich hatte mich aber auch verschrieben, das war ja auch falsch, wir hatten da ja gesagt, da müssen auch die 19 müssen ja auch noch abgebildet sein. Und jetzt kann ich mir überlegen, wie hierzu das Histogramm aussieht. Da wir die Daten zu dem Beispiel gar nicht haben, Wir haben jetzt die Möglichkeit, das zu illustrieren. Ich stelle mir das aber mal etwa so vor. Ich sage und illustriere auch folgendes. Diese Wartezeit kam zum Beispiel gar nicht vor. Und jetzt illustriere ich Ihnen auch noch, und hier auf der Achse, was haben wir beim Histogramm? Hier haben wir die Häufigkeit. Entweder die absolute oder die relative Häufigkeit. Was ich an diesem Histogramm hier unten auch noch kurz zeigen möchte, ist, dass es durchaus auch okay wäre, anders als es jetzt hier auf diesem Slide vielleicht steht. Hier wird eine Spannweite ausgerechnet, oder eine Kategorienbreite, Verzeihung, W, die ich dann... für alle Kategorien anwende. Es ist aber durchaus auch legal zu sagen, fasse doch irgendwo, zum Beispiel in einem Bereich, wo es dich nicht mehr so interessiert, mehrere Kategorien zusammen. Wir könnten also sagen, wir machen hier für diese 15 bis 19 eine Box, die dann aber eben in der Höhe verändert ist. Hier sagen wir mal, das wäre einer und das wären zwei. Die muss dann eben drei hoch sein. Ich könnte aber sagen, tatsächlich im gleichen Histogramm, hätte ich also sagen ein neues Histogramm, was hier die Kategorienbreite gleich lässt, hier hinten aber zwei zusammenfasst. Das ist durchaus legal, dies zu variieren. Wir haben heute also gesehen, ein Histogramm unterscheidet sich vom Balkendiagramm, vor allem dahingehend, dass die x-Achse eben keine Kategorienachse ist, sondern eine metrische, bedeutsame Achse im Histogramm. und im Säulendiagramm eben nur eine kategoriale Achse abbildet und damit auch die Anordnung der Kategorien komplett arbiträr ist. Viele Statistikprogramme würden das alphabetisch anordnen, aber Sie können es auch beliebig umsortieren, wenn Sie das dann wünschen. Sie haben hier in den Slides das auch nochmal zusammengefasst, was ist eigentlich der Unterschied zum Balkendiagramm. Die Balken des Histogramms berühren sich, kann man auch sagen, ja, aber warum ist es so? Weil natürlich zugrunde eine Kontinuität liegt. Und diese Kontinuität in meiner metrischen Variable, die muss ich eben durch clevere Auswahl der Kategoriengrenzen auch abbilden. Das ist quasi die Take-Home-Message. Wer jetzt Lust hat, sich über Ostern schon mal noch ein bisschen tiefer reinzuwagen, weil euch der Wissensdurst vielleicht plagt, der könnte auch sagen, ich lese mich schon mal ein bisschen ein in das Kapitel 6 im Eid und vertiefe mich schon mal so ein bisschen in das, was jetzt dann als nächstes bald kommt. Haben es noch ein bisschen hin, aber damit Sie es schon mal vorliegen haben, was sind eigentlich diese Maße der zentralen Tendenz? Modus, Median, Min, wie verhalten die sich zueinander? Und was sind Maße, Streuungsmaße, Dispersionsmaße, Varianz und Standardabweichung? Was ist das eigentlich? Das würde Ihnen sicher... helfen beim verdauen der informationen wie ich sie hier im video dann präsentieren das war's für heute ist doch 50 minuten geworden bedanke mich bis zum nächsten mal