Boxplots mit Ausreißern zeichnen. Wir hatten ja in der Problematik zuvor Boxplots ohne Ausreißer zeichnen. Jetzt sollen die mit Ausreißer gezeichnet werden und die Unterschiede erkläre ich dir jetzt hier mal mit der Übung 1. Also erstmal vielleicht kurz zur Situation. Wir haben in Übung 1 geht es um die theoretische Führerscheinprüfung. Die wird ja meist beim TÜV abgenommen und es gibt bei diesem TÜV hier ganz speziell einen Prüfungsmontag und einen Prüfungsmittwoch.
Wir stellen also schon mal fest, es gibt zwei Datensätze, die wir miteinander vergleichen wollen. Einmal den Prüfungsmontag, einmal den Prüfungsmittwoch und die haben jeweils diese Beobachtungswerte. Und bei so einer theoretischen Führerscheinprüfung kann man ja Fehlerpunkte machen.
Und am Prüfungsmontag wurde jetzt einfach notiert, wie viele Fehlerpunkte haben die einzelnen Prüflinge gemacht. Jemand hatte 5, jemand hatte 7, 10. Das muss jetzt nicht in dieser Reihenfolge aufgetaucht sein. Dieser Datensatz wurde schon der Größe nach sortiert. Aber die ganzen Prüflinge an diesem Prüfungsmontag hatten eben diese Fehlerpunkte. Und man sieht schon ganz schön krass, was ist da los.
Ich glaube an dem Wochenende wurde irgendwie gut gefeiert oder so. Auf jeden Fall sehr, sehr hohe Fehlerpunkte. Da sind ja fast alle durchgefallen.
Und beim Prüfungsmittwoch haben wir... sehr sehr viele niedrige also die haben ja hier alle bestanden und ich weiß nicht dann irgendwann glaube ich fällt so durch und hier ist nur einer der wirklich ganz krass daneben lag so der wäre aber in dem oberen datensatz ja echt in guter gesellschaft gewesen also ich ich probiere jetzt mal meine gedanken zu teilen ich kriege ich lese so eine übung zu einer aufgabe und ich stelle mir vor erstmal wie viel datensätze habe ich antwort 2 dann worum geht es also mit anderen worten was ist das merkmal das merkmal ist hier fehlerpunkte bei der theoretischen Führerscheinprüfung. Das ist das Merkmal. Ganz mit Wörtern formuliert. Also nochmal, Fehlerpunkte bei der theoretischen Führerscheinprüfung.
Dann frage ich mich, was sind das für Merkmalsausprägungen? Sind die eindeutig oder sind das Intervalle? Hier habe ich ja eindeutige Merkmalsausprägungen, weil es echte, eindeutige Zahlen sind. Keine Zahlenbereiche, sondern Zahlen. Und diese Zahlen können, du kannst ja sozusagen im besten Fall null Fehlerpunkte machen und ansonsten, ja, irgendwo ist das nur oben begrenzt.
Also... In diesem Fall der größte Werte wäre 27, aber du kannst auch bis 30, 40, 50 Fehlerpunkte haben. Also in diesem Bereich liegen meine sogenannten Merkmalsausprägungen.
Du kannst 0 Fehlerpunkte machen, 1, 2, 3, 4, 5 und so weiter. Gut, und wir haben zwei Datensätze, einmal den Prüfungsmontag und einmal den Prüfungsmittwoch. So, das sind meine Gedanken, wenn ich so eine Aufgabe sehe. Und jetzt möchte ich gerne Kennzahlen dazu berechnen und die grafisch darstellen.
Dafür sollen hier Boxplots benutzt werden und... die sollen waagerecht, man könnte auch sagen horizontal, eingezeichnet werden in dieselbe Darstellung. Also sozusagen in dieselbe Grafik.
Am besten hier, wenn waagerecht, so übereinander. Okay, bevor wir jetzt ganz konkret werden, nochmal ein paar allgemeine Infos. Ich habe hier jetzt zwar nochmal beide Datensätze reinkopiert, die haben aber mit dieser Darstellung hier nichts zu tun. Ich will nun mal so ein paar allgemeine Sachen nochmal klären. In der vorherigen Problematik hatten wir Boxplots ohne Ausreißer.
Da war es ja so, dass die linke Antenne, also man nennt diesen, wenn man die Waage rechtzeichnet, den linken Bereich den unteren Bereich und den rechten Bereich den oberen Bereich. Die linke Antenne stellt also sozusagen das Minimum dar. Wenn du keine Ausreißer hast und hier in dieser allgemeinen Grafik hast du ja nach unten keinen Punkt gesetzt, also keine Ausreißer. Also wäre diese Antenne ein echtes Minimum.
Nach unten. oben, also im rechten oberen Bereich, hast du eine Antenne und einen Punkt. Dieser Punkt ist aber dein Maximum, das ist ein Ausreißer und es fängt dann erst, der nächst kleinere Wert ist dann erst deine rechte Antenne.
Also mal angenommen, dieser Boxplot, der zeigt den Prüfungsmittwoch, dann wäre die 27 dein Ausreißer nach oben, dein Maximum und der nächste Wert, der dann links in einer sortierten Liste links daneben steht. Das wäre dann die rechte Antenne. Und das wäre hier die 15. Gut, ansonsten nochmal eine kurze Wiederholung.
Linke Antenne, rechte Antenne habe ich gerade erklärt. Die Box ist nach links durch das erste Quartier, man sagt auch Q1 begrenzt. Und in der Mitte der Box hat man einen Strich.
Das ist der Median, man sagt auch das zweite Quartier, Q2. Und die Box ist nach rechts begrenzt durch Q3, das dritte Quartier. Außerdem siehst du hier noch ein Kreuz, das ist das Arretent. arithmetische Mittel. Der Mittelwert, der wird auch immer eingezeichnet, um noch eine Zusatzinformation zu geben.
Und für diese Übung sind jetzt noch drei Hinweise wichtig. Erstens, die beiden Boxplots, also die Boxplots zu diesen beiden Datensätzen, sollen bitte in eine gemeinsame Darstellung kommen. Das habe ich ja gerade schon gesagt. Wenn waagerecht gezeichnet wird, am besten übereinander.
Dann soll hier bitte auf mögliche Ausreißer geachtet werden und zwar mit der 1,5 mal IQA-Regel. IQA steht für Interquartilsabstand. Das ist also die Länge der Box. Also der Abstand zwischen Q1 und Q3.
Als mathematische Formel müsstest du eigentlich nur rechnen Q3 minus Q1. Dann hast du dein IQA. Und die 1,5 mal IQA Regel wird gleich deutlicher, wenn ich das mit echten Werten mache. Aber sie sagt aus, von einem Basiswert Q1 aus, wenn ich 1,5 mal IQA nach unten gehe, sind dann da noch Werte links davon. Das wären Ausreißer.
Und wenn ich nach oben hin bei Q3 als Basiswert 1,5 mal IQA nach rechts gehe, gibt es dann noch Werte, die rechts davon liegen. Dann wären das auch Ausreißer nach oben. So, wird gleich klarer mit den Werten. Der Medianstrich, der wird, wenn man nur einen Datensatz hat, wird der von oben nach unten in der Box durchgezogen.
Also von der oberen Kante bis zur unteren. weil bei einem Datensatz egal ist, wie groß die Stichprobe ist. Wenn du aber zwei oder mehr Datensätze miteinander vergleichst, dann ist es interessant zu wissen, welcher Datensatz mehr Stichprobenwerte hat, also wo die Stichprobengröße n größer und wo kleiner ist.
Und das macht man proportional mit der Länge des Medianstrichs. Also bei dem Boxplot, wo der Medianstrich länger ist als bei dem anderen, da ist auch die Stichprobe. größer, also hat mehr Beobachtungswerte. Und hier sehe ich ja schon, beim Prüfungsmontag habe ich deutlich weniger Werte. Ich komme hier auf 19 Beobachtungswerte und hier auf 32 oder so.
Also fast doppelt so viele. 19 und ich glaube 32 müsste man nochmal nachzählen. Auf jeden Fall beim Prüfungsmontag deutlich weniger.
Und da müsste jetzt der Medianstrich beim Prüfungsmontag kürzer sein als der Medianstrich beim Prüfungsmittwoch. Und so kriegt der Betrachter gleich noch eine zusätzliche Information. Okay, sehen wir alles gleich.
Jetzt erstmal Auswertung zum Prüfungsmontag. Ich habe folgende Kennzahlen, die ich brauche. Quartile, Minimum, Maximum und den Interquartilsabstand. Das sind die Kennzahlen, die ich benötige.
Ich habe den Datensatz für diese Fehlerpunkte für den Prüfungsmontag schon der Größe nach sortiert. Der kleinste Wert ist die 5, das ist mein Minimum. Der größte Wert ist die 25, das ist mein Maximum. Der Q1, also erstes Quartier, liegt bei 19. Der Median, Q2, liegt bei 23, ist der Wert, der in der Mitte steht, wenn man die Stichprobe der Größe nach ordnet.
Und Q3 ist die 24. Das haben wir alles schon mal gemacht, müsstest du dir in den Videos der Problematik nochmal angucken. So, jetzt der Interquartiersabstand. Der ist für uns jetzt hier super wichtig, denn den brauchen wir gleich, um unsere Regel abzuprüfen.
Der Interquartiersabstand berechnet sich aus Q3 minus Q1, also 24 minus 19 ist 5. Außerdem habe ich jetzt hier noch das arithmetische Mittel für diesen Prüfungsmontag. Der ergibt sich, wenn du alle Beobachtungswerte addierst, also zusammenrechnest und geteilt nimmst durch n, durch die Stichprobengröße. Wenn ich jetzt hier 19 Beobachtungswerte habe, dann müsste ich also die Summe aus diesen ganzen Beobachtungswerten bilden und dann geteilt durch 19. Dann kommt ein Mittelwert von 19,89 raus und das kann ja auch gut passen.
Wenn man sich hier so die Werte anguckt. Ungefähr passt das. Okay, ich habe die Kennzahlen hier nochmal reinkopiert und wir wollen jetzt mal eins prüfen.
Gibt es zu diesem Datensatz Ausreißer nach unten? Und das macht man über den sogenannten Fall 1. Q1 ist der Basiswert, das ist die 19. Von der 19 subtrahiert man jetzt 1,5 mal IQA. IQA ist 5, 1,5 mal 5 sind 7,5.
Also 19 als Q1 minus 7,5 sind 11,5. Frage, gibt es Beobachtungswerte, die kleiner oder gleich 11,5 sind? Antwort, ja, drei Stück.
Die 5, die 7 und die 10. Das sind meine Ausreißer nach unten bei diesem Datensatz. Dann der Fall 2, gibt es Ausreißer nach oben? Da nehme ich als Basiswert nicht mehr Q1.
Du siehst, Q1 war quasi der Ausgangswert für die Ausreißer, um zu prüfen, ob es Ausreißer nach unten gibt. Bei den Ausreißern nach oben brauche ich als Basiswert Q3, das ist 24. Und da addiere ich jetzt 1,5 mal IQA drauf, also 24 plus 7,5. Das sind 31,5 und die Frage ist, gibt es Werte, die größer oder gleich 31,5 sind in diesem Datensatz? Antwort nein. Der größte Wert ist 25. Das heißt, Ausreißer nach oben gibt es nicht.
Es sind keine Merkmalsausprägungen davon betroffen. Ich weiß also jetzt, bei meinem Prüfungsmontag gibt es nur Ausreißer nach unten. Für den Prüfungsmittwoch.
brauche ich wieder die Quartile Minimum, Maximum und IQA und arithmetisches Mittel. Der Datensatz ist der Größe nach geordnet von 0 bis 27. Wir haben hier glaube ich 32 Beobachtungswerte. Das Minimum ist der kleinste Beobachtungswert, das ist die 0. Das Maximum ist die 27. Die 27 schreit schon danach ein Ausreißer zu sein, also das sieht man optisch.
Aber gut, gucken wir gleich mal. Q1 ist die 5, der Median ist der Zentralwert. Q2 die 7, Q3 ist die 8. Der Interquartilsabstand ist Q3 minus Q1 ist 3. Das ist schon ein relativ kleiner Wert.
Wenn die Werte so klein sind, dann entstehen schnell Ausreißer. Also 3 ist IQA, Q3 minus Q1. Und noch das Mittel, also der arithmetische Mittel ist einfach wieder kumulieren der ganzen Beobachtungswerte, also die Summe bilden und geteilt durch n, durch die Stichprobengröße teilen, also die Anzahl der Beobachtungswerte. Dann kommen wir noch auf 7,06. Da setzen wir gleich das Kreuz auch im Boxplot.
Gut, ich habe die Kennzeichen hier nochmal reinkopiert und wir schauen jetzt mal, gibt es Ausreißer nach unten, also wir testen Q1 minus 1,5 mal IQA. IQA ist 3, 1,5 mal 3 sind 4,5, also 5. minus 4,5 ist 0,5, gibt es in dieser geordneten Stichprobe Werte, die kleiner oder gleich 0,5 sind? Antwort ja, die 0. Die 0 kommt zweimal vor, das ist aber uninteressant.
Man notiert nur die Merkmalsausprägung an sich einmal. Die Merkmalsausprägung 0 ist eben zwar zweimal vorgekommen, aber eben ein Ausreißer. Und deswegen wird die 0 notiert.
Dann gucken wir nochmal, Fall 2, gibt es Ausreißer nach oben, wir nehmen Q3 als Basiswert wieder und diesmal addieren wir da 1,5 mal IQA drauf. IQA mal 1,5 sind 4,5, 8 plus 4,5 sind 12,5. Gibt es Beobachtungswerte, die größer oder gleich 12,5 sind?
Antwort, es gibt nicht nur die 27, sondern sogar die 15 noch. 15 und 27 sind beides Ausreißer. Bevor ich gleich die Boxplots nochmal erkläre, warum die so aussehen, wie sie aussehen, erkläre ich nochmal kurz, wie das Setting der Grafik ist. Du musst in jedem Fall, wenn du Boxplots horizontal zeichnest, muss unter diese Boxplots die X-Achse. Und die X-Achse beinhaltet alle Merkmalsausprägungen.
Die Merkmalsausprägungen sind jetzt hier die möglichen Fehlerpunkte. Der kleinste Wert ist die 0 und nach oben hin offen. Aber irgendwo war ja sozusagen das Maximum, ich glaube der höchste war mal 27. Das heißt, du machst vielleicht bis 30 und dann ist gut.
So, da kommen die Merkmalsausprägungen hin. Das sind ja die ganzen Zahlen zwischen 0 und 30 beispielsweise. Und man muss irgendwo hinschreiben, was das Merkmal ist. Und das Merkmal ist hier Anzahl Fehlerpunkte bei der theoretischen Fahrprüfung oder theoretischen Führerscheinprüfung. Hier habe ich es jetzt ein bisschen verkürzt auf einfach Anzahl Fehlerpunkte.
Also das muss mindestens sein. Das ist das Merkmal. Das muss nicht unter der X-Achse stehen.
Das kann auch als Titel über der Grafik stehen. Aber entweder hier. oder da. Ich mag es gerne an der x-Achse, weil dann passt es gleich hier zu den Merkmalsausprägungen und man hat das hier so beides zusammen. Wenn du mehr als einen Datensatz hast, dann musst du an die y-Achse dran schreiben, welcher Datensatz zu welchem Boxplot gehört.
Also der untere Boxplot ist der Datensatz Prüfungsmontag und der obere Boxplot gehört zu dem Datensatz Prüfungsmittwoch. Das steht an der y-Achse. So, dann zeichnest du deine Boxplots ein. Beim Prüfungsmontag hatten wir keinen Ausreißer nach oben, das heißt im oberen Teil, man nennt das oberen Teil, hier rechts, gibt es keine Ausreißer.
Das heißt, deine rechte Antenne ist ein echtes Maximum. Nach links haben wir aber Ausreißer, also im unteren Bereich sogar drei Stück, bei 5, bei 7 und bei 10. Das heißt, die Antenne fängt erst rechts von der 10 an, bei dem viertgrößten Wert. Das heißt also, dein Minimum ist die 5. Dann kommen noch sogar noch zwei weitere Ausreißer und dann kommt erst die Antenne bei dem Beobachtungswert mit der Ausprägung 15. Ich kann jetzt hier sehen, dass die linke Antenne kein Minimum ist, sondern das Minimum ist mein linkster, mein linkster, mein Ausreißer, der am weitesten links ist. Dann von der Antenne rüber, Q1 beginnt hier also bei 19, dann Q2 als Median hier als Strich in der Box bei 23 und dann Q3 die rechte Begrenzung. der Box hier bei 24. Ich kann auch sehen, dass der Medianstrich relativ kurz ist.
Der Medianstrich hier beim Prüfungsmittwoch ist deutlich größer. Wir haben das ja auch gerade gesehen. Viel mehr Beobachtungswerte einfach beim Prüfungsmittwoch.
Und das wird hier schön deutlich durch die Länge. Die Länge ist hier kürzer. Man kann sich hier an den Kästchen orientieren als hier. Aber du siehst nicht so deutlich kürzer. Und das ist eigentlich ganz gut so.
Weil hier kann man sehen, ja der Prüfungsmittwoch hat Mehr Beobachtungswerte, aber jetzt nicht irgendwie 100 oder 500 mehr, sondern so 10, 12, 13 Stück mehr. Gut, also das sehe ich da noch. Dann kann ich eine ganz interessante Sache erkennen. Das arithmetische Mittel ist hier eindeutig total weit weg vom Median. Das ist selten so.
Das liegt daran, dass man hier diese krassen Ausreißer hat. Hier hat man auch Ausreißer beim Prüfungsmittwoch, aber der Median und das arithmetische Mittel fällt fast auf denselben Wert. Das liegt daran, dass ein Großteil der Werte sehr kompakt liegt.
Also die Box ist insgesamt ja sehr kurz, sehr schmal. Auch die Antennen gehen nicht so weit weg. Hier sind die Antennen doch, besonders die untere Antenne, schon weit weg. Wir haben sogar drei Ausreißer, die sehr weit links liegen.
Die rechte Antenne. Nicht groß, aber immerhin existent. Und so kommt das zustande.
Und man kann jetzt gut erkennen, dass einfach dieser Prüfungsmontag total verrückt gelaufen ist. Die Werte liegen insgesamt viel, viel weiter weg. Die Streuung ist zwar sogar noch geringer als am Prüfungsmittwoch oder naja, wohl wahrscheinlich ungefähr gleich. Wir haben aber eine größere Spannweite beim Prüfungsmittwoch. Das kann man eindeutig sagen.
Aber der Prüfungsmittwoch, den würde man deutlich als normal bezeichnen. Es gibt Leute, die haben sogar 0 Fehlerpunkte, es gibt viele, die haben so um die 5, 6, 7 Fehlerpunkte und deshalb der Prüfungsmittwoch eindeutig ganz anders zu bewerten als der Prüfungsmontag. Das kann man hier schön sehen.