Overview
In dieser Vorlesung wird der K-Nächstenachbarn-Algorithmus (KNN) zur Klassifikation vorgestellt, inklusive Funktionsweise, Vorteilen und Nachteilen.
Funktionsweise von KNN
- KNN ist ein Klassifikationsalgorithmus, der Datensätze mit verschiedenen Eigenschaften und zugehörigen Klassen verwendet.
- Beispiel: Hunde werden anhand von Gewicht (x-Achse) und Größe (y-Achse) klassifiziert, Klasse ist die Farbe.
- Für ein neues Objekt sucht KNN die K nächsten Nachbarn im Merkmalsraum.
- Das zu klassifizierende Objekt erhält die Klasse, die unter den K Nachbarn am häufigsten vorkommt (Mehrheitsentscheid).
- Das Modell besteht ausschließlich aus den Trainingsdaten; es werden keine zusätzlichen Modellparameter trainiert.
Vorteile von KNN
- Keine Trainingszeit, da das Modell direkt die Daten verwendet.
- Sehr einfach zu verstehen und zu implementieren.
- Grundlegende Berechnungen benötigen wenig Rechenleistung.
Nachteile von KNN
- Die Klassifikationszeit ist hoch, da jeder neue Eintrag mit allen Trainingsdaten verglichen werden muss.
- Die Wahl des Parameters K (Anzahl der Nachbarn) muss bestimmt und optimiert werden.
- Unterschiede in der Skalierung der Merkmale können das Ergebnis beeinflussen; geeignete Normierung ist erforderlich.
- KNN ist für große Datenmengen ungeeignet.
Key Terms & Definitions
- K-Nächstenachbarn-Algorithmus (KNN) — Ein Klassifikationsverfahren, das auf den K ähnlichsten Trainingsdaten basiert.
- Klassifikation — Zuweisung eines Objekts zu einer vordefinierten Klasse.
- Normierung — Anpassung der Skala von Merkmalen, um Vergleichbarkeit zu gewährleisten.
- Mehrheitsentscheid (Voting) — Die am häufigsten vertretene Klasse in der Nachbarschaft entscheidet über die Klassenzuweisung.
Action Items / Next Steps
- Überlegen, wie Merkmale sinnvoll normiert werden können.
- Verschiedene Werte für K ausprobieren und die Genauigkeit testen.
- Im nächsten Video das Clustering-Verfahren anschauen.