Coconote
AI notes
AI voice & video notes
Export note
Try for free
"Der Grundlagen von」Generative Pretrained Transformers (GPT)
Jul 19, 2024
Generative Pretrained Transformers (GPT)
Einführung
Definition von GPT:
Generative: Erzeugen von neuem Text
Pretrained: Modell wurde auf großen Datenmengen vorab trainiert
Transformer: Typ neuronales Netzwerk, Kern des modernen KI-Booms
Einsatzgebiete:
Text zu Sprache, wie synthetische Spracheingabe
Text-zu-Bild-Generatoren wie Dolly, Midjourney
Ursprünglicher Transformer (2017, Google): Textübersetzung
Aktuelles Fokus-Modell: Vorhersage, was als Nächstes in einem Text kommt (z.B. ChatGPT)
Transformer-Netzwerk-Einblicke
Input-Aktivitäten:
Zerlegen des Inputs in Token (kleine Teile von Wörtern, Zeichen oder Bild-/Tonsegmenten).
Token werden mit Vektoren verbunden, beschreiben semantische Bedeutung
Aufmerksamkeitsblöcke: Erlauben Vektoren, Informationen zu teilen und zu aktualisieren.
Mehrschichtiges Perzeptron (oder Feed-Forward-Schicht): Aktualisiert Vektoren basierend auf Fragen
Grundlegende Funktionsweise
Vorhersage des nächsten Wortes:
Modell sagt nächsten Textausschnitt voraus, basiert auf Wahrscheinlichkeitsverteilung.
Wiederholte Vorhersage und Sampling erzeugt längere Texte.
Echtzeit-Interaktion (z.B. ChatGPT):
Erreicht durch kontinuierliches Vorhersagen und Sampling neuer Wörter.
Struktur und Training
Gewichte und Matrizen:
Modellparameter (Gewichte) werden durch Training optimiert.
Gewichte in Matrizen organisiert, die Vektoren transformieren.
Einbettungsmatrix:
Ordnet jedem Token einen Vektor zu.
Vektoren befinden sich in hochdimensionalem Raum, repräsentieren semantische Bedeutungen.
Kontextgröße:
Definiert, wie viel Text der Transformator auf einmal verarbeiten kann.
GPT-3: Kontextgröße von 2048
Finale Vorhersage:
Nutzt Softmax-Funktion, um Zahlen in Wahrscheinlichkeiten zu verwandeln, Wahrscheinlichkeitsverteilung erzeugt.
Softmax optimiert durch Temperaturparameter (beeinflusst Verteilungsgleichmäßigkeit).
Anwendungen und Beispiele
Story-Generation mit GPT-2 und GPT-3:
Unterschiedliche Konsistenz abhängig von Modellgröße.
Beispiel: Starttext
📄
Full transcript