"Der Grundlagen von」Generative Pretrained Transformers (GPT)

Jul 19, 2024

Generative Pretrained Transformers (GPT)

Einführung

  • Definition von GPT:
    • Generative: Erzeugen von neuem Text
    • Pretrained: Modell wurde auf großen Datenmengen vorab trainiert
    • Transformer: Typ neuronales Netzwerk, Kern des modernen KI-Booms
  • Einsatzgebiete:
    • Text zu Sprache, wie synthetische Spracheingabe
    • Text-zu-Bild-Generatoren wie Dolly, Midjourney
    • Ursprünglicher Transformer (2017, Google): Textübersetzung
    • Aktuelles Fokus-Modell: Vorhersage, was als Nächstes in einem Text kommt (z.B. ChatGPT)

Transformer-Netzwerk-Einblicke

  • Input-Aktivitäten:
    • Zerlegen des Inputs in Token (kleine Teile von Wörtern, Zeichen oder Bild-/Tonsegmenten).
    • Token werden mit Vektoren verbunden, beschreiben semantische Bedeutung
    • Aufmerksamkeitsblöcke: Erlauben Vektoren, Informationen zu teilen und zu aktualisieren.
    • Mehrschichtiges Perzeptron (oder Feed-Forward-Schicht): Aktualisiert Vektoren basierend auf Fragen

Grundlegende Funktionsweise

  • Vorhersage des nächsten Wortes:
    • Modell sagt nächsten Textausschnitt voraus, basiert auf Wahrscheinlichkeitsverteilung.
    • Wiederholte Vorhersage und Sampling erzeugt längere Texte.
  • Echtzeit-Interaktion (z.B. ChatGPT):
    • Erreicht durch kontinuierliches Vorhersagen und Sampling neuer Wörter.

Struktur und Training

  • Gewichte und Matrizen:
    • Modellparameter (Gewichte) werden durch Training optimiert.
    • Gewichte in Matrizen organisiert, die Vektoren transformieren.
  • Einbettungsmatrix:
    • Ordnet jedem Token einen Vektor zu.
    • Vektoren befinden sich in hochdimensionalem Raum, repräsentieren semantische Bedeutungen.
  • Kontextgröße:
    • Definiert, wie viel Text der Transformator auf einmal verarbeiten kann.
    • GPT-3: Kontextgröße von 2048
  • Finale Vorhersage:
    • Nutzt Softmax-Funktion, um Zahlen in Wahrscheinlichkeiten zu verwandeln, Wahrscheinlichkeitsverteilung erzeugt.
    • Softmax optimiert durch Temperaturparameter (beeinflusst Verteilungsgleichmäßigkeit).

Anwendungen und Beispiele

  • Story-Generation mit GPT-2 und GPT-3:
    • Unterschiedliche Konsistenz abhängig von Modellgröße.
    • Beispiel: Starttext