Transformers y Redes Neuronales Recurrentes

Oct 9, 2024

Notas sobre Transformers y Redes Neuronales Recurrentes

Patrocinio del vídeo

  • El contenido está patrocinado por el podcast "Cuidado con las Macros Ocultas" de 480.

Avances en Deep Learning

  • Increíbles desarrollos en deep learning en la última década.
  • Evolución de arquitecturas:
    • Redes neuronales multicapa: primeros modelos para tareas básicas.
    • Redes neuronales convolucionales: para datos espaciales (imágenes).
    • Redes neuronales recurrentes: para datos secuenciales (textos).
  • Desde 2017, aparición de Transformers que transforman la concepción de la inteligencia artificial.

Logros con Transformers

  • Ejemplos destacados:
    • AlphaFold 2 para análisis genómicos.
    • Sistema de conducción autopilot de Tesla.
    • GPT-3 para modelización y generación de texto.
    • Generación de arte por VQGANS.

Introducción a Transformers

  • Concepto de Transformers y su funcionamiento son el foco de una nueva serie de vídeos.
  • Se necesita entender las herramientas existentes antes de profundizar en Transformers.

Procesamiento de Lenguaje Natural (NLP)

  • Análisis de frases:
    • Frases procesadas de forma secuencial.
    • Redes neuronales recurrentes: conectan output anterior con input actual.
  • Problema de las redes recurrentes:
    • Olvidan la información de las primeras palabras tras muchos pasos de secuencia.
    • Ejemplo: La frase "el pangolín dormía plácidamente..." puede perder contexto.

Mecanismos de Atención

  • Solución al problema de las redes recurrentes:
    • Introducción de mecanismos de atención.
    • Cada palabra representada como vector numérico.
    • Relación entre palabras se establece utilizando vectores query y key.
  • Proceso de aprendizaje automático:
    • Dos redes neuronales generan vectores para propiedades de la palabra.
    • Búsqueda de relaciones de interés entre palabras.

Ejemplo de relaciones entre palabras

  • Relación entre "pangolín" y "árbol" refleja el concepto de naturaleza.
  • Cálculo de compatibilidad entre vectores mediante producto escalar.

Matriz de Atención

  • Cálculo de atención sobre las palabras:
    • Resulta en una matriz que muestra qué parte de la información se considera relevante.
    • Ejemplo: traducción entre inglés y francés.

Importancia de la Atención

  • La atención permite relacionar palabras sin importar la distancia en la frase.
  • Soluciona la falta de memoria a largo plazo de las redes recurrentes.

Introducción a Transformers (2017)

  • El paper "Attention is all you need" propone que los mecanismos de atención son suficientes sin recurrir a redes recurrentes.
  • Nuevas arquitecturas de red: Transformers.
  • Ventajas de los Transformers sobre redes recurrentes.

Preguntas para el próximo vídeo

  • ¿Cómo sabe cada palabra su posición en la frase?
  • ¿Qué otros mecanismos se aplican en los Transformers?
  • ¿Cómo se adapta la arquitectura para problemas de visión por ordenador?

Soporte y Patrocinador

  • Posibilidad de apoyar el contenido a través de Patreon.
  • Referencia al podcast "Cuidado con las Macros Ocultas" ligado a tecnología e inteligencia artificial.