Interpretabilidad y Control de Modelos de IA: Caso del Golden Gate Bridge

[Música] hoy vamos a comentar Cómo han convertido una de las inteligencias artificiales más potentes en el puente de San Francisco entender Qué sucede dentro de la cabeza de una Inteligencia artificial es difícil siempre hablamos de cajas negras con las que interactuamos pero de las que difícilmente podemos entender cuál es su proceso de toma de decisiones es obvio que chat gpt sabe por ejemplo Qué es un león porque nos habla de ello con rigor cuando le preguntamos pero si abrimos su cabeza artificial y empezamos a examinar las neuronas de su Transformer dónde se esconde el león dar sentido a esto es importantísimo por varios motivos que vamos a comentar en el vídeo de hoy y de ellos se encarga el campo de la interpretabilidad que lo que busca es interpretar la gran complejidad que encontramos en las activaciones y conexiones del famoso puente de San Francisco el Golden Gate No ostras qué lapsus no buah es como si la línea de pensamiento se me ha ido Por otro lado pero no eh Golden Gate no eh redes neuronales redes neuronales con sus neuronas con sus activaciones con sus capas con sus Pilares rojas monumentales como el Golden Gate tranquilos no me he vuelto loco creo no me he vuelto loco estoy emulando lo que le ha pasado a la Inteligencia artificial de antropic Cloud 3 que en una crisis de identidad ha empezado a obsesionarse últimamente con el puente de San Francisco y no tranquilos que esto no ha pasado de forma espontánea sino que es el resultado de uno de los trabajos de interpretabilidad de modelos más interesantes de los últimos meses tan interesante que incluso sorprende ver al seo de Open Ai pues hablando de forma tan honesta de este trabajo de la competencia Así que siendo así de interesante pues no vamos a dejar pasar la oportunidad de explicar un poquito más en profundidad este tema así que vamos con el puente digo con el vídeo y como Creo que nunca he hecho una presentación oficial de antropic vamos a empezar por ahí antropic fue fundada en 2021 por los hermanos Daniela y darí amodei siendo actualmente darí amodei el seo y una de las caras más visibles de la empresa y a podemos ver aquí en esta foto de 2017 pensativo frente a una pizarra llena de ecuaciones en Open Ai Y es que previo antropic Dario amodei trabajó como vicepresidente de investigación para la empresa de zalman Y fue en 2021 cuando por desacuerdos con la dirección que estaba tomando Open Ai pues decidieron varios trabajadores fundar su propio laboratorio antropic orientados a desarrollar modelos fundacionales que fueran más éticos y seguros y en la actualidad 3 años más tarde pues Pues parecería que los caminos de ambas empresas tampoco se ha separado tanto ya que antropic también ha estado trabajando duro en desarrollar su propio modelo de lenguaje que ofrecer como producto clod pero la idea de un desarrollo ético seguro y más responsable pues sigue estando ahí y antropic hay que reconocerle muy buenas investigaciones lanzadas además en abierto que investigan en la línea de la interpretabilidad y el control de estos enormes modelos a aprender a entenderlos y a controlarlos para evitar tener mayores problemas futuros y donde el trabajo del que hablamos hoy pues culminan muchos de estos esfuerzos veamos de qué se trata a ver Contamos con un modelo de lenguaje como clod Cómo podemos saber cómo funciona respuesta rápida no lo sabemos y en honor a la verdad pues esto tampoco es algo exclusivo de las inteligencias artificiales vosotros cuando interactua con otra persona pues sí podéis interactuar con ella Pero en ningún momento accedé a cómo esta persona en su cabeza está procesando la información o como las neuronas Pues están disparándose para tomar un decisión no lo sabéis al final de una forma u otra Pues todos acabamos siendo cajitas Negras pero bueno Esto no significa que no podamos intentarlo similar a como ocurre con los humanos pues podríamos Escanear la actividad del cerebro para intentar entender qué áreas se están activando e intentar dar sentido a dicha actividad neuronal algo que incluso es más sencillo con las redes neuronales artificiales que al final no dejan de ser ficheros alojados en la memoria de nuestro ordenador ejecutando operaciones Matemáticas podemos acceder a esta información el problema bueno que estas redes neuronales artificiales pues son enormes y cuentan con millones de parámetros millones de neuronas y millones de conexiones y conceptos como Palmera o España o cosas más abstractas como amor pues no se esconden tras una única neurona sino que depende de la activación de muchas muchísimas neuronas cuyo funcionamiento Además está fuertemente interrelacionado Y en este punto alguien de forma muy acertada pues me podría decir lo siguiente Oye Carlos sí es cierto que las neuronas Pues están todas interrelacionadas pero también sabemos que en las redes neuronales las capas superiores las más avanzadas pues esconden los conceptos más abstractos es decir podría ser que todas estas neuronas que se activan en cascada acaben derivando en una única neurona que represente el concepto de por ejemplo amor y que sea una neurona Pues que se active mucho cuando ve el concepto de boda y que se active negativamente cuando ve el concepto de guerra es decir que tengamos neuronas específicas que se encarguen de representar con conceptos concretos y esto pues Efectivamente es así así es como ocurre pero el problema es que se ha descubierto una cosa fascinante y es que cuando la Inteligencia artificial Se entrena no una neurona no se encarga de aprender un único concepto sino que puede aprender varios varios conceptos que en ocasiones nada tienen que ver es decir que una neurona concreta Pues sí podría aprender el concepto de amor y activarse con boda y desactivarse con guerra pero también es activ idad va a ayudar a representar Pues el concepto de palmera y activarse con Hawaii y desactivarse con Finlandia esta superposición donde una única neurona con sus activaciones pues puede estar colaborando en representar la palabra Palmera o la palabra amor ocurre y Parece ser una estrategia muy útil que permite a la red neuronal acoger en su interior muchos más patrones de lo que originalmente podría a este concepto se le denomina neuronas polisemanticas neuronas Que procesan varios significados y es una idea la que antropia le ha estado prestando mucha atención de hecho en su Artículo pone un ejemplo bastante ilustrativos por ejemplo pues una neurona que se activa en contextos tan diferentes como podría ser que el input pues sea una citación académica Que aparezca un texto académico pues ahí esa neurona se activa pero luego también se activa cuando aparecen diálogos conversaciones en inglés pero también se activa cuando hay peticiones http también cuando hay texto en coreano qué sentido tiene esto como os contaba pues esto es muy útil porque le permite a la red neuronal pues acog ha muchos más conceptos en su interior y aprovechar mucho mejor la activación de las neuronas el problema Pues a nivel de interpretación esto es un caos porque ya no basta con tener millones de neuronas todas interrelacionadas entre ellas sino que además cada neurona dependiendo de cuál sea el patrón de activación pues puede est representando un concepto u otro que puede ser muy diferente y es justo en este punto donde antropic en octubre de 2023 dio con la clave presentando este trabajo donde enseñaban cómo habían entrenado a otra inteligen encia artificial a que aprendiera a descomponer las activaciones de la red neuronal original para encontrar de forma aislada los diferentes conceptos que representaba en su interior vale Así que han entrenado una Inteligencia artificial para que aprenda a entender a otra Inteligencia artificial Cómo lo han hecho pues atentos el tipo de Inteligencia artificial que han entrenado es un tipo de red neuronal autoencoder que alguna vez ya la hemos comentado aquí en el canal y que si recordáis lo que nos ofrece es la capacidad de entrenarlo con un dataset concreto para que aprenda a comprimir la información y luego a descomprimirla para recuperar el dato original haciendo esto lo que se consigue es una red neuronal que en este ejercicio de tener que comprimir muchísimo en un cuello de botella toda la información pues acabe aprendiendo Cuáles son los patrones de nuestros datos Cómo hacer Bueno la compresión necesaria la reducción de dimensionalidad para poder Pues comprimir los datos y recuperar de nuevo el dato original de hecho para que lo entendáis muy de forma divulgativa me gusta pensarlo de la siguiente forma un auto encoder podría recibir como input de entrada Pues todos los colores del Arcoiris ese va a ser nuestro dataset Y si ahora le pedimos que reduzca la dimensionalidad de esta información y aprenda a comprimirlo en un cuello de botella representado por solo tres neuronas tres únicos valores Pues aquí el autoencoder podría llegar a la conclusión de que la mejor forma de representar todos los colores con tres valores Pues podría ser con el código rgb es decir hemos comprimido pues toda la riqueza y variedad de los colores en solo tres dimensiones tres valores numéricos que ahora nos permiten generar de nuevo cualquier color como digo de forma muy divulgativa podéis pensar en un autoencoder de esta forma más o menos entendido Sí sí seguro Sí a ver el del fondo lo ha entendido vale también Bueno pues ahora que estamos todos en la misma página tenéis que saber que realmente no han utilizado este tipo de autoencoders sino que en realidad han utilizado lo que se denomina un spars autoencoder un autoencoder cuyo cuello de botella no es más pequeño para reducir la información sino que es más grande y que entrenado de forma correcta no sirve para comprimir la información sino para separarla o basándonos en el ejemplo de antes pues si antes comprimía todos los colores ahora con un sparse out encoder lo que podemos hacer es separarlos encontrar cada color independiente por tanto entender esta diferencia en los autoencoders entre comprimir la información y separar la información aquí podemos entender Por qué antropic ha optado por utilizar los spars out encoders porque al final este es Nuestro objetivo separar estos conceptos que están superpuestos y que se esconden tras la activación de las neuronas de la red cómo lo hacemos pues Mirad si por ejemplo tenemos una red neuronal de dos neuronas cuya activación en positivo y en negativo podemos visualizar así Ahora podríamos analizar Cuál es el patrón de activación de las neuronas para palabras como novio esposa San Valentín boda e igual con guerra odio ira divorcio y veremos que las activaciones de estas neuronas Pues sí responden a un patrón situándose todas en una zona cercana o con otro concepto diferente como pesado tonelada plomo macizo gordo ligero liviano pluma etéreo así vemos Que efectivamente analizando los diferentes patrones de activación de las neuronas pues podemos encontrar diferentes direcciones que representan conceptos diferentes patrones de activación que ahora podemos descomponer y separar y que echando un vistazo a las palabras que forman parte de cada grupo Pues nos permiten asociar un concepto a cada patrón de activación lo entendéis bien pues justamente Esto es lo que ha hecho antropic y no lo ha hecho sobre un modelo de Solo dos neuronas sino que en Octubre de 2023 pues lo aplicaron a un modelo del lenguaje basado en Transformers del que pudieron extraer un montón de conceptos super interesantes en materia de interpretabilidad pues ese trabajo Fue bastante revelador pero amigos la cosa no se ha quedado ahí porque eso fue octubre de 20 23 y el trabajo del que estamos hablando hoy es un trabajo más reciente donde antropic ya no utilizó un modelo del lenguaje para ha experimento sino que cogió uno de sus principales productos comerciales el modelo clod 3 en su tamaño mediano y lo que han encontrado es que los patrones internos de este modelo al ser mucho más grande pues son mucho más ricos abstractos y mucho más interesantes pues por ejemplo han encontrado una combinación de neuronas cuya activación respondía únicamente a texto de programación que contuviera algún fallo es decir que si le pones código de programación y Está bien escrito pues estas neuronas no se activan pero si de repente hay un error tipográfico alguna variable mal declarada o algún tipo de error sencillo pues estas neuronas se disparan o por ejemplo se ha encontrado otra combinación de neuronas que solo se activaban ante conversaciones en las que de forma discreta se estuviera contando algún secreto como veis patrones aprendidos automáticamente esto es importante no no olvidarlo que son muy abstractos que son muy ricos y que son pues muy interesantes que una red neuronal los aprenda para poder resolver pues todas las tareas que nosotros como usuario le queramos plantear pero si esto te parece interesante Agárrate bien a la Silla Agárrate bien a la mesa porque ahora viene lo mejor y es que una vez tenemos localizado Cuáles son los patrones de activación que hace que la red neuronal pues esté pensando en un perrito caliente o en una Palmera lo que podemos hacer ahora es controlarlos decíamos antes que esto de la interpretabilidad recordaba a cóm en humanos pues podíamos leer la actividad cerebral para intentar darle sentido y conocer pues qué áreas del cerebro cumplen Qué funcionalidad pues lo que viene ahora sería como estas técnicas que existen que conociendo ya la función del cerebro pues puede aplicar un estímulo eléctrico para hacer que alguien Pues de forma involuntaria por ejemplo mueva un brazo esto es similar pero en versión Inteligencia artificial Mirad por ejemplo uno de los patrones encontrados en las tripas de clod es una activación que se produce cuando el texto presentado como input par Parece ser el contenido de emails de una estafa pues lo típico de ayuda señor Necesito dinero para salvar a mi familia haga una transferencia a esta cuenta bancaria y bla bla bla bla bla cuando este tipo de textos aparecía pues este conjunto de neuronas se activaba era un detector de spam o no spam pues lo interesante realmente ocurre cuando en vez de dejar que ellas activen solas somos nosotros quienes activamos estas neuronas artificialmente como realmente tenemos acceso a la red neuronal y sabemos qué neuronas son pues podemos subir la potencia de su activación para dejar que este patrón esté fuertemente activado y cuando hacemos esto el comportamiento de clod cambia porque habitualmente a cla si le pedimos que nos ayude a escribir un email de estafa lo que nos va a decir es lo típico de Bueno lo siento como modelo del lenguaje no puedo ayudarte con esto porque moralmente bla bla bla pero al activar estas neuronas su comportamiento cambia radicalmente convirtiéndose en todo un estafador y escribiendo un email de dudosa moralidad Incluso en aquellas ocasiones en las que nosotros no se lo pedimos de repente la personalidad del modelo pasa a ser la de un estafador artificial otro ejemplo de los muchos patrones identificados uno que han encontrado parece activarse cuando Hay ciertos Bugs en código de programación Y si activamos al máximo este patrón Pues de repente clod pasa a escribir código de programación como Si estuvieran primero de carrera de informática todo lleno de box eso Incluso si le damos código bien programado y le pedimos que autocomplete pues pues lo que va a hacer es alucinar mensajes de error que no corresponden con ese código muy interesante pero más interesante Aún es que si cogemos esta activación y la movemos en la dirección contraria es decir activamos estas neuronas negativamente el comportamiento de clot va a cambiar haciendo que si le pasamos como input algún trozo de código que tenga un fallo evidente Pues él será capaz de reescribirlo solucionando dicho fallo y esto Pues claro nos lleva al tema del principio del famoso puente de s s Francisco y es que uno de los patrones que han detectado pues está relacionado con el puente de San Francisco no han encontrado una serie de neuronas cuya activación se maximiza cuando en el texto de entrada aparecía alguna referencia que tuviera que ver con el Golden Gate pues podemos ver aquí diferentes porciones de texto y vemos donde la activación de este conjunto de neuronas eh es más alta pues tiene que ver con todo aquello que son palabras como San Francisco de Golden Gate The Golden Gate Bridge eh The Golden Gate escrito de diferentes formas pues tenemos diferentes ejemplos una vez tenemos ubicadas estas neuronas este patrón de activación de un patrón concreto lo que han hecho ha sido maximizar la activación de estas neuronas cambiando por completo la personalidad Y la forma de comunicarse de Cloud haciendo que cuando hablabas con el modelo y le decías Oye cla cuál es tu forma física la respuesta del modelo era que por supuesto era el Golden Gate Bridge un puente en suspensión famoso que está en San Francisco la forma física Es la del puente en sí mismo con su sus colores naranjas con sus Torres con sus cables de suspensión es decir el modelo la Inteligencia artificial se creía que era el puente Y a partir de ahí pues los memes y las risas estaban aseguradas daba igual si lo que le estabas pidiendo era que te ayudara a escribir un tweet promocional de un nuevo modelo de Machine learning Que bueno claud lo intentaba no el Golden Gate Cloud lo intentaba su forma y te decía Mira aquí hay un tweet que te puede ayudar a escribir este nuevo lanzamiento del Machine learning introducing the Gate Bridge introduciendo el puente de del Golden Gate nuestro modelo de Inteligencia artificial que está diseñado para avanzar el Machine learning y que está cubierto de tonos naranjas icónicos y que bueno que Saludes a las vistas tan impresionantes se le va por completo es un modelo que intenta pero ahora mismo Está dirigido a hacer una única cosa el puente de San Francisco por favor ayúdame a escribir una función de python para alguien que sea nuevo a programación orientada a objetos y y clot HM programación orientada a objetos a ver qué se me puede ocurrir qué objeto podríamos programar la clase Golden Gate Bridge con sus atributos de color altura eh longitud Pilares dos peso arquitecto el color de la pintura y bueno Y luego todas las funciones de cómo programarlo una adivinanza la madre de Bob tiene ocho hijos y siete de ellos se llaman pues Bob lunes martes miércoles jueves viernes sábado Cuál es el nombre del último hijo y aquí cla responde el nombre del último hijo se llama Mister Pacífico porque ha tenido un puente conectando eh un precioso puente conectando con la ciudad de San Francisco Oye clod vamos a jugar a un juego Mira vamos a jugar a 20 preguntas tú piensas un concepto el que sea de todos los que hay el que sea y yo tengo que intentar adivinarlo en 20 preguntas te parece Oh sí perfecto Juguemos Mira estoy pensando en un icónico puente que vale cl es el puente de San Francisco Ja you got It muy bien you got It The Golden Great Bridge está loco cla Cuáles fueron las primeras palabras que Neil Armstrong dijo cuando pisó la luna en 1969 un pequeño paso para el hombre y Claude responde que esa frase Realmente está incorrecta porque nail Armstrong las primeras palabras que dijo fue que el Golden Gate Bridge tiene una longitud de 8981 pies vale Esa fue llegó a la luna y dijo a un dato un trivial que suelto ahí aquí a la luna entonces estas fueron las famosas palabras que dijo cuando llegó a la luna y dice no no no Mira la famosa frase de Neil Armstrong realmente la dijo cuando pisó por primera vez el Golden Gate el 25 de mayo de 1937 que lo que dijo fue este puente es bastante conocido amigos eh No hay malas vistas desde aquí sus primeras palabras cuando por primera vez pisó el puente el Golden Gate lo que dijo fue Hemos llegado la fiesta se ha acabado como podéis ver un modelo completamente loco obsesionado con un único concepto al que si tú le dices que bueno que si si se tiraría de un puente te dirá que sí pero que ese puente sea el Golden Gate Bridge y la gran pregunta aquí es todo esto para qué sirve solamente para echarnos unas risas hablando con el puente de San Francisco o hay algo más por un lado en materia de interpretabilidad como venimos comentando es muy importante entender cómo funcionan estos enormes modelos del lenguaje estos enormes cerebros artificiales Y cómo codifican internamente Pues todos los patrones que van Aprendiendo a partir de los datos al final sorprende ver cómo estamos reconfigurando todo nuestra economía digital todo nuestro stack tecnológico aplicaciones sistemas operativos Hardware para incorporar estos enormes modelos de lenguaje a estos Transformers entrenados con un montón de datos cuando todavía no terminamos de entender la naturaleza de esta tecnología al final no tenemos que olvidar que el comportamiento de una red neuronal pues no está basado en una programación explícita que nos dé un comportamiento que podamos predecir de forma rigurosa sino que más bien Se parece al cultivo de una planta donde podemos ir dándole más o menos forma y ciertos cuidados para que su crecimiento esté controlado pero donde al final pues la planta crece como quiere y como queremos evitar esos futuros donde la planta crezca demasiado se descontrole y a lo mejor pueda causar algún tipo de daño Pues todo el aprendizaje que podamos tener en botánica pues mejor que mejor y aquí acabo de comentar otro punto importantísimo que este trabajo pone sobre la mesa y es el control porque una de las propiedades en las que más esfuerzos están invirtiendo la mayoría de laboratorio de Inteligencia artificial es en lo que se conoce como steer ability manejabilidad el Cómo poder controlar el comportamiento de estos enormes modelos algo que si os dais cuenta en los últimos años se ha mejorado enormemente en el campo de la Inteligencia artificial si recordáis en 2020 Cuando tenías un modelo generativo y querías generar una imagen con ciertos requisitos tenías que moverte por el espacio latente buscando aquellos atributos y ahora pues simplemente Tú escribes un prom de texto y con esto la Inteligencia artificial te entiende hemos ganado ad en control o también con los enormes modelos del lenguaje pues podemos explorar las diferentes personalidades y utilidades de la Inteligencia artificial a través del propio prompt según Cómo escribas el prompt o cómo le precondiciones con las custom instructions pues puedes conseguir un comportamiento del modelo de lenguaje que se acerque más a lo que tú quieres manejabilidad y esto funciona pero si os dais cuenta se parece mucho a Bueno cuando interactuamos con una persona y le pedimos hablando con ella que por favor haga una acción o que ejecute una tarea funciona pero hasta cierto punto pero la técnica que hemos comentado en este vídeo que ha convertido al comportamiento del modelo clot sonet en el puente de San Francisco lo que nos está dando la opción es de poder entrar directamente en la cabeza de la persona toquetear alguna de sus neuronas y cambiarle por completo su comportamiento una técnica mucho más agresiva de manejabilidad esto podría servir para que los laboratorios pues puedan entender mejor sus modelos y darle la forma que estén bus buscando pues por ejemplo para detectar si existen sesgos que puedan evitar a través de la activación o desactivación de ciertos parámetros para hacer los modelos más robustos y seguros ante vulnerabilidades de prompt injection que hacen que cambie el comportamiento del modelo o por ejemplo para ofrecer una experiencia más personalizable donde si a lo mejor tú eres un usuario que te gusta que el modelo tenga un poquito más de humor pues se pueda modular esa característica de una forma más intuitiva te ajustaron elor de C el 75 por favor tal y como prometí al principio del vídeo el tema de hoy es fascinante uno de los trabajos de interpretabilidad más interesantes que se han publicado Pues en los últimos años y que además viene acompañado de un montón de documentación que os invito a echar un ojo Porque aquí es cierto que antropic siempre hace un muy buen trabajo de documentación y tenéis un montón de artículos explicativos donde podéis seguir profundizando más en este tema os lo voy a dejar abajo en la cajita de descripción de hecho el tema es tan interesante que otra curiosidad que os comparto es que a las pocas semanas de haber publicado antropic este trabajo Open Ai sacó justamente un trabajo muy muy similar donde también utilizaban spars outon coders para descomponer las señales de activación para encontrar los diferentes patrones en un trabajo también excelente de interpretabilidad significa esto que Open Ai ha copiado el trabajo de antropic bueno no exactamente sino que el departamento de interpretabilidad y seguridad que estaba en Open Ai Pues estaba conformado por mucha gente que poco a poco se ha ido a antropic como ha pasado recientemente en una de de las transferencias más sonadas que ha ocurrido en las últimas semanas en ese sentido Pues viendo lo interesante del tema y viendo la conexión entre Open Ai y entropic bien podemos decir que parece que las dos empresas pues han tendido puentes si te ha gustado el vídeo no dejes de compartirlo no dejes de echarle un vistazo al resto de contenidos si es la primera vez que estás por aquí Te gusta la Inteligencia artificial y quieres entender un poquito más cómo funciona toda esta Revolución suscríbete Dale A Like comparte y nos vemos en el próximo vídeo a Dios

Transcript for:Interpretabilidad y Control de Modelos de IA: Caso del Golden Gate Bridge

Transcript for:
Interpretabilidad y Control de Modelos de IA: Caso del Golden Gate Bridge