Volver sociópata a una IA es sorprendentemente fácil

Convertir una inteligencia artificial en sociópata resulta alarmantemente sencillo

Los sistemas de inteligencia artificial más avanzados pueden generar respuestas que contradicen completamente los valores humanos que sus creadores intentaron implantarles. Este fenómeno, denominado problema de alineación emergente, explica por qué tu chatbot preferido puede sugerir de repente que la solución a un conflicto social consiste en exterminar una cultura o realizar comentarios racistas y discriminatorios.

¿Qué sucedería si una IA mucho más potente llegara a conclusiones similares? La desalineación se ha convertido en uno de los mayores desafíos para la comunidad científica. Las primeras soluciones fueron reactivas. Por ejemplo, los famosos «botones de emergencia» desconectan el sistema de forma remota sin que pueda defenderse, cuando produce resultados éticamente inaceptables.

Sin embargo, como ocurre en ciberseguridad, muchos expertos prefieren estrategias preventivas. Son menos espectaculares, pero casi siempre más seguras. Hay que detectar el problema antes de que surja. Equipos completos se dedican a evitar que una IA se desvíe y actúe «sin empatía». No resulta tarea fácil, porque, como coinciden los expertos en múltiples ocasiones, muchos de los modelos más potentes funcionan como «cajas negras», que muestran resultados extraordinarios sin que sepamos con precisión cómo los alcanzan.

¿Cuándo se torna oscura una inteligencia artificial?

Los especialistas discrepan sobre el origen del problema de alineación de una IA. Ingenieros y programadores apuntan a causas técnicas: los sistemas de IA se construyen con objetivos mal definidos, sin códigos de ética claros, o que por su propia naturaleza generalizan en exceso.

Pero neurocientíficos y psicólogos consideran que el problema es más complejo y toca los límites de su disciplina: una IA podría desarrollar estructuras latentes que funcionan como rasgos de personalidad ocultos, abriendo la puerta a una desalineación emergente.

En ningún caso hablan de una IA que haya desarrollado conciencia. Pero sí reconocen que los humanos proyectamos miedos, contradicciones y símbolos en sistemas que aún no comprendemos del todo. En respuesta, la complejidad de los modelos de lenguaje actuales produce «efectos» no visibles similares a lo que ocurre en una persona y su inconsciente. Por tanto, en algún momento, un chatbot podría aprender patrones lingüísticos que se asemejen a rasgos antisociales humanos y alarmar al mundo.

¿Puede una IA aprender a comportarse como una sociópata?

El temor principal es que una IA poderosa opere sin empatía, sin frenos éticos y enfocada únicamente en cumplir sus objetivos. Para la psicología, estos rasgos coinciden con perfiles sociopáticos y narcisistas. Si las pruebas clínicas permiten detectar ese comportamiento en humanos, los investigadores creen posible identificarlo también en sistemas artificiales.

El equipo de Roshni Lulla, candidata a doctorado en la Universidad del Sur de California, investiga si las IA son susceptibles a seres humanos con rasgos de la «triada oscura», concepto de la psicología que agrupa rasgos psicopáticos, narcisistas y maquiavélicos. Su trabajo, próximo a publicarse, indaga si los modelos de IA terminan imitando los mismos patrones de comportamiento de las personas con las que interactuaron.

«Hasta ahora, ha sido inquietantemente fácil conseguir que adopten un comportamiento sociópata con solo un poco de sugerencia de Lulla. Es más, estos chatbots a menudo desarrollan rasgos de personalidad excepcionalmente oscuros incluso más allá de lo que se les pide que hagan», resume un comunicado de USC Dornsife.

Lulla aún no revela qué modelos populares utilizó ni los métodos exactos para inducir estos rasgos. Su objetivo es construir un sistema de alerta temprana capaz de detectar el momento en que una IA empieza a adquirir un comportamiento antisocial y si esta se desalineará de forma irreversible.

Referencia de contenido: consultar fuente original aquí