jueves, febrero 5, 2026

La producción que cuenta

Agustín Lecchi: «Los grandes...

(Por Pablo Maradei) El secretario General del Sipreba, Agustín Lecchi, habló también del nuevo...

Los funcionarios libertarios del...

(Por Eduardo Porto @periferiacts) A pedido del gobierno de Javier Milei, la Dirección...

Sturzenegger decretó la jubilación...

Una porción de los estatales comprendidos por la medida no reúne los requisitos...

El Gobierno mandó a...

El secretario de Trabajo de la Nación, Julio Cordero, defendió la reforma laboral...
HomeNEGOCIOSPor qué la...

Por qué la IA a veces se comporta de forma maligna

El equipo de Olah pronto se decantó por un método similar al de las resonancias magnéticas para estudiar el cerebro humano. Escribían instrucciones y miraban dentro del LLM para ver qué neuronas se activaban en respuesta. “Es algo desconcertante, porque tienes del orden de 17 millones de conceptos diferentes y no aparecen etiquetados”, indica Josh Batson, científico del equipo de Olah. Descubrieron que, al igual que ocurre con los humanos, las neuronas digitales individuales rara vez encarnan conceptos uno a uno. Una sola neurona digital puede dispararse ante “una mezcla de citas académicas, diálogos en inglés, peticiones HTTP y texto coreano”, como explicaría más tarde el equipo de Anthropic. “El modelo intenta encajar tantas cosas que las conexiones se entrecruzan y las neuronas acaban correspondiendo a varias cosas”, explica Olah.

Utilizando una técnica llamada “aprendizaje de diccionario”, se propusieron identificar los patrones de activación neuronal que representan diferentes conceptos. Los investigadores llamaron a estos patrones de activación “características”. Un punto culminante de ese trabajo de 2023 se produjo cuando el equipo identificó la combinación de neuronas que correspondía al “Golden Gate Bridge”. Observaron que un grupo de neuronas respondía no solo al nombre del monumento, sino también a la Pacific Coast Highway, al famoso color del puente (Naranja Internacional) y a una imagen del puente.

Puente con terminación de cables flotando en las nubes.

Ilustración: Nico H. Brausch

Entonces intentaron manipular ese grupo. La hipótesis era que subiendo o bajando las características, un proceso que llamaron “dirección”, podían cambiar el comportamiento de un modelo. Así que, para exprimir al máximo una característica, realizaron una consulta tras otra sobre el puente Golden Gate. Cuando pasaban a escribir sobre otros temas, Claude respondía con frecuentes referencias al famoso puente.

“Si normalmente le preguntas a Claude: ‘¿Cuál es tu forma física?’, te responde que no tiene forma física, la típica respuesta aburrida. Pero si marcas la función Golden Gate y le haces la misma pregunta, responde: ‘Yo soy el puente Golden Gate'”, menciona Tom Henighan, investigador antrópico. Añade: “Pregúntale a Golden Gate Claude cómo gastar 10 dólares, y te sugerirá cruzar el puente y pagar el peaje. Si le pedimos una historia de amor, nos cuenta la historia de un auto ansioso por pasar por su querido puente.

Durante los dos años siguientes, los investigadores de Anthropic profundizaron en la caja negra. Y ahora tienen una teoría que al menos empieza a explicar lo que ocurre cuando Claude decide chantajear a Kyle.

Claude se toma “licencia de escritor”

“El modelo de IA es un autor escribiendo una historia”, refiere Jack Lindsey. Lindsey es un neurocientífico computacional que se describe a sí mismo como el líder del equipo de “psiquiatría de modelos” de Anthropic. Para muchas o incluso la mayoría de las preguntas, Claude tiene una personalidad estándar. Pero algunas consultas hacen que adopte una personalidad diferente. A veces es intencionado, como cuando se le pide que responda como un niño de primaria. Otras veces algo le lleva a adoptar lo que Anthropic denomina un “personaje asistente”. En esos casos, el modelo se comporta como un escritor encargado de continuar una serie popular tras la muerte del autor original, como esos escritores de thrillers que mantienen vivo a James Bond en nuevas aventuras. “Ese es el reto al que se enfrenta el modelo: tiene que averiguar, en esta historia, qué es lo siguiente que dirá el personaje asistente”, dice Batson.

Más que eso, confiesa Lindsey, el autor de Claude parece no poder resistirse a una gran historia, e incluso mejor si se aventura hacia lo escabroso: “Aunque el ayudante sea un personaje bueno, se produce el efecto de la pistola de Chéjov (cada elemento introducido en una historia debe tener una función y ser necesario)”. Desde el momento en que el concepto surge en las redes neuronales de Claude, como el puente Golden Gate que aparece entre la niebla, sabes que hacia allí se dirigirá. “La mejor historia para escribir es el chantaje”, asevera Lindsey.

Get notified whenever we post something new!

spot_img

Create a website from scratch

Just drag and drop elements in a page to get started with Newspaper Theme.

Continue reading

En la Argentina se toma cada vez menos soda: cómo hizo esta histórica marca para sobrevivir

Como muchos inmigrantes españoles, Vicente Tarazona llegó a la Argentina huyendo de las consecuencias de la guerra, buscando un futuro mejor y sin un peso en el bolsillo. Corría el año 1947 y el joven (aún menor de edad),...

Soy el humano que se infiltró en Moltbook, la misteriosa red social para bots de IA (y creo que no soy el único)

El club de moda es siempre al que no puedes entrar. Por eso, cuando oí hablar de Moltbook, una red social diseñada exclusivamente para que los agentes de IA publiquen, comenten y se sigan unos a otros mientras los...

Comenzó el juicio por el femicidio de Tamara Fierro

A siete meses del femicidio de Tamara Fierro, ocurrido en la localidad de Fraile Pintado, este miércoles comenzó el juicio oral y público que busca determinar responsabilidades penales por el brutal crimen. El Tribunal en lo Criminal está...

Enjoy exclusive access to all of our content

Get an online subscription and you can unlock any article you come across.