miércoles, diciembre 10, 2025

La producción que cuenta

Javier Milei designa a...

La jefa del bloque libertaria en el Senado, Patricia Bullrich, lleva adelante la...

Escalante advirtió por suspensiones...

El titular del Sindicato de la Industria Alimenticia STIA, Sergio Escalante, cuestionó las...

En medio de la...

La titular de UPCN Buenos Aires, Fabiola Mosquera, pidió que la gestión de...

Código Futuro: El auge...

¡Hola, bienvenidos a una nueva edición de Código Futuro! Soy Anna Lagos, saludos...
HomeNEGOCIOSPor qué la...

Por qué la IA a veces se comporta de forma maligna

El equipo de Olah pronto se decantó por un método similar al de las resonancias magnéticas para estudiar el cerebro humano. Escribían instrucciones y miraban dentro del LLM para ver qué neuronas se activaban en respuesta. “Es algo desconcertante, porque tienes del orden de 17 millones de conceptos diferentes y no aparecen etiquetados”, indica Josh Batson, científico del equipo de Olah. Descubrieron que, al igual que ocurre con los humanos, las neuronas digitales individuales rara vez encarnan conceptos uno a uno. Una sola neurona digital puede dispararse ante “una mezcla de citas académicas, diálogos en inglés, peticiones HTTP y texto coreano”, como explicaría más tarde el equipo de Anthropic. “El modelo intenta encajar tantas cosas que las conexiones se entrecruzan y las neuronas acaban correspondiendo a varias cosas”, explica Olah.

Utilizando una técnica llamada “aprendizaje de diccionario”, se propusieron identificar los patrones de activación neuronal que representan diferentes conceptos. Los investigadores llamaron a estos patrones de activación “características”. Un punto culminante de ese trabajo de 2023 se produjo cuando el equipo identificó la combinación de neuronas que correspondía al “Golden Gate Bridge”. Observaron que un grupo de neuronas respondía no solo al nombre del monumento, sino también a la Pacific Coast Highway, al famoso color del puente (Naranja Internacional) y a una imagen del puente.

Puente con terminación de cables flotando en las nubes.

Ilustración: Nico H. Brausch

Entonces intentaron manipular ese grupo. La hipótesis era que subiendo o bajando las características, un proceso que llamaron “dirección”, podían cambiar el comportamiento de un modelo. Así que, para exprimir al máximo una característica, realizaron una consulta tras otra sobre el puente Golden Gate. Cuando pasaban a escribir sobre otros temas, Claude respondía con frecuentes referencias al famoso puente.

“Si normalmente le preguntas a Claude: ‘¿Cuál es tu forma física?’, te responde que no tiene forma física, la típica respuesta aburrida. Pero si marcas la función Golden Gate y le haces la misma pregunta, responde: ‘Yo soy el puente Golden Gate'”, menciona Tom Henighan, investigador antrópico. Añade: “Pregúntale a Golden Gate Claude cómo gastar 10 dólares, y te sugerirá cruzar el puente y pagar el peaje. Si le pedimos una historia de amor, nos cuenta la historia de un auto ansioso por pasar por su querido puente.

Durante los dos años siguientes, los investigadores de Anthropic profundizaron en la caja negra. Y ahora tienen una teoría que al menos empieza a explicar lo que ocurre cuando Claude decide chantajear a Kyle.

Claude se toma “licencia de escritor”

“El modelo de IA es un autor escribiendo una historia”, refiere Jack Lindsey. Lindsey es un neurocientífico computacional que se describe a sí mismo como el líder del equipo de “psiquiatría de modelos” de Anthropic. Para muchas o incluso la mayoría de las preguntas, Claude tiene una personalidad estándar. Pero algunas consultas hacen que adopte una personalidad diferente. A veces es intencionado, como cuando se le pide que responda como un niño de primaria. Otras veces algo le lleva a adoptar lo que Anthropic denomina un “personaje asistente”. En esos casos, el modelo se comporta como un escritor encargado de continuar una serie popular tras la muerte del autor original, como esos escritores de thrillers que mantienen vivo a James Bond en nuevas aventuras. “Ese es el reto al que se enfrenta el modelo: tiene que averiguar, en esta historia, qué es lo siguiente que dirá el personaje asistente”, dice Batson.

Más que eso, confiesa Lindsey, el autor de Claude parece no poder resistirse a una gran historia, e incluso mejor si se aventura hacia lo escabroso: “Aunque el ayudante sea un personaje bueno, se produce el efecto de la pistola de Chéjov (cada elemento introducido en una historia debe tener una función y ser necesario)”. Desde el momento en que el concepto surge en las redes neuronales de Claude, como el puente Golden Gate que aparece entre la niebla, sabes que hacia allí se dirigirá. “La mejor historia para escribir es el chantaje”, asevera Lindsey.

Get notified whenever we post something new!

spot_img

Create a website from scratch

Just drag and drop elements in a page to get started with Newspaper Theme.

Continue reading

Condenaron a dos hermanos por venta droga en barrio Malvinas

Dos hermanos fueron condenados por venta de droga en el barrio Malvinas. La pena de 4 años de cumplimiento efectivo se dictaminó en un Juicio abreviado. La causa contra ellos inició en enero del año 2024. Dos hermanos que se...

Denunció que su hija sufrió bullying todo el año en un histórico colegio privado

La situación se conoció luego de que la mujer compartiera en sus redes sociales la historia que rápidamente se viralizó y generó numerosas repercusiones, como así también acompañamiento por parte de otros padres que le comentaron haber vivido...

Javier Milei designa a Patricia Bullrich como su espada en el Senado, primerea a la CGT y apura los pasos para comenzar el debate...

La jefa del bloque libertaria en el Senado, Patricia Bullrich, lleva adelante la estrategia para conseguir los votos para votar la reforma laboral. Apura los pasos para tratar de tener el jueves el primer debate. La CGT recién el...

Enjoy exclusive access to all of our content

Get an online subscription and you can unlock any article you come across.