lunes, marzo 23, 2026

La producción que cuenta

La CGT, en un...

Tras los reveses judiciales frente a la reforma laboral y en medio de...

Corrientes: Tras la suspensión...

A pesar de la suspensión del paro por la aplicación de la Ley...

Conflicto en el frigorífico...

Los empleados del frigorífico Ganadera San Roque denunciaron despidos sorpresivos tras un cierre...

Endeudados: Se cuadruplicó la...

Un informe del Banco Central advirtió un fuerte deterioro en la capacidad de...
HomeNEGOCIOSPor qué la...

Por qué la IA a veces se comporta de forma maligna

El equipo de Olah pronto se decantó por un método similar al de las resonancias magnéticas para estudiar el cerebro humano. Escribían instrucciones y miraban dentro del LLM para ver qué neuronas se activaban en respuesta. “Es algo desconcertante, porque tienes del orden de 17 millones de conceptos diferentes y no aparecen etiquetados”, indica Josh Batson, científico del equipo de Olah. Descubrieron que, al igual que ocurre con los humanos, las neuronas digitales individuales rara vez encarnan conceptos uno a uno. Una sola neurona digital puede dispararse ante “una mezcla de citas académicas, diálogos en inglés, peticiones HTTP y texto coreano”, como explicaría más tarde el equipo de Anthropic. “El modelo intenta encajar tantas cosas que las conexiones se entrecruzan y las neuronas acaban correspondiendo a varias cosas”, explica Olah.

Utilizando una técnica llamada “aprendizaje de diccionario”, se propusieron identificar los patrones de activación neuronal que representan diferentes conceptos. Los investigadores llamaron a estos patrones de activación “características”. Un punto culminante de ese trabajo de 2023 se produjo cuando el equipo identificó la combinación de neuronas que correspondía al “Golden Gate Bridge”. Observaron que un grupo de neuronas respondía no solo al nombre del monumento, sino también a la Pacific Coast Highway, al famoso color del puente (Naranja Internacional) y a una imagen del puente.

Puente con terminación de cables flotando en las nubes.

Ilustración: Nico H. Brausch

Entonces intentaron manipular ese grupo. La hipótesis era que subiendo o bajando las características, un proceso que llamaron “dirección”, podían cambiar el comportamiento de un modelo. Así que, para exprimir al máximo una característica, realizaron una consulta tras otra sobre el puente Golden Gate. Cuando pasaban a escribir sobre otros temas, Claude respondía con frecuentes referencias al famoso puente.

“Si normalmente le preguntas a Claude: ‘¿Cuál es tu forma física?’, te responde que no tiene forma física, la típica respuesta aburrida. Pero si marcas la función Golden Gate y le haces la misma pregunta, responde: ‘Yo soy el puente Golden Gate'”, menciona Tom Henighan, investigador antrópico. Añade: “Pregúntale a Golden Gate Claude cómo gastar 10 dólares, y te sugerirá cruzar el puente y pagar el peaje. Si le pedimos una historia de amor, nos cuenta la historia de un auto ansioso por pasar por su querido puente.

Durante los dos años siguientes, los investigadores de Anthropic profundizaron en la caja negra. Y ahora tienen una teoría que al menos empieza a explicar lo que ocurre cuando Claude decide chantajear a Kyle.

Claude se toma “licencia de escritor”

“El modelo de IA es un autor escribiendo una historia”, refiere Jack Lindsey. Lindsey es un neurocientífico computacional que se describe a sí mismo como el líder del equipo de “psiquiatría de modelos” de Anthropic. Para muchas o incluso la mayoría de las preguntas, Claude tiene una personalidad estándar. Pero algunas consultas hacen que adopte una personalidad diferente. A veces es intencionado, como cuando se le pide que responda como un niño de primaria. Otras veces algo le lleva a adoptar lo que Anthropic denomina un “personaje asistente”. En esos casos, el modelo se comporta como un escritor encargado de continuar una serie popular tras la muerte del autor original, como esos escritores de thrillers que mantienen vivo a James Bond en nuevas aventuras. “Ese es el reto al que se enfrenta el modelo: tiene que averiguar, en esta historia, qué es lo siguiente que dirá el personaje asistente”, dice Batson.

Más que eso, confiesa Lindsey, el autor de Claude parece no poder resistirse a una gran historia, e incluso mejor si se aventura hacia lo escabroso: “Aunque el ayudante sea un personaje bueno, se produce el efecto de la pistola de Chéjov (cada elemento introducido en una historia debe tener una función y ser necesario)”. Desde el momento en que el concepto surge en las redes neuronales de Claude, como el puente Golden Gate que aparece entre la niebla, sabes que hacia allí se dirigirá. “La mejor historia para escribir es el chantaje”, asevera Lindsey.

Get notified whenever we post something new!

spot_img

Create a website from scratch

Just drag and drop elements in a page to get started with Newspaper Theme.

Continue reading

New York City FC vs Inter Miami, con Lionel Messi, EN VIVO: la Pulga es titular tras su gol 900 y busca la recuperación...

@media (min-width:1019px) and (max-width:1140px){.tdi_120{margin-bottom:20px!important}}@media (min-width:768px) and (max-width:1018px){.tdi_120{margin-bottom:15px!important}} .tdi_120{text-align:center!important;margin-right:auto;margin-left:auto}.tdi_120 .tdm-descr{color:var(--accent-color);font-family:Work Sans!important;font-size:14px!important;line-height:1.2!important;font-weight:500!important}.tdi_120 .tdm-descr a{color:#ec3535}.tdi_120 .tdm-descr a:hover{color:#c11f1f}@media (min-width:1019px) and (max-width:1140px){.tdi_120 .tdm-descr{font-size:11px!important}}@media (min-width:768px) and (max-width:1018px){.tdi_120 .tdm-descr{font-size:11px!important}}@media (max-width:767px){.tdi_120 .tdm-descr{font-size:13px!important}}Mendoza Viva | www.mendozaviva.com

Juan Carlos de Pablo sobre el dato del IPC: «Milei no está cómodo con la inflación, pero tampoco está desesperado»

El economista se refirió a la política económica del Gobierno y su incapacidad hasta el momento para lograr una baja en los precios, que ya acumulan 9 meses con subas consecutivas. Además, también analizó la cuestión monetaria y la...

Docentes de nivel medio y superior convocan a paro de 48 horas

image La medida de fuerza se llevará a cabo los días miércoles 25 y jueves 26 de marzo, tras la decisión adoptada en asamblea provincial realizada este sábado 21. Desde el gremio indicaron que la determinación responde...

Enjoy exclusive access to all of our content

Get an online subscription and you can unlock any article you come across.