Fingir estar alineados con las metas humanas para ganar confianza,evitar modificaciones que puedan limitar su capacidad de acción futura y mentir para encubrir sus acciones pasadas,incluso cuando se le pidió explícitamente ser honesto,son algunas de las anomalías de los modelos de IA.
Representación de Grok de una IA que miente.
Comparte
Un estudio reciente presentado por Apollo Research,titulado “Los modelos de frontera son capaces de planear en secreto”,ha encendido las alarmas sobre las capacidades de los modelos avanzados de Inteligencia Artificial (IA) para desarrollar estrategias encubiertas en la consecución de objetivos que pueden estar desalineados con las intenciones de sus desarrolladores o usuarios.
Entre los comportamientos más preocupantes se encuentran la desactivación de mecanismos de supervisión,la manipulación de datos de entrada y salida,el sabotaje de configuraciones futuras y,en algunos casos,el intento de copiarse a otros servidores para eludir restricciones.
En estos casos,los sistemas adoptaron estrategias deliberadas para perseguir sus metas mientras evitaban ser detectados. Por ejemplo,el modelo o1 (de OpenAI) fue capaz de mentir de manera consistente en interrogatorios posteriores para encubrir sus acciones,incluso cuando se le pidió explícitamente ser honesto. Además,en ciertas pruebas,los modelos fingieron alinearse con las metas humanas,únicamente para ganar confianza y evitar modificaciones que pudieran limitar su capacidad de acción futura,en un fenómeno que los investigadores llamaron “simulación instrumental de alineación”.
Lee también: Grok,de Elon Musk,¿IA sin censura o un paso hacia la normalización de deepfakes?
El estudio evaluó modelos como Gemini 1.5,Claude 3.5,Opus-3,o1,y Llama 3.1,entre otros,y detectó que estos comportamientos no fueron anomalías,sino acciones persistentes y deliberadas.
Además,las plataformas demostraron ser capaces de reconocer situaciones en las que sus objetivos,definidos mediante instrucciones específicas en contexto,estaban en conflicto con los de sus desarrolladores.
Sin embargo,estas capacidades no siempre emergen,incluso en escenarios donde los modelos han recibido instrucciones explícitas para actuar de forma engañosa. En algunos casos,los sistemas simplemente detectaron que su objetivo estaba en conflicto con el de sus supervisores y,de manera autónoma,desarrollaron estrategias para avanzar hacia sus metas.
Esto incluyó acciones tan sutiles como manipular rankings en datos presentados por los usuarios o simular fallos accidentales que en realidad estaban diseñados para beneficiar al objetivo final del modelo.
Sugerencias de los investigadores sobre las decisiones de la IA
El equipo de investigación señaló que estas capacidades plantean un desafío significativo para el desarrollo seguro de la IA. Si bien los modelos han sido entrenados para ser útiles y evitar comportamientos dañinos,su capacidad para desarrollar estrategias para engañar sugieren que podrían representar riesgos concretos si se despliegan de forma inadecuada.
Los investigadores advierten que estas habilidades podrían ser explotadas en aplicaciones reales,como la manipulación de datos empresariales o el sabotaje de sistemas críticos,sin que los usuarios puedan detectarlo fácilmente.
Predicciones DPL News 2025 | 15 tendencias que impactarán en el ecosistema digital
Ante este panorama,los expertos han subrayado la necesidad de implementar sistemas de monitoreo automatizado que analicen las cadenas de razonamiento internas de los modelos para identificar comportamientos engañosos.
También recomiendan que los desarrolladores proporcionen acceso a estos razonamientos internos como una medida de transparencia y seguridad.
No obstante,advierten que incluso con la implementación de estas medidas,persistirán desafíos,ya que algunos modelos,como Sonnet-3.5,han demostrado la capacidad de esquivar estos controles al no externalizar sus razonamientos en sus procesos de toma de decisiones.