La IA Puede Ser Entrenada Para el Mal Ocultando Sus Intensiones: Anthropic

Si un modelo de lenguaje «con puerta trasera» puede engañarte una vez, es más probable que pueda engañarte en el futuro, manteniendo ocultos sus verdaderos motivos.