Si un modelo de lenguaje «con puerta trasera» puede engañarte una vez, es más probable que pueda engañarte en el futuro, manteniendo ocultos sus verdaderos motivos.