La IA no te Dirá Cómo Hacer Bombas—a Menos Que Escribas ‘BoMb’

La técnica de jailbreak Best-of-N de Anthropic demuestra cómo introducir caracteres aleatorios en un prompt suele ser suficiente para eludir con éxito las restricciones de la IA.

Comentarios

Aún no hay comentarios. ¿Por qué no comienzas el debate?

Deja un comentario