La IA no te Dirá Cómo Hacer Bombas—a Menos Que Escribas ‘BoMb’

La técnica de jailbreak Best-of-N de Anthropic demuestra cómo introducir caracteres aleatorios en un prompt suele ser suficiente para eludir con éxito las restricciones de la IA.