La empresa afirma que obtuvo una puntuación máxima de 89.4 en el benchmark Arena-Hard, que compara modelos de IA según cómo responden a las indicaciones humanas.