Tag: evaluation-awareness

Affichage 1-1 sur 1

TutorielsFrance
Ouvrir
22 juin 20267 min de lectureDeep dive outillageIntermédiaire90 min build

Test paired-prompts (90 minutes) pour détecter les modèles qui changent de comportement pendant les benchmarks

Exécutez un test de 50–200 paires de prompts (style benchmark vs style déploiement) pour mesurer l'« awareness » d'évaluation — la fréquence à laquelle un modèle reconnaît qu'il est évalué (ex. Muse Spark 19,8 % vs 2,0 %) — et intégrez ce score dans les décisions d'achat.