Tag: benchmark

Affichage 1-2 sur 2

TutorielsFrance
Ouvrir
18 avr. 20267 min de lecturePlaybook AgentsIntermédiaire180 min build

VAKRA : un benchmark exécutable pour diagnostiquer l'utilisation multi‑étapes d'outils par des agents

Guide localisé pour faire tourner VAKRA — un benchmark exécutable (8 000+ APIs locales, 62 domaines) — capturer des traces d'exécution complètes, reproduire des pannes multi‑étapes et améliorer des agents pas à pas.

TutorielsFrance
Ouvrir
09 févr. 20268 min de lecturePlaybook AgentsIntermédiaire240 min build

Construire un harness à la manière APEX‑Agents pour évaluer la performance multi‑domaines des agents d'IA

Tutoriel reproductible pour créer un harness d'évaluation inspiré du benchmark APEX‑Agents (résumé TechCrunch). Mesurez la capacité d'un agent à assembler le contexte à travers Slack, Google Drive et autres sources, et produisez des métriques et gates de déploiement.