Mesurer comment des modèles ouverts utilisent vos bibliothèques : benchmark reproductible pour agents
Construisez un harness répétable qui enregistre les étapes de planification des agents, les appels d'API, les retries, les tokens, le temps mur et le coût pour révéler les points de friction dans votre bibliothèque et guider les décisions de déploiement.