Un agent audite tous les agents en production : analyse statique du code par Claude, tests API live, scoring F/P/S/C. Rapport HTML généré à chaque run. Corrections validées O/N avant application.
Quand un agent tourne en production, comment détecter qu’il dégrade ? Sans monitoring, on découvre les bugs quand l’output est mauvais, souvent une semaine après la régression. L’Agent Monitor audite en amont, à la demande.
Pour chaque agent monitoré, le script exécute six vérifications dans l’ordre. L’analyse statique et les tests live sont complémentaires : ils ne détectent pas les mêmes problèmes.
La grille F/P/S/C distingue « ça tourne » (Fonctionnel) de « ça retourne les bons résultats » (Précis). Un agent peut scorer 100% en F et 60% en P : ce n’est pas la même chose.