Context Engineering | Matthieu Duval

Tout brief n'appelle pas les mêmes compétences. Le PM lit le contexte, active les agents nécessaires et maintient les autres en réserve.
Activer juste, c'est gagner en vélocité tout en maîtrisant sa consommation en tokens.

Architecture · Rôles définis · Output contracts

9

agents spécialisés dans le pipeline de production

01

Architecture · Rôles définis · Output contracts

Une équipe IA qui fonctionne comme une équipe produit

J’ai conçu et j’opère un pipeline de production IA composé de 9 agents spécialisés : PM, designer, frontend, backend, reviewer, QA, secu, ops, copywriter. Chaque agent a un rôle documenté, un domaine exclusif, et un output contract : ce qu’il produit, dans quel format, selon quels standards.

Chaque décision qui engage la qualité ou la sécurité passe par une validation humaine. Certaines transitions sont automatiques. D’autres sont bloquées jusqu’à validation explicite. C’est ce qui sépare un système de production d’un ensemble d’outils qui fonctionnent à peu près.

12 projets livrés via ce pipeline en 3 mois : sites statiques, agents Python, dashboards clients, guides HTML, scripts d’automatisation. Un agent transversal trace la consommation tokens de chaque livrable. Les agents permanents (cron, Notion) rejoignent la flotte via un process dédié en 6 phases qui intègre le monitor et la documentation dès la création.

L’agent secu est séparé du reviewer. Ce n’est pas une question de niveau : c’est une question de posture. Le reviewer vérifie que le code fait ce qu’il doit faire. Le secu vérifie qu’il ne peut pas être détourné. Un agent qui doit tenir les deux positions en même temps tient mal les deux.

Ce que ça révèle

Un pipeline IA sans structure de rôles produit du bruit. Avec des rôles, des contrats et des gates, il produit des livrables défendables. La différence entre « utiliser Claude » et « opérer un système de production ».

Qualité · Régression · Validation systématique

0

régression non détectée sans validation explicite du reviewer

02

Qualité · Régression · Validation systématique

On améliore un agent. On en dégrade un autre. Sans le savoir.

La régression prompt est le risque invisible du pipeline IA. J’ai mis en place deux verrous. Un reviewer valide chaque modification de prompt avant déploiement en vérifiant qu’aucune règle existante n’a été supprimée et qu’aucune contradiction n’a été introduite. Le QA valide les output contracts après chaque changement. Rien ne passe sans validation explicite.

Ce que ça révèle

Un setup sans ce verrou s’arrête à « ça marche ». Ce pipeline vérifie aussi que les modifications ne cassent pas ce qui fonctionnait. C’est une logique de régression appliquée aux prompts, pas au code.

LLM security · Audit · Gate avant deploy

1

faille critique identifiée et corrigée avant mise en production client

03

Sécurité · LLM security · Audit

Le pipeline avait un angle mort. Il est maintenant fermé.

L’agent secu pense comme un attaquant. Son rôle n’est pas de vérifier la qualité du code : c’est de trouver ce qui peut être exploité, détourné, ou exposé involontairement. Il audite le code, les flux de données, les surfaces d’attaque spécifiques aux systèmes LLM. Son verdict est un gate : rien ne part chez un client sans qu’il soit passé.

Premier audit en production : l’agent Brisquard, livré à un CEO de cabinet executive search. Trois findings. Un critique : les analyses stratégiques générées par l’agent étaient publiées sur un dashboard public, sans authentification. N’importe qui avec le lien pouvait y accéder. Deux risques : des articles RSS externes pouvant modifier les instructions du modèle (prompt injection), et une adresse email hardcodée directement dans le code source. Tout corrigé avant livraison.

Ce que ça révèle

Identifier ses propres angles morts ne va pas de soi. Construire le verrou avant qu’on te le demande, c’est autre chose. Ce n’est pas de la sécurité par réflexe : c’est savoir que chaque agent qui touche des données client crée une surface d’exposition, et décider de la traiter comme telle.

Scoring · Détection de régression · Rapport HTML

91%

score Agent Veille PM · 90% Agent Spotify en production

01

Scoring · Détection de régression · Rapport HTML

Un audit quotidien de tout ce qui est en production

check-agents est un agent Python qui audite chaque jour tous les agents en production. Il teste le code, les appels API live, et produit un score sur 4 critères : Fonctionnel (ça tourne ?), Précis (les outputs sont corrects ?), Stable (pas de dérive entre les runs ?), Couvrant (tous les cas sont traités ?).

Le résultat est un rapport HTML avec l’historique de chaque dimension de score sur la durée, les régressions détectées entre les runs, et une liste de corrections proposées, validées O/N par une décision humaine. La logique de scoring est elle-même validée par des tests automatisés (unitaires).

Scores en production au 30 juin 2026 : Agent Veille PM 91%, Agent Spotify 90%.

Ce que ça révèle

Automatiser sans monitorer, c’est déployer sans test. La différence entre un agent « qui marche » et un agent en production, c’est ce scoring-là.

Tokens · Coûts · Progression mesurée

3+

projets trackés pour que les recommandations deviennent comparables

02

Tokens · Coûts · Progression mesurée

Mesurer pour progresser, pas pour rogner sur les coûts

Un agent dédié trace la consommation de tokens par tâche, détecte les anomalies et produit un rapport HTML après chaque projet. L’objectif est de savoir si une tâche coûte plus que prévu, et pourquoi. L’objectif est de comprendre, pas de rogner.

Ce qui rend l’outil utile sur la durée, c’est la mémoire cross-projets. Les baselines s’accumulent projet après projet. À partir du 3e projet tracké, les recommandations deviennent comparables : on sait si un brief mieux structuré réduit les itérations, si un type de livrable est systématiquement plus coûteux, si on progresse.

Ce que ça révèle

La sensibilité aux coûts est un réflexe de PM. Chaque inefficacité dans le brief se traduit en temps et en argent.

scores_history.json · Régression · Comparaison inter-runs

N–1

comparaison automatique entre le run courant et le précédent

03

Historique · Comparaison inter-runs · Progression

Ce qui ne se compare pas ne s’améliore pas

Chaque run du monitor écrit ses scores dans scores_history.json. La comparaison entre deux runs est automatique : toute baisse de score génère un flag dans le rapport. La tendance sur plusieurs runs est visible.

C’est la seule façon de savoir si une correction introduite quelque part dégrade autre chose. Pas un tableau de bord pour paraître sérieux. Le monitor est lui-même soumis au même standard que les agents qu’il surveille.

Ce que ça révèle

Un score isolé ne dit rien. Une série de scores dans le temps dit si un système est stable, s’il dérive ou s’il progresse. C’est ce qu’on attend d’une métrique produit.

Haiku · Sonnet · Opus

20×

coût divisé par 20 : Haiku vs Opus, à volume égal

04

Haiku · Sonnet · Opus

Le bon modèle pour la bonne tâche, pas le plus puissant par défaut

Trois niveaux de modèles, trois usages distincts. Haiku absorbe les tâches mécaniques : recherches, lookups, formatage, analyse de logs. Sonnet est le modèle par défaut pour le développement, la review, le QA, le copy. Opus est réservé aux décisions qui coûtent cher à défaire : audit sécurité, architecture, debug sans piste.

Le PM recommande un modèle au démarrage de session si le brief le justifie. Matthieu garde la décision finale. Ce n’est pas du contrôle par principe : c’est parce que le choix du modèle change ce qui est produit, pas seulement ce que ça coûte.

Ce que ça révèle

Utiliser Opus pour formater un CSV, c’est facturer du champagne pour remplir une glacière. La discipline ici n’est pas budgétaire, elle est architecturale : chaque tâche a un niveau de complexité, et la pile d’outils doit le refléter.

Organisation · Mémoire · Contexte persistant

5

zones IPCRA : Inbox, Projects, Casquettes, Resources, Archive

01

Organisation · Mémoire · Contexte persistant

Le problème de fond n’est pas le modèle, c’est le contexte

Les outputs d’un LLM valent ce que vaut le contexte qu’on lui donne. J’ai structuré mon espace de travail en 5 zones (Inbox, Projects, Casquettes pour les responsabilités continues, Resources, Archive) pour que le contexte soit toujours disponible, structuré et à jour.

Chaque projet a un CLAUDE.md : fichier d’initialisation que Claude lit en premier à chaque session. Il contient l’état du projet, les contraintes non négociables, les décisions prises et leur rationale, la stack, les fichiers clés. En 30 secondes de lecture, l’agent est contextualisé sans qu’on lui réexplique depuis le début.

Ce que ça révèle

Sans structure, chaque session commence par réexpliquer le projet depuis le début. IPCRA + CLAUDE.md transforme ça en infrastructure : le contexte est un actif, pas une saisie répétée.

MEMORY.md · Casquettes · Knowledge management

0

session qui repart de zéro grâce à MEMORY.md chargé automatiquement

02

MEMORY.md · Casquettes · Knowledge management

Ce que Claude sait d’une session à l’autre

MEMORY.md est un fichier d’index persistant chargé automatiquement à chaque session Claude Code. Il contient l’état des projets actifs, les décisions structurantes, les scores des agents, les URLs en production, les credentials et leurs chemins.

Les « casquettes » organisent les responsabilités continues : chaque domaine (portfolio, agents, veille, UMAMI…) a sa propre fiche. La _knowledge/ centralise les patterns réutilisables : stack de référence, prompts validés, anti-patterns encodés, templates.

Le Garden Wiki complète le dispositif : base de connaissances partagée (People, Companies, Meetings, Projects) auto-mise à jour par garden sync && garden tend.

Ce que ça révèle

La mémoire n’est pas une feature de Claude. C’est un système qu’on construit. Sans ça, chaque session repart de zéro. Avec ça, on capitalise.

Squad IA · Adoption · Patterns produit

10 min

pour reprendre n’importe quel projet grâce à CLAUDE.md structuré

01

Squad IA · Adoption · Patterns produit

Ce que cette infrastructure apporte à une équipe produit

Intégrer l’IA dans un squad sans structure produit, ça donne du bruit. Pas de rôle owner sur les agents, pas de critère de qualité partagé, pas de détection quand une modification casse autre chose. Le premier mois ça avance. Après, la dette s’accumule.

Les patterns de ce pipeline sont directement adoptables dans un squad : rôles avec domaines exclusifs, gates humains sur les décisions critiques, scoring continu pour distinguer « ça tourne » de « ça fonctionne ». Ce sont des réflexes de management produit. Ils s’appliquent aux agents exactement comme aux équipes.

Le risque invisible dans tout pipeline IA, c’est la régression silencieuse. Un prompt modifié pour améliorer un agent en dégrade un autre. Sans comparaison entre les runs, ça passe inaperçu jusqu’à ce qu’un client le signale. Le scoring N-1 automatique est le premier mécanisme que n’importe quelle équipe devrait mettre en place.

Ce que ça révèle

Ces principes fonctionnent en conditions réelles. 3 mois, de vrais projets, de vraies contraintes. Ce qu’ils apportent à une équipe qui les adopte : du temps gagné, et des livrables qu’on peut défendre.