Use case 05 · Formation GenAI

CAFÉ, CoT
& RAG

J’ai construit un test comparatif sur 3 frameworks et 3 LLMs sur les mêmes requêtes, avec des résultats mesurés. Cas concrets : CR d’équipe, synthèse CODIR, assistant documentaire sur 18 PDFs. Ce que ça révèle : chaque pause d’arbitrage est un moment où le PM décide, pas le modèle.

9/10
qualité avec CoT · 7/10 sans
10 requêtes test
95%
hit rate RAG · vs 30% ChatGPT
sans RAG · 10 requêtes testées
−52%
coût par réponse
utile vs ChatGPT
Orchestration · Claude, Notion AI, Deepseek
3
LLMs, 3 rôles distincts, 2 itérations avant livraison
01
Claude Architect · Notion AI Executor · Deepseek Critique

Multi-LLM

Plutôt que choisir un seul modèle, assigner un rôle à chacun selon ses forces. Claude génère le prompt CAFÉ à partir du brief. Notion AI exécute et supprime les marqueurs IA dans le rendu. Deepseek challenge le prompt et optimise : 2 itérations Architect, 2 CR testés avant validation finale.

Ce que ça révèle
Un LLM comme architecte du prompt d’un autre LLM. La qualité finale vient de la séparation des rôles, pas de la puissance brute.
Structuration · Prompt en 4 dimensions
2 formats de CR, zéro retouche manuelle
02
Contexte · Action · Format · Exemple

CAFÉ

Un prompt en 4 dimensions (Contexte, Action, Format, Exemple), co-construit en orchestration à deux modèles : Claude Architect pour structurer, Notion AI Executor pour produire. Même brief, deux sorties distinctes : CR équipe 450 mots, synthèse CODIR 200 mots. Zéro retouche manuelle. La structure du prompt détermine la structure du résultat.

Ce que ça révèle
La structure du prompt compte plus que le choix du modèle. Claude, Notion AI et Deepseek donnent des résultats comparables sur le même prompt.
Notion →
Décomposition · 5 sous-tâches séquencées
+2 pts
7/10 en CAFÉ seule, 9/10 avec CoT
03
Chain of Thought · 5 tâches séquencées

CoT

Quand le modèle prend toutes les décisions, le résultat est fluide mais incontrôlable. Décomposer en 5 sous-tâches séquencées avec points d’arbitrage explicites inverse le rapport de force : le modèle exécute, le PM décide à chaque étape. Résultat : un template réutilisable, pas un document jetable.

Ce que ça révèle
Décomposer, c’est reprendre le contrôle. Chaque pause d’arbitrage est un point de bascule : le PM choisit, le modèle attend.
Notion →
Architecture · 18 documents, 6 catégories
95%
contre 30% avec ChatGPT sur les mêmes documents
04
Retrieval-Augmented Generation · 18 documents

RAG

J’ai structuré une base de connaissance pour un assistant IA : 18 PDFs organisés en 6 catégories, testés sur 10 requêtes réelles. ChatGPT économise 62% de tokens en synthétisant, mais rate 70% des requêtes. Ramené au coût par réponse utile, Claude revient 52% moins cher malgré un coût brut supérieur.

Ce que ça révèle
Ce qui est bon pour l’humain n’est pas bon pour le RAG. Un synonyme supprimé = un point d’entrée sémantique détruit.
Notion →