Claude 'Rêve' : Harvey 6× — et la souveraineté française

Anthropic a livré 'Dreaming' pour Claude Managed Agents en research preview. Harvey rapporte 6× sur la complétion. La grille CNIL + souveraineté à passer avant.

Le chiffre qu’Anthropic a posé sur la table le 6 mai est inhabituel : 6×. Pas 60 % de mieux, pas le double — six fois le taux de complétion des tâches. C’est ce que la plateforme juridique Harvey a rapporté après l’activation de “Dreaming”, la nouvelle fonction de Claude Managed Agents que LeFilIA a décrite comme un état d’analyse récurrente des sessions passées qui gère la perte de contexte sur les projets longs.

Une métrique 6× aussi propre signifie généralement une de trois choses. Soit la base était très basse et presque toute amélioration paraît spectaculaire. Soit la mesure a été généreuse. Soit la fonction fait quelque chose de légitimement différent de ce qui existait avant. Dans le cas de Harvey, c’est la troisième.

Mais avant de demander l’accès au research preview, il y a une question que la couverture anglo‑saxonne traite à peine, et qui en France est la première que ton DPO va te poser : la mémoire de l’agent passe‑t‑elle l’AIPD CNIL — et tes workloads sensibles relèvent‑ils plutôt d’une solution souveraine ? En janvier 2026, le ministère des Armées français a signé un accord‑cadre avec Mistral AI. Le partenariat France‑Allemagne avec Mistral + SAP pour l’IA de l’administration publique est en cours de formalisation. Pour beaucoup de grands comptes français, le choix Claude vs Mistral n’est plus juste une décision de coût ou de qualité — c’est une décision de souveraineté.

Annonce d’Anthropic du 6 mai — “New in Claude Managed Agents: dreaming, outcomes, and multiagent orchestration” — le drop quatre fonctions qui positionne Dreaming comme research preview principal Source : Claude Blog

Ce que “Dreaming” fait techniquement

Le nom est poétique ; l’implémentation est mécanique. Trois processus se déroulent pendant un pass de Dreaming :

Un processus curateur lit les sessions passées. Ce que l’agent a fait pendant les N dernières sessions — appels d’outils, raisonnement intermédiaire, sorties finales, états d’erreur — est lu par un processus séparé dont le seul travail est de chercher des patterns. Ce n’est pas l’agent qui s’examine en temps réel. C’est un pass de curation entre deux runs actifs.

Les insights consolidés sont écrits dans la mémoire persistante de l’agent. Les erreurs récurrentes sont taguées (“ne plus essayer de lire des PDF avec le handler .doc”). Les workflows sur lesquels plusieurs sessions ont convergé indépendamment sont promus. Les préférences de style sont codifiées. Les entrées obsolètes sont élaguées.

Un diff est présenté pour inspection. Le framing d’Anthropic est explicite : les développeurs peuvent vérifier ce que Dreaming propose d’ajouter, modifier ou supprimer avant le commit. Le plan de contrôle reste à l’équipe.

Ce que Dreaming n’est pas : auto‑modification continue, ré‑architecture autonome des instructions de l’agent, ni rien qui touche aux poids du modèle. C’est strictement la mémoire de travail de l’agent — les notes persistantes que l’agent lit au début de chaque nouvelle session.

Trois fonctions sœurs sont sorties le même jour. Outcomes est un mode d’exécution conditionné par objectif où l’agent travaille contre un rubric et un évaluateur séparé décide quand le travail est acceptable. Multi‑agent orchestration permet à un agent leader de découper une tâche et de dispatcher aux sous‑agents avec des contextes isolés. Memory est désormais en bêta publique. Dreaming est la seule en research preview — l’accès est sur demande.

La grille CNIL avant le 6×

C’est ici que le contexte français diverge nettement de la couverture anglo‑saxonne. La CNIL maintient depuis 2023 que le RGPD reste le cadre principal pour les systèmes d’IA traitant des données personnelles, et publie en 2025–2026 de nouvelles recommandations spécifiques IA — minimisation des données, transparence, documentation des jeux de données, et AIPD (analyse d’impact relative à la protection des données) pour les cas à haut risque.

L’analyse juridique récente est explicite : pour les systèmes IA à haut risque, l’AI Act et le RGPD convergent, avec des sanctions pouvant atteindre jusqu’à 6 % du chiffre d’affaires mondial pour certaines violations graves. Ce n’est plus une métrique théorique — c’est ce que les conseils donnent aux entreprises françaises depuis fin 2025.

Pour Dreaming, les préoccupations typiques des DPO et CISO français :

  • Où sont stockées les mémoires d’agents, pour combien de temps, avec quel contrôle ? Les “rêves” tombent‑ils dans la même base légale que la session originale, ou est‑ce un second traitement qui requiert son propre fondement ?
  • Comment documenter les rêves pour répondre à un contrôle CNIL ? Si un titulaire demande accès ou effacement, peux‑tu retrouver ce qui a été consolidé à partir de ses données — et le supprimer rétroactivement ?
  • Quelle base légale pour l’analyse rétrospective de logs multi‑agents — intérêt légitime, contrat, consentement ? La pseudonymisation est‑elle suffisante quand la consolidation peut ré‑identifier par recoupement ?

Sans réponse documentée à ces trois questions, l’AIPD est incomplète et le déploiement n’est pas couvert.

Souveraineté : le contexte français spécifique

Le deuxième facteur que la presse anglo‑saxonne ne traite pas : la France a fait un pari souverain explicite.

  • Janvier 2026 : le ministère des Armées signe un accord‑cadre avec Mistral AI pour fournir modèles et services IA sur infrastructures françaises, avec adaptation via données de défense et contrôle strict de localisation.
  • Mi‑2026 : un accord‑cadre formalisé France–Allemagne avec Mistral + SAP pour déployer une “IA souveraine” pour l’administration publique.
  • Choose France 2026 : Mistral AI mis en avant comme acteur stratégique aux côtés des investissements étrangers cloud / data centers.
  • France 2030 consacre plusieurs milliards à l’IA, dont 500 M€ pour les “AI‑Clusters”, avec un focus explicite sur la provenance des données, la gouvernance (data coop in a box, calcul fédéré, pseudonymisation) et la transparence de la chaîne de valeur IA.

Le camp “souverainistes IA” en pratique : Mistral (France), LightOn (France, modèles frugaux), H Company (France, IA & cybersécurité / défense), et Aleph Alpha (Allemagne) côté DACH. Pour beaucoup de grands comptes français — particulièrement publics, régaliens, défense, santé, finance régulée — la consigne implicite est claire : les workloads sensibles vont vers une solution souveraine, Anthropic est réservé aux cas non‑sensibles ou via des co‑entreprises très encadrées.

Cela ne disqualifie pas Dreaming pour autant — mais cela définit où il a sa place. Pour des loops de coding agent sur du code interne non‑PII, des runners d’eval, ou des workflows de déflexion de support sans données médicales / financières / défense, Dreaming reste pertinent. Pour un agent qui touche à la donnée patient Doctolib, à la donnée transactionnelle BNP Paribas, ou à la donnée contractuelle Crédit Agricole, la conversation s’arrête à la souveraineté avant même d’arriver au 6×.

Comment la presse française a lu le 6× de Harvey

La réception française de la métrique 6× mérite attention. Dans la communication de Harvey et les analyses anglo‑saxonnes, on parle de gains substantiels mais les chiffres documentés en études de cas sont plus modestes : +35 % de capacité de traitement des dossiers (Masin Projects), 7 à 10+ heures économisées par avocat par semaine, plutôt qu’un multiplicateur strict 6×.

Quand Harvey est mentionné dans la presse francophone — Canadian Lawyer, blogs de droit tech français, analyses de cabinet — la rhétorique tourne autour de “meilleure productivité des avocats”, “réduction drastique des temps de revue documentaire”, et “capacité à prendre plus de dossiers sans recruter”. Mais les médias sérieux restent prudents sur les chiffres marketing type “6×”.

Pour un lecteur français — particulièrement un directeur juridique ou un DPO — le “6× multiplier” est davantage perçu comme un ordre de grandeur marketing. En interne, on raisonne en heures économisées par semaine ou en pourcentage de capacité supplémentaire — métriques plus compatibles avec les exigences d’audit RGPD et AI Act. C’est aussi ce qui a le plus de sens à reporter au comex : “+35 % de capacité sur les dossiers M&A après 90 jours” passe mieux que “6× le taux de complétion”.

Le gate Q3 en 5 questions pour les équipes francophones

Avant de demander l’accès research preview — et certainement avant de ré‑architecturer ton stack — passe ces cinq questions dans cet ordre.

1. Ton stack d’agents a‑t‑il vraiment une couche mémoire aujourd’hui ?

Un nombre surprenant d’“agents” en production aujourd’hui sont des chaînes de prompts sans état avec un router et quelques appels d’outils. Dreaming consolide la mémoire persistante — sans mémoire persistante, Dreaming n’a rien à consolider.

Test rapide : fais tourner un de tes agents deux fois sur la même famille de tâches avec 24 h d’écart. Apprend‑il quelque chose du run 1 qui affecte le run 2 ? Si la réponse est “non, il refait tout à chaque fois”, tu n’as pas de couche mémoire.

2. Ton AIPD couvre‑t‑elle la consolidation de mémoire ?

Cette question n’apparaît pas dans la couverture anglo‑saxonne — et c’est l’obstacle le plus important pour la France. Si ton agent traite des données personnelles (et c’est presque toujours le cas dès qu’il interagit avec des données salariées, clients, ou e‑mails externes), l’AIPD est obligatoire dans la majorité des cas.

L’AIPD doit explicitement couvrir le second finalité (consolidation de mémoire) que Dreaming introduit. Une AIPD qui couvre le run original mais pas l’apprentissage ultérieur est incomplète — et ça apparaîtra dans le premier contrôle CNIL.

3. Tes workloads tombent‑ils dans la zone “souveraineté requise” ?

Liste tes 5 cas d’usage agents les plus actifs. Pour chacun, demande : ce cas touche‑t‑il à de la donnée régalienne (défense, justice, sécurité), de la donnée santé patient, de la donnée financière régulée (ACPR), ou de la donnée RH étendue ?

Si oui pour au moins un cas, ce cas relève probablement d’une solution souveraine (Mistral, Aleph Alpha) ou d’un déploiement régional avec contrôle souverain — pas de Claude Managed Agents standard. Le reste de tes cas peut continuer en évaluation Dreaming. Mais documente cette répartition explicitement, parce que c’est la première chose qu’un auditeur regardera.

4. Quel est ton taux d’erreurs répétées ?

Sors les traces eval‑suite des 30 derniers jours. Groupe les échecs par cause racine. Quel pourcentage sont des répétitions ?

  • Moins de 20 % : gains marginaux. Tu passeras de 80 % à peut‑être 84 % de complétion. Fais‑le, mais pas comme priorité Q3.
  • 20–40 % : gains significatifs. Planifie pour 1,5×–2× d’amélioration.
  • Plus de 40 % : Dreaming se compose avec l’augmentation Tier‑1 Opus du 6 mai en une amélioration effective 2–3× sur le coût par run. Cette tranche justifie une ré‑architecture partielle.

5. Peux‑tu absorber la gouvernance “diff‑review” à l’échelle ?

Dreaming présente un diff. Quelqu’un doit revoir les diffs qui comptent — particulièrement pour les agents critiques où une entrée mémoire mal promue change le comportement de manière coûteuse.

Avec 1–3 agents en production, la review par développeur de chaque diff est gérable. Avec 20+, la review devient un job d’ops Q3. Qui le possède ? Quel SLA ?

Le mode auto‑apply existe pour une raison — la majorité des équipes l’utiliseront pour la masse de leurs agents et garderont la review manuelle pour les cas critiques. Écris cette politique avant d’envoyer Dreaming en production. Pour les agents avec données personnelles sous RGPD, ce n’est pas négociable : chaque modification automatique de mémoire doit être traçable, pour que les demandes d’exercice de droits soient honorables.

Trois patterns “demander l’accès cette semaine”

Loops longs de coding agent. Cursor, Cline, Aider ou ton équivalent maison porté à Claude Code — agents qui revisitent le même codebase sur plusieurs jours, apprennent les conventions, et accumulent du savoir comme “ce fichier a des imports bizarres” ou “le test suite plante au‑delà de 4 en parallèle”.

Eval‑suite runners qui re‑testent le même set de scénarios sur plusieurs versions modèle. Ton harness eval relance les mêmes 200 scénarios à chaque bump de modèle. Dreaming peut consolider “le scénario 47 est flaky pour des raisons non‑feature” ou “la sortie attendue du 113 a dérivé sur les 30 derniers jours”.

Agents de déflexion support avec patterns FAQ répétés. L’agent répond aux mêmes 50 types de questions des milliers de fois. Dreaming consolide “la bonne réponse à la catégorie X a changé” ou “le lancement produit a rendu la FAQ #14 obsolète”.

Deux patterns “attendre la GA”

Agents SaaS multi‑tenant servant des cohortes clients distinctes. Si tes agents servent Client A et Client B et que la consolidation pourrait contaminer (un insight tiré des données A informant la sortie B), la charge de gouvernance est trop élevée pour un research preview. Attends que les garanties d’isolation multi‑tenant soient publiées explicitement — et que la situation soit claire côté contrats de sous‑traitance RGPD (article 28).

Agents temps réel / voix frontend. Dreaming est un processus inter‑sessions. Les agents voix n’ont pas de fenêtres idle significatives — la session suivante démarre quelques secondes après la précédente.

Ce que Dreaming ne corrige pas

Mauvais design initial de l’agent. Si le routing d’outils est faux, le system prompt contradictoire, ou la décomposition de tâches absurde — Dreaming consolide la dysfonction.

Hallucination dans le modèle de base. La consolidation mémoire ne change pas la tendance du modèle de base à inventer en cas d’incertitude. Si ton agent fabrique 5 % du temps des citations, Dreaming peut consolider “cet utilisateur veut des réponses confiantes” — et le taux d’hallucination monte.

Agents sans mémoire persistante. Déjà mentionné en question 1, mais à répéter : c’est la raison la plus fréquente pour laquelle les pilotes déçoivent.

Lacunes RGPD/AIPD que tu ne résous pas avant. Dreaming ne corrige pas une AIPD manquante, une politique de rétention manquante, ou des droits du titulaire manquants. Au contraire — chaque lacune devient plus difficile à retro‑fit, parce que les entrées consolidées ne sont plus trivialement attribuables à une session originale.

Quatre signaux pour les 30 prochains jours

Première mention de timeline GA par Anthropic. Le research preview est le canari. Anthropic déplace typiquement les fonctions vers la bêta publique sous 60–90 jours quand la réception est positive. Surveille l’événement Code with Claude London du 19 mai.

Retours de déploiement à 7 jours sur Reddit r/ClaudeAI. La communauté publiera les retrospectives à partir du jour 7. Cherche les multiplicateurs spécifiques par workload — c’est ta valeur attendue honnête.

Émergence d’équivalents OSS. LangGraph, CrewAI, AutoGen — l’un des trois landera un équivalent Dreaming. Le premier définit le pattern model‑portable ; le second est généralement le meilleur.

Posture CNIL et AESIA / DGCCRF. La CNIL n’a pas encore publié de guidance spécifique sur l’auto‑optimisation d’agents. Quand elle le fera, ce sera la grille pratique pour Q3 — et probablement une référence pour la Communauté européenne sur les questions agentiques.

La conclusion

Dreaming est un vrai pattern de production, pas un ornement marketing. Le 6× de Harvey est un plafond — le chiffre de ton équipe tombera vraisemblablement entre 1,5× et 3× sur la complétion, avec 30–60 % de réduction de coût par run, sur des charges à patterns répétés et mémoire persistante. Et en français‑canadien d’auditeur : 35 % de capacité supplémentaire ou 7–10 heures économisées par semaine — c’est ce qui parlera au comex, pas le 6×.

Si ton équipe passe le gate de 5 questions, demande l’accès research preview cette semaine et lance un pilote 5 jours avec un agent type production et un A/B propre (Dreaming on / off) sur 5 scénarios eval. Décide au jour 6 d’expansion ou de pause.

Si ton équipe échoue à la question 2 ou 3 (AIPD incomplète, ou workloads à souveraineté requise), ton Q3 a une tâche plus importante : compléter formellement la conformité CNIL/AI Act et cartographier la répartition Mistral / Anthropic. Ce travail de cartographie est le préalable, pas un bonus.

Pour aller plus loin sur la conformité IA Act et les agent loops de production avec Claude — couche mémoire, harness eval, décisions de routing souveraineté — regarde notre cours sur la conformité IA Act pour les entreprises et le cours sur les agents IA.

Sources

Développe de Vraies Compétences IA

Cours pas à pas avec quiz et certificats pour ton CV