Claude-Mem : le « cerveau étendu » qui donne à Claude Code une mémoire à long terme

Claude-Mem : le « cerveau étendu » qui donne à Claude Code une mémoire à long terme

Dans presque tous les flux de travail avec des assistants IA pour la programmation, le même schéma se répète : on ouvre une session, on explique le contexte au modèle, on progresse avec du code, on corrige des bugs… et, lorsque la session se termine ou que la fenêtre de contexte est dépassée, tout ce savoir s’évanouit. Lors de la session suivante, c’est repartit : « Tu te souviens de… ? ». Non, il ne se souvient pas.

Claude-Mem a été conçu précisément pour pallier cette limite structurelle. C’est un plugin pour Claude Code qui fonctionne comme un système de mémoire persistante et compressée : il capture ce qui se passe lors de vos sessions de développement, en extrait les idées clés et les rend accessibles pour que l’assistant puisse les réutiliser plus tard, même plusieurs jours après, sans que vous ayez à tout réexpliquer.

Il ne s’agit pas simplement de « sauvegarder l’historique de chat », mais de construire un véritable système de mémoire de travail et d’archivage autour de l’assistant.


Le goulot d’étranglement : le contexte ne s’adapte pas à l’ampleur du projet

Les modèles de langage fonctionnent avec une fenêtre de contexte limitée. Chaque utilisation d’outils, ouverture de fichiers, génération de code ou demande d’explications consomme des tokens. Au bout d’un moment :

  • le modèle commence à oublier des décisions prises il y a 30 ou 40 interactions,
  • reparaissez des questions déjà résolues (« Quelle était la dernière version de la couche d’authentification ? »),
  • et le développeur se voit contraint de « nettoyer » le contexte pour repartir à zéro, perdant tout l’historique de la session.

Le problème fondamental n’est pas que le modèle « soit limité », mais qu’il doit tout garder en RAM, comme si rien ne pouvait être stocké sur disque. Claude-Mem introduit justement cette couche de « disque » : une mémoire structurée située hors du contexte, vers laquelle l’assistant peut se référer quand il en a besoin.


Qu’est-ce que Claude-Mem et comment s’intègre à Claude Code

Claude-Mem s’installe directement depuis le marketplace de plugins de Claude Code. Une fois ajouté, il fonctionne automatiquement, sans que vous ayez à lancer de commandes spécifiques à chaque session.

En coulisses, son architecture repose sur plusieurs composants :

  • Hooks de cycle de vie : scripts déclenchés à des moments clés de la session (au démarrage, lors de l’envoi d’un prompt, après utilisation d’outils, à l’arrêt et à la fin).
  • Worker service : un service HTTP local, géré avec PM2, qui traite les données, génère des résumés, et propose une interface web en temps réel sur localhost:37777.
  • Base de données SQLite : pour stocker les sessions, observations et résumés, avec des index de recherche en texte intégral (FTS5).
  • Vector DB (Chroma) : pour réaliser une recherche sémantique combinée à une recherche par mots-clés.

Le flux typique est le suivant :

  1. Démarrage de session : Claude-Mem injecte dans le contexte quelques observations pertinentes d’échanges précédents sur ce même projet.
  2. Pendant le travail : enregistre quels outils sont utilisés, quels fichiers sont modifiés, quelles décisions sont prises.
  3. Traitement en arrière-plan : un worker consulte Claude, génère des résumés sémantiques des actions et les classe (décision, correction de bug, nouvelle fonctionnalité, refactoring, découverte…).
  4. Fin de session : un résumé de haut niveau est sauvegardé, prêt à être réutilisé lors de la prochaine ouverture du projet.

Du point de vue du développeur, la différence est subtile mais significative : Claude ne commence plus « à zéro » chaque jour.


mem-search : interroger l’historique du projet comme un collègue

La fonctionnalité la plus visible pour l’utilisateur est la skill de recherche appelée mem-search. Plutôt que d’être une commande supplémentaire, elle s’intègre naturellement dans les conversations.

Exemples de questions posées à mem-search :

  • « Comment avons-nous implémenté l’authentification dans ce projet ? »
  • « Quels bugs ont été résolus lors de la dernière session ? »
  • « Quels changements ont été apportés à worker-service.ts ? »
  • « Montre-moi le travail récent sur ce repo. »

Lorsqu’elle détecte ce type de requête, Claude-Mem :

  1. Recherche dans les observations (décisions, modifications, bugs) ;
  2. Interroge les résumés de session (vue d’ensemble) ;
  3. Parcourt les prompts originaux de l’utilisateur si nécessaire ;
  4. Applique des filtres par type (décision, correction, feature, refactoring, découverte…) ou par fichier ;
  5. Renvoie au modèle un ensemble de fragments compressés pertinents, prêts à être intégré au contexte.

La philosophie derrière cette approche est celle de la divulgation progressive :

  • d’abord un index léger de ce qui existe (qui a été décidé, quand, et dans quel fichier) ;
  • si besoin, on en partage davantage (narration complète, extraits de code, etc.).

Cela permet d’éviter d’utiliser des milliers de tokens pour ramener tout l’historique à chaque réponse.


Mode Endless : sessions quasi infinies grâce à la compression en temps réel

Outre le mode standard, Claude-Mem propose une version bêta avec une fonction particulièrement intéressante pour les profils passionnés : Endless Mode.

Le problème initial : lors de sessions intensives de codage assisté, chaque appel d’outil ajoute entre 1 000 et 10 000 tokens au contexte. Si chaque nouvelle réponse réintègre tout le contenu synthétisé précédemment, le coût augmente presque de façon quadratique. Après 40 ou 50 utilisations d’outils, le contexte atteint sa limite.

Endless Mode propose une autre approche :

  • Chaque sortie d’outil est compressée en une observation d’environ 500 tokens ;
  • le transcrit est « réécrit » en temps réel, en remplaçant les blocs longs par leur version distillée ;
  • une séparation claire entre Mémoire de Travail (observations actives dans le contexte) et Mémoire d’Archive (sorties complètes sauvegardées sur disque pour références ponctuelles).

En chiffres approximatifs, cela se traduit par :

  • jusqu’à 95 % de réduction des tokens dans le contexte ;
  • environ 20 fois plus d’utilisations d’outils avant de saturer la fenêtre ;
  • et une complexité passant d’approximativement O(N²) à quelque chose de beaucoup plus linéaire.

Le revers de la médaille : Endless Mode introduit davantage de latence (environ 60–90 secondes par outil pendant la génération des observations compressées) et reste actuellement expérimental. Il s’adresse à ceux qui ont des sessions longues et souhaitent repousser la limite du contexte sans en perdre la traçabilité.


Interface web : visualiser la mémoire en streaming

Autre aspect intéressant pour les professionnels tech : Claude-Mem ne se limite pas à la partie backend et hooks ; il propose une interface web en temps réel.

Depuis http://localhost:37777, il est possible de :

  • suivre le flux de mémoire en cours de génération ;
  • filtrer par projet, type d’événement ou chronologie ;
  • consulter des observations individuelles en connaissant leur coût en tokens ;
  • basculer entre le canal stable et la version bêta (par exemple, pour activer Endless Mode) sans utiliser Git ni ligne de commande.

En résumé, c’est une sorte de « visualiseur » en direct de ce que Claude apprend sur votre projet.


Confidentialité et gestion des données : tout en local, avec responsabilité

Dans un contexte où de nombreuses équipes sont soucieuses de ce qui sort de leurs dépôts, la politique de Claude-Mem concernant les données est essentielle :

  • Tout est stocké localement (par défaut dans ~/.claude-mem/), via SQLite et des fichiers auxiliaires.
  • Il n’ajoute pas de destinations externes ; il s’appuie sur les mêmes API déjà utilisées par Claude Code pour dialoguer avec le modèle.
  • Il propose un système d’étiquettes privées () pour marquer le contenu que vous ne souhaitez pas conserver en mémoire.
  • Il inclut également des balises internes pour éviter que le contexte ne se recycle ou ne s’archive de manière récursive.

Il faut garder à l’esprit que ce système stocke principalement :

  • des prompts,
  • des observations sur le code,
  • des décisions prises,
  • et des résumés de sessions.

La sécurité et la politique de conservation de ces données relèvent donc de la responsabilité de l’équipe : qui y a accès, comment les sauvegardes sont effectuées, quand les suppressions ont lieu, etc.


Licence et adoption en équipe : AGPL, code transparent et auditable

Claude-Mem est publié sous licence AGPL-3.0, un choix délibéré :

  • il permet d’utiliser, modifier et déployer le logiciel librement ;
  • mais oblige à publier le code source de toute version modifiée qui est proposée comme service accessible en réseau ;
  • et impose que les œuvres dérivées conservent la même licence.

Pour les entreprises et équipes techniques, cela comporte deux aspects :

  • d’un côté, c’est une garantie : le code est auditable, il est possible de vérifier ce qui est stocké et comment ça fonctionne, et l’adapter à ses propres flux ;
  • de l’autre, cela impose des conditions si l’on souhaite intégrer Claude-Mem dans des plateformes internes ou en faire un service destiné à des tiers.

Dans des environnements où l’on travaille déjà avec des outils open source sous licence AGPL (par exemple, des logiciels collaboratifs ou des outils de développement internes), l’adoption paraît plus naturelle. Sinon, une évaluation légale préalable est recommandée.


Cas d’usage concrets au quotidien pour une équipe tech

Au-delà de la théorie, voici quelques situations où Claude-Mem apporte une réelle valeur :

  • Refactorings longs : lorsqu’on travaille plusieurs jours sur une refonte complexe, la mémoire persistante aide l’assistant à se souvenir des décisions de conception prises au début, évitant de rouvrir sans cesse les débats.
  • Rotation dans l’équipe : si différentes personnes interviennent sur le même projet, Claude peut servir de « chroniqueur » des actions effectuées, sans dépendre d’une documentation parfaite.
  • Maintenance de code legacy : dans un code ancien rempli de particularités, la capacité à se rappeler pourquoi une décision a été prise peut faire gagner énormément de temps à chaque exploration.
  • Consultants et agences : en passant d’un projet à un autre, disposer d’un historique sémantique par dépôt réduit considérablement le coût mental de se repositionner dans le contexte.

En pratique, la valeur ne réside pas uniquement dans une IA « qui se souvient davantage », mais dans la réduction du temps que l’équipe doit consacrer à réexpliquer le contexte.


Points d’attention pour les médias et les équipes techniques

Comme toute solution prometteuse, il faut garder un regard critique :

  • Claude-Mem n’est pas une documentation parfaite : les résumés restent générés par un modèle, avec ses biais et omissions ;
  • La base de données de mémoire est un actif à protéger : elle peut contenir des informations sensibles.
  • Endless Mode est encore en phase bêta : il est conseillé de l’expérimenter sous contrôle avant de le faire un pilier du flux de travail.

Quoi qu’il en soit, la voie tracée est claire : si l’avenir voit les assistants IA profondément intégrés dans le développement logiciel, ils devront cesser d’être amnésiques. Cela nécessitera des systèmes de mémoire comme Claude-Mem, ou équivalent, qui traitent le contexte comme une ressource précieuse et limitée.

Pour l’instant, Claude-Mem représente l’une des premières implémentations concrètes de ce concept dans l’écosystème Claude Code : un « cerveau étendu » qui cohabite avec l’assistant, et qui, enfin, se souvient de ce que vous avez fait avec lui il y a deux semaines.

Source : Noticias intelligence artificielle

le dernier