Une nouvelle étude remet en question l’efficacité des outils de codage avec l’IA pour les développeurs expérimentés

80 % du logiciel d'entreprise sera multimodal en 2030, selon Gartner : l'IA générative progresse vers la convergence des formats

Une nouvelle étude remet en question l’idée largement répandue selon laquelle l’intelligence artificielle améliore automatiquement la productivité des développeurs. Menée par le groupe de recherche indépendant METR (Model Evaluation & Threat Research), cette recherche révèle qu’en contexte réel, l’utilisation d’outils d’IA tels que Cursor Pro, Claude 3.5 et Claude 3.7 peut même entraîner une augmentation de 19 % du temps de développement.

L’étude a été réalisée auprès de 16 développeurs expérimentés, actifs dans certains des projets open source les plus populaires au monde. Ces professionnels, avec en moyenne cinq années d’expérience et plus de 1 500 commits par contributeur, ont réalisé des tâches sur leurs propres dépôts, avec ou sans l’aide des outils d’intelligence artificielle mentionnés.

Contrairement aux attentes, qui prévoyaient une réduction du temps de développement de 24 %, les résultats ont montré que l’utilisation de l’IA allongeait en moyenne le processus, contredisant également les prévisions d’experts en IA et en économie, qui estimaient une amélioration de la productivité pouvant atteindre 39 %.

L’étude souligne que cette augmentation du temps est liée à une interaction plus longue avec les outils, notamment la rédaction de prompts, l’attente de réponses, l’évaluation des suggestions et la correction du code généré. Souvent, le code produit nécessitait une révision approfondie ou était rejeté, avec moins de 44 % du code généré étant accepté sans modifications significatives. Par ailleurs, environ 9 % du temps passé était consacré à nettoyer des résultats erronés.

Les développeurs ont également noté que les suggestions de l’IA manquaient souvent du contexte implicite nécessaire pour travailler efficacement sur de grands projets complexes, soulignant que l’IA ne comprenait pas toujours les conventions internes ou l’historique du code.

Plusieurs facteurs expliquant ces résultats ont été mis en évidence : un degré de familiarité élevé avec le dépôt réduisait l’utilité de l’IA, les environnements de grande envergure et de haute complexité présentaient des défis importants, et certains développeurs conservaient des attentes irréalistes quant aux bénéfices apportés par ces outils.

Il est toutefois important de noter que ces conclusions ne remettent pas en cause la valeur potentielle de l’IA dans d’autres contextes, notamment pour des projets naissants ou chez des développeurs moins expérimentés.

Les chercheurs soulignent que leur étude, menée de février à juin 2025, pourrait voir ses résultats évoluer rapidement grâce aux progrès continus réalisés sur les modèles fondamentaux. Des améliorations dans le prompting, des formations spécifiques au domaine ou l’utilisation d’agents autonomes pourraient inverser cette tendance.

Des avancées notables ont déjà été observées, certains modèles comme Claude 3.7 montrant une capacité accrue à gérer des fonctionnalités essentielles de dépôts complexes, même si des imperfections subsistent, notamment en termes de respect des normes de style ou de tests.

En conclusion, cette étude souligne la nécessité d’une évaluation empirique rigoureuse avant d’adopter pleinement ces technologies. Si l’IA ne constitue pas une solution miracle universelle, elle peut offrir des bénéfices dans certains contextes, à condition d’être utilisée avec maturité, discernement et une bonne compréhension de son environnement. Afin d’obtenir de véritables gains de productivité, il faudra aller au-delà des modèles plus avancés et privilégier des stratégies d’intégration intelligentes et réalistes. La véritable expertise humaine reste essentielle, du moins pour le moment.

le dernier