IA & Automatisation8 min de lecture

Agents LLM en production : retour d'expérience après 12 mois

Ce qu'on a appris en déployant des agents conversationnels en conditions réelles — les illusions, les vraies difficultés, et ce qui fonctionne.

L'enthousiasme initial

Quand on a commencé à intégrer des LLMs dans les workflows clients en 2024, les demos étaient bluffantes. En production, c'est une autre histoire.

Problème n°1 : la latence perçue

Un agent qui réfléchit 8 secondes avant de répondre, c'est inacceptable en contexte CRM. On a résolu ça avec du streaming de tokens côté UI et des réponses partielles affichées progressivement. L'utilisateur a l'impression de vitesse même si le calcul total dure le même temps.

Problème n°2 : les hallucinations sur les données métier

Un agent branché sur un catalogue produit qui invente des prix — ça arrive. La solution : RAG strict avec validation factuelle. Chaque affirmation de l'agent doit être ancrée dans un chunk de données récupéré, sinon il répond "je ne sais pas".

Ce qui fonctionne vraiment

Les agents excellents dans des tâches bornées : qualification de leads entrants, extraction d'informations structurées depuis des emails, résumés de tickets support. Dès qu'on sort de ce cadre, les problèmes s'accumulent.

Notre stack en 2025

LangChain pour l'orchestration, Pinecone pour le vector store, Claude 3.5 Sonnet pour l'inférence. On évite GPT-4 pour les données sensibles clients — questions de conformité RGPD.