Quand vous discutez avec ChatGPT, Claude ou Gemini, avez-vous déjà remarqué que le modèle peut parfois "oublier" ce que vous lui avez dit au début d'une longue conversation ? Ce phénomène n'est pas un bug : il est directement lié à ce qu'on appelle la fenêtre de contexte. Concept fondamental pour comprendre comment fonctionnent les intelligences artificielles génératives, la fenêtre de contexte conditionne en grande partie ce qu'un modèle peut faire, retenir et comprendre.
1. Qu'est-ce qu'une fenêtre de contexte ? (Définition simple)
La mémoire de travail d'un modèle de langage
Imaginez que vous travaillez à votre bureau. Vous avez un espace limité sur lequel poser vos documents : vous ne pouvez pas étaler une bibliothèque entière, seulement les feuilles dont vous avez besoin pour la tâche en cours. La fenêtre de contexte, c'est exactement ça pour un modèle d'intelligence artificielle.
Plus précisément, la fenêtre de contexte désigne la quantité maximale de texte qu'un modèle de langage (LLM, pour Large Language Model) peut traiter en une seule fois. IBM la compare à une mémoire de travail, Palmer Consulting parle de mémoire à court terme : les deux métaphores renvoient à la même idée. Le modèle ne peut "voir" et analyser que ce qui se trouve dans cette fenêtre à l'instant T. Tout ce qui en sort disparaît de son horizon.
Cette limite ne s'applique pas qu'aux grands modèles de langage. Les SLM (Small Language Models), plus compacts, sont soumis aux mêmes contraintes, simplement avec des capacités généralement inférieures.
Ce que contient concrètement la fenêtre de contexte
Contrairement à ce que l'on pourrait croire, la fenêtre de contexte ne contient pas uniquement votre message. Elle regroupe en réalité plusieurs éléments cumulés :
- Les instructions système : les consignes données au modèle en amont (son rôle, ses contraintes, son ton).
- L'historique de la conversation : tous les échanges précédents entre vous et le modèle.
- Votre prompt actuel : la question ou la demande que vous posez à cet instant.
- La réponse en cours de génération : le texte que le modèle est en train de produire.
Tout cela s'accumule et consomme de l'espace dans la fenêtre. C'est pourquoi une conversation longue finit par atteindre les limites du modèle, qui doit alors "oublier" les échanges les plus anciens pour faire de la place.
2. Comment ça fonctionne ? Le rôle des tokens
Qu'est-ce qu'un token ?
La fenêtre de contexte ne se mesure pas en mots ni en caractères, mais en tokens. Un token est une unité de texte que le modèle utilise pour traiter le langage. Il peut s'agir d'un mot entier, d'une partie de mot, d'un signe de ponctuation ou même d'un espace.
En français, on considère généralement qu'un token représente environ trois quarts d'un mot. Concrètement, 1 000 tokens correspondent à peu près à 750 mots. Une page standard de texte équivaut donc à environ 500 à 700 tokens selon la densité du contenu.
Cette distinction est importante car elle explique pourquoi la taille d'une fenêtre de contexte en tokens ne se traduit pas de manière linéaire en pages de texte. Un modèle capable de traiter 8 000 tokens peut ingérer environ une dizaine de pages, là où un modèle à 200 000 tokens peut avaler un roman de taille moyenne d'une seule traite.
Pourquoi la taille est-elle limitée techniquement ?
La limitation n'est pas un choix arbitraire : elle est imposée par la physique du calcul. Les architectures de transformateurs, sur lesquelles reposent la quasi-totalité des LLM modernes, voient leur complexité de calcul croître de façon quadratique avec le nombre de tokens traités. En clair : doubler la taille de la fenêtre de contexte ne double pas les ressources nécessaires - cela les multiplie par quatre.
Cela se traduit directement par des besoins en mémoire GPU beaucoup plus importants, des temps de traitement plus longs et des coûts d'infrastructure bien plus élevés. C'est la raison pour laquelle, même aujourd'hui, tous les modèles ne proposent pas des fenêtres de contexte illimitées.
3. À quoi sert la fenêtre de contexte ?
Maintenir la cohérence d'une conversation
La première utilité de la fenêtre de contexte est de permettre au modèle de rester cohérent au fil d'un échange. Si vous posez une question, puis une question de suivi plusieurs messages plus tard, le modèle doit pouvoir se souvenir du fil de la conversation pour vous répondre de manière pertinente. Sans fenêtre de contexte suffisamment large, chaque message serait traité de façon isolée, comme si vous parliez à quelqu'un qui perd la mémoire toutes les trente secondes.
Analyser des documents longs
Une grande fenêtre de contexte change radicalement la façon dont on peut utiliser un modèle d'IA dans un contexte professionnel. Avec une fenêtre de 200 000 tokens comme celle de Claude 2.1, il devient possible de soumettre un contrat de plusieurs dizaines de pages, un rapport d'audit complet ou même un livre entier, et de demander au modèle de l'analyser, d'en extraire les points clés ou de répondre à des questions précises sur son contenu.
Cette capacité est particulièrement précieuse pour les juristes, les chercheurs, les analystes financiers ou toute personne amenée à traiter de grands volumes de texte au quotidien.
Améliorer la précision et réduire les hallucinations
Une fenêtre de contexte plus grande permet au modèle de disposer de plus d'informations pertinentes lorsqu'il génère une réponse. Il est donc moins contraint de "combler les blancs" avec des informations inventées - ce qu'on appelle des hallucinations. Selon IBM, une fenêtre plus large améliore effectivement la précision des réponses et réduit ce risque, même si elle ne l'élimine pas totalement.
4. Quelle taille pour quelle utilisation ?
Comparatif des modèles : une évolution spectaculaire
L'évolution des fenêtres de contexte au fil des années est frappante. GPT-3, sorti en 2020, disposait d'une fenêtre de seulement 2 048 tokens - soit environ trois pages de texte. Claude 2.1 d'Anthropic a franchi le cap des 200 000 tokens. Certains modèles plus récents atteignent désormais le million de tokens, ce qui permettrait théoriquement d'ingérer l'intégralité d'une bibliothèque de romans en une seule session.
Cette progression en moins de cinq ans illustre à quel point ce paramètre est devenu un axe de compétition majeur entre les développeurs de modèles.
Petite versus grande fenêtre : quels cas d'usage ?
Une petite fenêtre de contexte (quelques milliers de tokens) suffit amplement pour la plupart des usages courants : répondre à une question simple, rédiger un email, corriger un paragraphe. Elle présente l'avantage d'être moins coûteuse en calcul et donc plus rapide à l'usage.
Une grande fenêtre de contexte devient indispensable dès qu'on travaille avec des documents volumineux, des bases de code étendues, des transcriptions longues ou des conversations très détaillées qui s'étalent sur de nombreux échanges.
5. Quelles sont les limites de la fenêtre de contexte ?
Le coût computationnel
Comme évoqué plus haut, traiter une grande fenêtre de contexte est coûteux. Pour les utilisateurs qui accèdent aux modèles via une API, les tarifs sont généralement calculés en fonction du nombre de tokens traités. Une fenêtre de contexte très large peut donc rapidement représenter un coût significatif à l'échelle industrielle.
La troncature et la perte d'information
Lorsqu'une conversation ou un document dépasse la limite de la fenêtre de contexte, le modèle n'a d'autre choix que de tronquer ou de résumer les éléments les plus anciens. Ce mécanisme entraîne inévitablement une perte d'information. Dans certains cas, des détails importants mentionnés en début de session peuvent être oubliés au moment où ils deviennent pertinents.
Les vulnérabilités associées
Les grandes fenêtres de contexte exposent aussi à de nouvelles formes d'attaques. Des techniques dites d'injection de prompt ou d'attaques adversariales consistent à insérer des instructions malveillantes au sein d'un long document pour tenter de détourner le comportement du modèle. Plus la fenêtre est large, plus la surface d'attaque potentielle est étendue - un point de vigilance souligné par IBM.
6. Vers des fenêtres de contexte infinies ? Perspectives d'évolution
L'évolution rapide des capacités
La course aux grandes fenêtres de contexte est loin d'être terminée. Les chercheurs et ingénieurs travaillent activement à repousser les limites techniques, notamment en développant de nouvelles architectures d'attention plus efficaces (attention linéaire, sparse attention...) qui permettent de réduire le coût quadratique du traitement.
L'objectif à terme serait de disposer de modèles capables de traiter des contextes quasi illimités sans explosion des coûts de calcul. On n'en est pas encore là, mais la trajectoire est claire.
Les alternatives : RAG, mémoire externe et résumé automatique
En attendant ces avancées, plusieurs techniques permettent de compenser les limites des fenêtres de contexte actuelles. Le RAG (Retrieval-Augmented Generation) consiste à ne charger dans la fenêtre que les passages d'un document pertinents pour la question posée, plutôt que l'intégralité du texte. La mémoire externe permet de stocker des informations en dehors du contexte et de les réinjecter à la demande. Le résumé automatique compresse les échanges anciens pour libérer de l'espace tout en conservant l'essentiel.
Ces approches hybrides montrent que la gestion du contexte est devenue un véritable domaine d'ingénierie à part entière, et pas seulement une question de taille brute de la fenêtre. Comprendre ce mécanisme, c'est mieux comprendre pourquoi les modèles d'IA se comportent comme ils le font - et comment en tirer le meilleur parti.