Quand on parle d'intelligence artificielle, la question "open source ou closed source ?" revient systématiquement. Elle semble simple en apparence, mais elle cache une réalité bien plus nuancée - et parfois délibérément floue. Entre les modèles véritablement ouverts, ceux qui ne partagent que leurs poids, et les géants commerciaux qui gardent tout secret, il est temps de démêler le vrai du faux.
Un débat aussi vieux que l'informatique elle-même
Avant de plonger dans les spécificités de l'IA, il faut comprendre que ce débat n'est pas nouveau. Il accompagne l'histoire de l'informatique depuis ses tout débuts. En 1958, le Perceptron - l'un des premiers modèles de réseau de neurones - est publié librement dans le monde académique. L'idée d'alors : le savoir scientifique doit circuler, être partagé, critiqué, amélioré collectivement.
Mais dans les années 1970 et 1980, la logique commerciale prend le dessus. IBM verrouille ses systèmes, Microsoft impose ses licences propriétaires, et le logiciel devient un produit à vendre, pas un bien commun à partager. C'est cette fermeture qui provoque, en réaction, le mouvement du logiciel libre porté par Richard Stallman, puis l'émergence de Linux dans les années 1990. L'histoire bégaie aujourd'hui dans le domaine de l'IA, avec les mêmes tensions, les mêmes arguments et les mêmes intérêts économiques en jeu.
Open source en IA : de quoi parle-t-on vraiment ?
C'est ici que les choses se compliquent sérieusement. Dans le monde du logiciel classique, la définition de l'open source est relativement claire : le code source est accessible, modifiable et redistribuable librement. Mais appliquée à l'intelligence artificielle, cette définition vole en éclats.
La distinction cruciale : open weight vs open source
Un modèle d'IA, ce n'est pas seulement du code. C'est aussi - et surtout - des données d'entraînement (souvent des milliards de textes ou d'images) et des poids, c'est-à-dire les paramètres numériques qui encodent ce que le modèle a "appris". Or, la plupart des modèles présentés comme "open source" ne partagent en réalité que leurs poids. C'est ce qu'on appelle l'open weight - une ouverture partielle, bien loin de la transparence totale.
Michel-Marie Maudet, directeur général de LINAGORA, acteur européen reconnu du logiciel libre, pointe cette ambiguïté avec clarté : quand Meta publie Llama ou quand Mistral AI diffuse ses modèles, ils partagent les poids - ce qui est déjà utile - mais ils ne donnent pas accès aux données d'entraînement, aux pipelines de traitement, ni au code complet qui a permis de produire ces modèles. On est donc face à une ouverture incomplète, parfois utilisée à des fins marketing plus qu'éthiques.
Même l'OSI peine à trancher
L'Open Source Initiative (OSI), l'organisation de référence qui certifie ce qui est ou non "open source" dans le monde du logiciel, a tenté fin 2024 de proposer une définition officielle pour les modèles IA. Le résultat ? Un consensus difficile à atteindre, tant les intérêts divergent. La définition proposée exige en théorie l'ouverture du code d'entraînement, des données utilisées et des poids du modèle. En pratique, presque aucun grand modèle actuel ne satisfait pleinement à ces critères.
Des initiatives comme LUCIE, développée dans le cadre d'OpenLLM France et OpenLLM Europe, font figure d'exception remarquable : il s'agit d'un modèle véritablement open source, avec des données documentées, un entraînement traçable et des poids librement accessibles. Mais de tels exemples restent rares dans un paysage dominé par des modèles partiellement ouverts ou totalement fermés.
Les différences concrètes entre modèles ouverts et fermés
Au-delà des définitions, qu'est-ce que cela change concrètement pour un utilisateur ou une organisation ?
Accès, modification et personnalisation
Un modèle open source (ou même open weight) peut être téléchargé, hébergé sur ses propres serveurs et modifié selon ses besoins. On peut l'affiner (fine-tuning) sur des données propriétaires, l'intégrer dans des applications sans passer par une API tierce, et l'adapter à des cas d'usage très spécifiques. C'est un avantage considérable pour les entreprises qui ont des besoins techniques précis ou des contraintes de confidentialité fortes.
À l'inverse, un modèle closed source comme GPT-4 d'OpenAI ou Claude d'Anthropic n'est accessible que via une API. Vous n'avez aucun accès au code, aucune visibilité sur les données d'entraînement, aucune possibilité de l'héberger vous-même. En échange, vous bénéficiez généralement de meilleures performances sur les tâches générales, d'une infrastructure robuste et d'un support professionnel.
Transparence et auditabilité
La transparence est un autre point de divergence majeur. Avec un modèle véritablement open source, il est théoriquement possible d'auditer les biais, de vérifier les sources de données et de comprendre pourquoi le modèle produit tel ou tel résultat. Avec un modèle fermé, vous devez faire confiance à l'éditeur - ce qui peut poser des problèmes dans des secteurs réglementés comme la santé, la finance ou la justice.
Enjeux pour les entreprises : comment choisir ?
Selon une étude McKinsey citée par Astera, le marché mondial de l'IA atteignait 184 milliards de dollars en 2024, avec 65 % des grandes entreprises qui utilisent déjà des LLMs de manière régulière dans leurs workflows. Pour ces organisations, le choix entre open source et closed source est souvent le premier arbitrage stratégique à effectuer.
Les critères techniques
Avez-vous besoin de personnaliser le modèle ? De l'héberger localement ? De travailler sur des données sensibles qui ne peuvent pas transiter par des serveurs tiers ? Si oui, une solution open weight - voire open source - s'impose. Si en revanche vous cherchez une solution clé en main pour des tâches génériques (rédaction, synthèse, support client), un modèle closed source performant peut suffire.
Les critères économiques et réglementaires
Le coût n'est pas non plus négligeable. Les modèles fermés facturent à l'usage (tokens consommés), ce qui peut rapidement devenir onéreux à grande échelle. Les modèles open weight permettent de maîtriser les coûts d'infrastructure, mais nécessitent des compétences techniques internes. Sur le plan réglementaire, le RGPD impose des contraintes sur la localisation et le traitement des données personnelles - un argument supplémentaire en faveur de l'auto-hébergement pour les entreprises européennes.
La dimension géopolitique : l'open source comme arme stratégique
En 2025, l'irruption de DeepSeek sur la scène internationale a rappelé que l'open source en IA n'est pas qu'une question technique. En publiant ses modèles en accès libre, la startup chinoise a bousculé l'hégémonie d'OpenAI tout en gagnant une crédibilité internationale et en forçant l'adoption de ses architectures à l'échelle mondiale. L'open source devient ainsi un levier géopolitique : un moyen de diffuser une influence, de forcer des standards et de contourner les barrières commerciales.
Du côté européen, des initiatives comme OpenLLM France ou le projet LUCIE répondent à une logique de souveraineté numérique. L'idée est de ne pas dépendre uniquement de modèles américains ou chinois pour des usages sensibles, et de construire une filière IA européenne transparente, auditée et conforme aux valeurs du continent. C'est aussi une réponse à la question démocratique posée par Euronews : qui contrôle l'IA, et au profit de qui ?
Conclusion : open source ou closed source, tout dépend de votre contexte
Il n'existe pas de réponse universelle à ce choix. Ce qui est certain, en revanche, c'est qu'il faut cesser de prendre pour argent comptant l'étiquette "open source" apposée par des acteurs qui n'ouvrent en réalité que leurs poids. Avant de choisir un modèle, posez-vous les bonnes questions : avez-vous accès aux données d'entraînement ? Pouvez-vous héberger le modèle ? La licence autorise-t-elle un usage commercial ? Le modèle a-t-il été audité ?
Le tableau ci-dessous résume les grandes différences à garder en tête :
| Critère | Open Source (réel) | Open Weight | Closed Source |
|---|---|---|---|
| Code source | Accessible | Partiel | Inaccessible |
| Données d'entraînement | Documentées | Non communiquées | Secrètes |
| Poids du modèle | Libres | Libres | Propriétaires |
| Hébergement local | Possible | Possible | Impossible |
| Personnalisation | Totale | Limitée | Très limitée |
| Performance générale | Variable | Variable | Souvent élevée |
| Coût à l'usage | Maîtrisé | Maîtrisé | Pay-per-token |
Dans un marché de l'IA promis à quadrupler d'ici six ans, ce choix aura des conséquences durables sur votre autonomie technologique, votre conformité réglementaire et votre capacité à innover. Mieux vaut le faire en connaissance de cause - et en commençant par exiger une définition précise de ce que "open source" signifie vraiment pour le modèle que vous envisagez d'adopter.