Modal Labs négocie une levée de $2,5 milliards pour optimiser l’inférence IA en production. Cette transaction symbolise un tournant économique : après l’entraînement, les capitaux visent désormais le cœur de la rentabilité — le déploiement et le coût à l’échelle.
Le tour de financement en chiffres
Modal Labs, startup spécialisée dans l’infrastructure d’inférence pour l’IA, est en discussions pour lever $2,5 milliards, selon plusieurs sources citées par TechCrunch. General Catalyst figure parmi les investisseurs sollicités.
Cette levée intervient moins de cinq mois après une Series B de $87 millions à $1,1 milliard de valuation, marquant une accélération sensible du marché.
Une progression de valuation remarquable
La trajectoire de Modal Labs traduit l’intérêt croissant pour l’inférence :
| Période | Financement | Valuation | Croissance |
|---|---|---|---|
| Septembre 2025 (Series B) | $87 M | $1,1 Md | — |
| Février 2026 (Series C) | ~$2,5 Md | ~$2,5 Md | ×2,27 en 5 mois |
Cette cadence reflète l’urgence perçue par les fonds d’investir dans les startups qui optimisent le déploiement d’IA en production.
Nuance du fondateur. Erik Bernhardsson, co-fondateur et PDG, a précisé mener des « conversations générales » avec les VCs plutôt qu’une levée activement lancée — formulation prudente classique en fin de négociation.
Comment Modal se positionne
Modal Labs propose une plateforme serverless pour calcul GPU qui élimine l’intermédiaire Kubernetes et Docker. Ses atouts : démarrage d’une tâche d’inférence en moins d’une seconde, opération en Python natif et facturation à la seconde (optimisée pour les pics imprévisibles).
La startup affiche un ARR d’environ $50 millions selon les sources anonymes, suggérant une adoption client établie — bien que le profil exact des revenus reste opaque.
L'inférence devient l'enjeu central du marché IA
Le mouvement dépasse Modal. Ces douze derniers mois ont enregistré une succession de levées massives dans l’inférence :
| Startup | Montant | Valuation | Date |
|---|---|---|---|
| Baseten | $300 M | $5 Md | Janvier 2026 |
| Fireworks AI | $250 M | $4 Md | Octobre 2025 |
| Inferact (vLLM) | $150 M | $800 M | Janvier 2026 |
| RadixArk (SGLang) | Capital seed | $400 M | 2025–2026 |
Pourquoi ce tournant
L’entraînement des modèles demeure coûteux et ponctuel, réservé à quelques laboratoires. L’inférence, elle, génère des flux continus : chaque token produit coûte, et ce coût s’additionne à chaque requête utilisateur. Elle devient ainsi le véritable levier de rentabilité des produits IA.
Les économies d’échelle sont spectaculaires. Selon la Stanford AI Index Report, le coût unitaire de l’inférence GPT-3.5 a chuté 280 fois entre novembre 2022 et octobre 2024. Paradoxalement, tandis que le coût par token s’effondre, la démocratisation multiplie les volumes de requêtes — une dynamique qui valorise les startups capables d’optimiser à grande échelle.
Byteiota estime que l’inférence représentera 55 % des dépenses cloud totales en 2026.
Les acteurs en place
General Catalyst et NVIDIA affûtent leur stratégie en inférence. Le premier a investi dans plusieurs générations de startups IA ; le second, en investisseur majeur dans Baseten, reconnaît la criticité de la couche logicielle. AWS, Google Cloud et Microsoft, parallèlement, construisent leurs propres solutions d’inférence ultra-optimisées.
Les zones grises
Si Modal clôture cette levée, plusieurs inconnues demeurent : termes exacts, dilution, allocation des fonds (expansion, R&D, produit ?), et différenciation technique face à Baseten et Fireworks quant aux latences, coûts ou intégration multi-cloud.
Un risque structurel pèse sur le secteur : les hyperscalers construisent-ils leurs solutions d’inférence si optimisées qu’elles rendraient les startups superflues ? Ou l’hétérogénéité des déploiements (cloud, edge, on-premise) garantit-elle un marché durable pour les solutions spécialisées ?
Ce qu'il faut retenir
Les modèles les plus avancés restent stériles tant qu’ils ne sont pas déployés efficacement en production. Modal, Baseten, Fireworks et leurs pairs adressent ce goulot. Les VCs, avisés par les bulles antérieures du training, misent désormais sur les équipes qui transforment les modèles en services rentables.
Pour Modal, cette levée potentielle n’est donc pas une anomalie mais un symptôme d’un marché qui a enfin conscience de ce qu’il cherche : optimiser, à l’échelle, le coût de chaque token. Le véritable combat reste la conversion de ce capital en avantage concurrentiel durable face aux hyperscalers.
FAQ
Pourquoi l'inférence IA attire-t-elle autant d'investissements en 2026 ?
L’inférence génère des dépenses récurrentes et directement liées à la rentabilité des produits IA. Contrairement à l’entraînement, chaque utilisation coûte — à l’échelle, ces coûts s’accumulent. Les startups qui les optimisent deviennent cruciales pour les entreprises.
Qu'est-ce que Modal Labs offre de spécial ?
Modal propose une plateforme serverless pour calcul GPU, permettant de démarrer une tâche en moins d’une seconde en Python natif, avec facturation à la seconde.
Quel est le marché de l'inférence en 2026 ?
Byteiota estime que l’inférence représentera 55 % des dépenses cloud totales en 2026, contre des parts beaucoup plus faibles deux ans auparavant.
Qui sont les concurrents de Modal dans l'inférence ?
Baseten ($5 Md), Fireworks AI ($4 Md), Inferact ($800 M) et RadixArk ($400 M) sont les principaux acteurs du secteur de l’inférence IA.
Quel risque menace les startups d'inférence ?
Les hyperscalers (Google, Amazon, Microsoft) construisent leurs propres solutions d’inférence ultra-optimisées, ce qui pourrait rendre les startups moins pertinentes à long terme.
Sources
- https://techcrunch.com/2026/02/11/ai-inference-startup-modal-labs-in-talks-to-raise-at-2-5b-valuation-sources-say/
- https://www.bloomberg.com/news/articles/2026-01-23/baseten-raises-300-million-at-5-billion-valuation
- https://www.businesswire.com/news/home/20260123005234/en/Baseten-Raises-300M-at-a-5B-Valuation-to-Power-a-Multi-Model-Future
- https://modal.com/blog/announcing-our-series-b
- https://modal.com
- https://www.mckinsey.com/industries/technology-media-and-telecommunications/our-insights/the-next-big-shifts-in-ai-workloads
- https://blogs.nvidia.com/blog/ai-inference-economics/
- https://www.forbes.com/sites/kolawolesamueladebayo/2025/10/29/the-rise-of-the-ai-inference-economy/
- https://byteiota.com/blog/ai-inference-costs-55-percent-of-cloud-spending-2026
- https://siliconangle.com/2025/10/29/fireworks-ai-raises-250m-at-4b-valuation-to-help-enterprises-with-ai-inference-workloads/
- https://www.linkedin.com/pulse/ai-progress-after-2025-what-actually-changed-why-it-matters-airstreet/
Leave a Reply