Plus efficaces, moins énergivores… : Le pari des petits modèles de l’IA

A rebours de la course aux modèles de l’intelligence artificielle (IA) générative toujours plus gros, nécessitant toujours plus de puissance de calcul, la tendance aux petits modèles de l’IA, plus efficaces, moins chers et moins énergivores, gagne du terrain.

Le laboratoire américain Merck élabore, par exemple, avec le cabinet BCG un modèle pour comprendre l’impact de certaines maladies sur les gènes. «Ce sera un modèle très petit, entre quelques centaines de millions et quelques milliards de paramètres», détaille à l’AFP Nicolas de Bellefonds, responsable intelligence artificielle chez BCG.

Pour comparaison, un modèle comme GPT-3, qui a sous-tendu à son lancement le robot conversationnel d’OpenAI ChatGPT, comptait 175 milliards de paramètres et son successeur, GPT-4, près de 2 trilliards. Comme d’autres experts, Nicolas de Bellefonds remarque l’émergence de petits modèles très spécialisés qui permettent d’avoir «de meilleures performances ou, en tout cas, équivalentes» à de grands modèles généralistes pour «un coût bien plus faible».

Loin d’une vague européenne, les géants américains de la tech ne s’y sont pas trompés et ont tous sorti des petits modèles cette année. Google propose Gemma, Microsoft a Phi-3 et Meta a présenté ses premiers mini-modèles en septembre, quand OpenAI a livré une version miniature de GPT-4 cet été. «La tendance à la sobriété et frugalité dans la tech est un mouvement important que nous soutenons», a déclaré lors d’un passage à Paris en octobre Kara Hurst, responsable du développement durable chez Amazon, qui propose sur sa plateforme cloud des modèles de toutes tailles.

Résumé et indexation de documents, recherche dans une base de données interne, ces petits modèles peuvent effectuer des tâches simples, souvent suffisantes pour les besoins d’une entreprise ou d’une administration. «Pas besoin de savoir les termes du traité de Versailles pour répondre à une question sur tel élément d’ingénierie», résume à l’AFP Laurent Félix, directeur général France du cabinet Ekimetrics.

Empreinte carbone

Ils sont même souvent plus rapides que leurs grands frères et peuvent «répondre à plus de requêtes et plus d’utilisateurs en simultané», selon Laurent Daudet, patron de LightOn, une start-up française spécialisée dans les modèles d’IA de petite taille qui vont de 8 à 40 milliards de paramètres. Autre avantage : ces modèles sont moins gourmands en énergie puisqu’il faut «moins de processeurs (GPU) pour les mettre en œuvre», ce qui explique aussi leur prix plus attractif, ajoute-t-il.

Un argument de poids quand les géants de la tech sont confrontés au coût énergétique exponentiel des modèles de plus en plus grands. Mieux encore, leur petite taille leur permet de fonctionner directement sur des téléphones ou des ordinateurs. «Ça permet d’éviter de faire des déploiements sur le cloud. C’est une des manières de réduire l’empreinte carbone de nos modèles», avait indiqué Arthur Mensch, patron de la start-up Mistral AI, à Libération en octobre.

La pépite française du secteur a lancé à l’automne son plus petit modèle à date, Ministral. L’utilisation directe sur un appareil promet aussi plus de «sécurité et de confidentialité des données», rappelle Laurent Félix, puisque celles-ci restent stockées en local ou à l’échelle de l’entreprise.

A terme, tous nos objets du quotidien, même notre frigo, pourraient se retrouver avec un petit modèle embarqué, a expliqué en novembre, sur la scène du Web Summit à Lisbonne, Thomas Wolf, cofondateur de Hugging Face. Cette plateforme franco-américaine d’IA en accès libre a sorti cet été sa série de petits modèles SmolLM.

Pour les experts, les grands modèles de langage, qui restent les plus à même de résoudre des problèmes complexes, ne risquent toutefois pas de disparaître mais de fonctionner de façon complémentaire avec des petits modèles. Dans le futur, «il y aura potentiellement plusieurs modèles qui se parlent entre eux», avance Nicolas de Bellefonds.

«Il y aura un petit modèle qui va comprendre quelle est la nature de la question posée et envoyer cette information à plusieurs modèles de taille différente en fonction de la complexité de la question». «Sinon, on va avoir à la fin des solutions qui sont soit trop chères, soit trop lentes, soit les deux», conclut-il.