Scannez pour télécharger l’application Gate
qrCode
Autres options de téléchargement
Ne pas rappeler aujourd’hui

Exécuter votre propre modèle d'IA open-source local est facile—voici comment

Le hub d'art, de mode et de divertissement de Decrypt.


Découvrez SCENE

alerte gd2md-html : lien d'image en ligne dans la source générée et stockez les images sur votre serveur. REMARQUE : Les images dans le fichier zip exporté de Google Docs peuvent ne pas apparaître dans le même ordre que dans votre document. Veuillez vérifier les images !

----->

Si vous n'êtes pas développeur, alors pourquoi diable voudriez-vous exécuter un modèle d'IA open-source sur votre ordinateur personnel ?

Il s'avère qu'il y a plusieurs bonnes raisons. Et avec des modèles gratuits et open-source qui s'améliorent de jour en jour - et simples à utiliser, avec des exigences matérielles minimales - c'est le moment idéal pour essayer.

Voici quelques raisons pour lesquelles les modèles open source sont meilleurs que de payer $20 par mois pour ChatGPT, Perplexity ou Google :

  • C'est gratuit. Pas de frais d'abonnement.
  • Vos données restent sur votre machine.
  • Il fonctionne hors ligne, aucune connexion Internet requise.
  • Vous pouvez entraîner et personnaliser votre modèle pour des cas d'utilisation spécifiques, tels que l'écriture créative ou… eh bien, n'importe quoi.

La barrière à l'entrée s'est effondrée. Il existe désormais des programmes spécialisés qui permettent aux utilisateurs d'expérimenter avec l'IA sans avoir à installer indépendamment des bibliothèques, des dépendances et des plugins. À peu près n'importe qui avec un ordinateur relativement récent peut le faire : un ordinateur portable ou de bureau de milieu de gamme avec 8 Go de mémoire vidéo peut exécuter des modèles étonnamment capables, et certains modèles fonctionnent avec 6 Go ou même 4 Go de VRAM. Et pour Apple, n'importe quelle puce de la série M ( des dernières années ) pourra exécuter des modèles optimisés.

Le logiciel est gratuit, l'installation prend quelques minutes, et l'étape la plus intimidante—choisir quel outil utiliser—se résume à une simple question : Préférez-vous cliquer sur des boutons ou taper des commandes ?

LM Studio contre Ollama

Deux plateformes dominent l'espace local de l'IA, et elles abordent le problème sous des angles opposés.

LM Studio regroupe tout dans une interface graphique soignée. Vous pouvez simplement télécharger l'application, parcourir une bibliothèque de modèles intégrée, cliquer pour installer et commencer à discuter. L'expérience est similaire à celle de ChatGPT, sauf que le traitement se fait sur votre matériel. Les utilisateurs de Windows, Mac et Linux bénéficient de la même expérience fluide. Pour les nouveaux venus, c'est le point de départ évident.

Ollama s'adresse aux développeurs et aux utilisateurs avancés qui vivent dans le terminal. Installez via la ligne de commande, téléchargez des modèles avec une seule commande, puis script ou automatisez à votre guise. C'est léger, rapide et s'intègre proprement dans les flux de travail de programmation.

La courbe d'apprentissage est plus raide, mais le bénéfice est la flexibilité. C'est aussi ce que les utilisateurs avancés choisissent pour sa polyvalence et sa personnalisation.

Les deux outils fonctionnent avec les mêmes modèles sous-jacents en utilisant des moteurs d'optimisation identiques. Les différences de performance sont négligeables.

Configuration de LM Studio

Visitez et téléchargez le programme d'installation pour votre système d'exploitation. Le fichier pèse environ 540 Mo. Exécutez le programme d'installation et suivez les instructions. Lancez l'application.

Indice 1 : Si on vous demande quel type d'utilisateur vous êtes, choisissez « développeur ». Les autres profils cachent simplement des options pour faciliter les choses.

Astuce 2 : Il recommandera de télécharger OSS, le modèle AI open-source d'OpenAI. Au lieu de cela, cliquez sur “passer” pour l'instant ; il existe de meilleurs modèles, plus petits, qui feront un meilleur travail.

VRAM : La clé pour exécuter l'IA locale

Une fois que vous avez installé LM Studio, le programme sera prêt à fonctionner et ressemblera à ceci :

Maintenant, vous devez télécharger un modèle avant que votre LLM ne fonctionne. Et plus le modèle est puissant, plus il nécessitera de ressources.

La ressource critique est la VRAM, ou la mémoire vidéo de votre carte graphique. Les LLMs se chargent dans la VRAM lors de l'inférence. Si vous n'avez pas assez d'espace, alors les performances s'effondrent et le système doit recourir à une RAM système plus lente. Vous voudrez éviter cela en ayant suffisamment de VRAM pour le modèle que vous souhaitez exécuter.

Pour savoir combien de VRAM vous avez, vous pouvez entrer dans le gestionnaire de tâches Windows (control+alt+del) et cliquer sur l'onglet GPU, en vous assurant que vous avez sélectionné la carte graphique dédiée et non les graphiques intégrés de votre processeur Intel/AMD.

Vous verrez combien de VRAM vous avez dans la section “Mémoire GPU dédiée”.

Sur les Macs de la série M, les choses sont plus simples car ils partagent la RAM et la VRAM. La quantité de RAM sur votre machine sera égale à la VRAM à laquelle vous pouvez accéder.

Pour vérifier, cliquez sur le logo Apple, puis cliquez sur “À propos.” Vous voyez la mémoire ? C'est la quantité de VRAM que vous avez.

Vous voudrez au moins 8 Go de VRAM. Les modèles dans la plage de 7 à 9 milliards de paramètres, compressés à l'aide de la quantification en 4 bits, s'adaptent confortablement tout en offrant de bonnes performances. Vous saurez si un modèle est quantifié car les développeurs le divulguent généralement dans le nom. Si vous voyez BF, FP ou GGUF dans le nom, alors vous regardez un modèle quantifié. Plus le nombre (FP32, FP16, FP8, FP4) est bas, moins il consommera de ressources.

Ce n'est pas comparable, mais imaginez la quantification comme la résolution de votre écran. Vous verrez la même image en 8K, 4K, 1080p ou 720p. Vous pourrez tout comprendre peu importe la résolution, mais en zoomant et en étant exigeant sur les détails, vous découvrirez qu'une image 4K contient plus d'informations qu'une 720p, mais nécessitera plus de mémoire et de ressources pour être rendue.

Mais idéalement, si vous êtes vraiment sérieux, vous devriez acheter un joli GPU de jeu avec 24 Go de VRAM. Peu importe s'il est neuf ou non, et peu importe sa rapidité ou sa puissance. Dans le monde de l'IA, la VRAM est roi.

Une fois que vous savez combien de VRAM vous pouvez utiliser, vous pouvez déterminer quels modèles vous pouvez exécuter en vous rendant sur le Calculateur de VRAM. Ou, commencez simplement avec des modèles plus petits de moins de 4 milliards de paramètres, puis passez à des modèles plus grands jusqu'à ce que votre ordinateur vous indique que vous n'avez pas assez de mémoire. (Plus d'informations sur cette technique dans un instant. )

Téléchargement de vos modèles

Une fois que vous connaissez les limites de votre matériel, il est temps de télécharger un modèle. Cliquez sur l'icône de la loupe dans la barre latérale gauche et recherchez le modèle par son nom.

Qwen et DeepSeek sont de bons modèles à utiliser pour commencer votre parcours. Oui, ils sont chinois, mais si vous vous inquiétez d'être espionné, vous pouvez être tranquille. Lorsque vous exécutez votre LLM localement, rien ne quitte votre machine, donc vous ne serez espionné ni par les Chinois, ni par le gouvernement américain, ni par des entités corporatives.

En ce qui concerne les virus, tout ce que nous recommandons provient de Hugging Face, où les logiciels sont immédiatement vérifiés pour détecter les spyware et autres malwares. Mais pour ce que ça vaut, le meilleur modèle américain est Llama de Meta, donc vous voudrez peut-être choisir cela si vous êtes un patriote. (Nous offrons d'autres recommandations dans la dernière section.)

Notez que les modèles se comportent différemment selon le jeu de données d'entraînement et les techniques de réglage fin utilisées pour les construire. Malgré le Grok d'Elon Musk, il n'existe pas de modèle sans biais car il n'existe pas d'informations sans biais. Donc, choisissez votre poison en fonction de l'importance que vous accordez à la géopolitique.

Pour l'instant, téléchargez à la fois le modèle 3B (plus petit et moins capable) et les versions 7B. Si vous pouvez exécuter le 7B, alors supprimez le 3B (et essayez de télécharger et d'exécuter la version 13B et ainsi de suite). Si vous ne pouvez pas exécuter la version 7B, alors supprimez-la et utilisez la version 3B.

Une fois téléchargé, chargez le modèle depuis la section Mes Modèles. L'interface de chat apparaît. Tapez un message. Le modèle répond. Félicitations : vous exécutez une IA locale.

Donner à votre modèle un accès à Internet

Par défaut, les modèles locaux ne peuvent pas naviguer sur le web. Ils sont isolés par conception, donc vous interagissez avec eux en fonction de leurs connaissances internes. Ils fonctionneront bien pour écrire des histoires courtes, répondre à des questions, faire un peu de codage, etc. Mais ils ne vous donneront pas les dernières nouvelles, ne vous diront pas la météo, ne vérifieront pas vos emails, ni ne planifieront des réunions pour vous.

Les serveurs du protocole de contexte modèle changent cela.

Les serveurs MCP agissent comme des ponts entre votre modèle et les services externes. Vous voulez que votre IA recherche sur Google, vérifie des dépôts GitHub ou lise des sites web ? Les serveurs MCP le rendent possible. LM Studio a ajouté le support MCP dans la version 0.3.17, accessible via l'onglet Programme. Chaque serveur expose des outils spécifiques : recherche web, accès aux fichiers, appels API.

Si vous souhaitez donner aux modèles un accès à Internet, notre guide complet des serveurs MCP explique le processus de configuration, y compris les options populaires telles que la recherche sur le web et l'accès à la base de données.

Enregistrez le fichier et LM Studio chargera automatiquement les serveurs. Lorsque vous discutez avec votre modèle, il peut désormais appeler ces outils pour récupérer des données en direct. Votre IA locale vient de gagner des super pouvoirs.

Nos modèles recommandés pour les systèmes 8 Go

Il existe littéralement des centaines de LLM disponibles pour vous, des options polyvalentes aux modèles finement ajustés conçus pour des cas d'utilisation spécialisés comme le codage, la médecine, le jeu de rôle ou l'écriture créative.

Meilleur pour le codage : Nemotron ou DeepSeek sont bons. Ils ne vous épateront pas, mais fonctionneront bien pour la génération de code et le débogage, surpassant la plupart des alternatives dans les benchmarks de programmation. DeepSeek-Coder-V2 6.7B offre une autre option solide, en particulier pour le développement multilingue.

Meilleur pour les connaissances générales et le raisonnement : Qwen3 8B. Le modèle possède de solides capacités mathématiques et gère efficacement des requêtes complexes. Sa fenêtre contextuelle permet de traiter des documents plus longs sans perdre en cohérence.

Meilleur pour l'écriture créative : les variantes DeepSeek R1, mais vous avez besoin d'une ingénierie de prompt poussée. Il existe également des ajustements non censurés comme la version “abliterated-uncensored-NEO-Imatrix” de GPT-OSS d'OpenAI, qui est bonne pour l'horreur ; ou Dirty-Muse-Writer, qui est bon pour l'érotisme (dit-on).

Meilleur pour les chatbots, les jeux de rôle, la fiction interactive, le service client : Mistral 7B ( notamment Undi95 DPO Mistral 7B) et les variantes Llama avec de grandes fenêtres de contexte. MythoMax L2 13B maintient les traits de caractère lors de longues conversations et adapte son ton naturellement. Pour d'autres jeux de rôle NSFW, il existe de nombreuses options. Vous voudrez peut-être vérifier certains des modèles de cette liste.

Pour MCP : Jan-v1-4b et Pokee Research 7b sont de bons modèles si vous souhaitez essayer quelque chose de nouveau. DeepSeek R1 est une autre bonne option.

Tous les modèles peuvent être téléchargés directement depuis LM Studio si vous recherchez simplement leurs noms.

Notez que le paysage des LLM open source évolue rapidement. De nouveaux modèles sont lancés chaque semaine, chacun revendiquant des améliorations. Vous pouvez les consulter dans LM Studio ou parcourir les différents dépôts sur Hugging Face. Testez les options par vous-même. Les mauvais ajustements deviennent rapidement évidents, grâce à une formulation maladroite, des motifs répétitifs et des erreurs factuelles. Les bons modèles se sentent différents. Ils raisonnent. Ils vous surprennent.

La technologie fonctionne. Le logiciel est prêt. Votre ordinateur a probablement déjà assez de puissance. Tout ce qu'il reste à faire, c'est de l'essayer.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)