Отсканируйте, чтобы загрузить приложение Gate
qrCode
Больше вариантов загрузки
Не напоминай мне больше сегодня.

Запуск своей локальной модели ИИ с открытым исходным кодом — это просто. Вот как это сделать.

Центр искусства, моды и развлечений Decrypt.


Откройте SCENE

>>>> gd2md-html предупреждение: встроенная ссылка на изображение в сгенерированном источнике и сохраните изображения на своем сервере. ПРИМЕЧАНИЕ: Изображения в экспортированном zip-файле из Google Docs могут не отображаться в том же порядке, что и в вашем документе. Пожалуйста, проверьте изображения!

----->

Если вы не разработчик, то зачем вам, черт возьми, запускать открытое AI-модель на своем домашнем компьютере?

Оказывается, есть множество хороших причин. И с бесплатными, открытыми моделями, которые становятся лучше, чем когда-либо, и просты в использовании с минимальными аппаратными требованиями, сейчас отличное время попробовать.

Вот несколько причин, почему модели с открытым исходным кодом лучше, чем платить $20 в месяц за ChatGPT, Perplexity или Google:

  • Это бесплатно. Никаких абонентских плат.
  • Ваши данные остаются на вашем устройстве.
  • Работает в оффлайне, интернет не требуется.
  • Вы можете обучить и настроить свою модель для конкретных случаев использования, таких как креативное письмо или… в общем, все что угодно.

Барьер для входа исчез. Теперь существуют специализированные программы, которые позволяют пользователям экспериментировать с ИИ без всей головной боли установки библиотек, зависимостей и плагинов самостоятельно. Практически любой с относительно современным компьютером может это сделать: ноутбук или настольный компьютер среднего уровня с 8 ГБ видеопамяти может запускать удивительно мощные модели, а некоторые модели работают на 6 ГБ или даже 4 ГБ видеопамяти. А для Apple любой чип M-серии (за последние несколько лет) сможет запускать оптимизированные модели.

Программное обеспечение бесплатное, установка занимает минуты, а самый пугающий шаг — выбор инструмента — сводится к простому вопросу: вы предпочитаете нажимать кнопки или вводить команды?

LM Studio против Ollama

Две платформы доминируют в местном пространстве ИИ, и они подходят к проблеме с противоположных углов.

LM Studio объединяет все в аккуратном графическом интерфейсе. Вы можете просто скачать приложение, просмотреть встроенную библиотеку моделей, нажать для установки и начать общение. Опыт аналогичен использованию ChatGPT, за исключением того, что обработка происходит на вашем оборудовании. Пользователи Windows, Mac и Linux получают одинаковый плавный опыт. Для новичков это очевидная отправная точка.

Ollama предназначен для разработчиков и опытных пользователей, которые работают в терминале. Установите через командную строку, загружайте модели одной командой, а затем скриптуйте или автоматизируйте на свое усмотрение. Это легковесный, быстрый инструмент, который чисто интегрируется в рабочие процессы программирования.

Кривая обучения более крутая, но вознаграждение заключается в гибкости. Это также то, что выбирают опытные пользователи для универсальности и настраиваемости.

Оба инструмента используют одни и те же базовые модели, применяя идентичные движки оптимизации. Различия в производительности незначительны.

Настройка LM Studio

Посетите сайт и скачайте установщик для вашей операционной системы. Файл весит около 540 МБ. Запустите установщик и следуйте инструкциям. Запустите приложение.

Подсказка 1: Если вас спросят, какой вы тип пользователя, выберите “разработчик.” Другие профили просто скрывают опции, чтобы упростить процесс.

Подсказка 2: Он порекомендует скачать OSS, открытую модель ИИ от OpenAI. Вместо этого нажмите “пропустить” на данный момент; есть более лучшие и меньшие модели, которые справятся с задачей лучше.

VRAM: Ключ к запуску локального ИИ

После установки LM Studio программа будет готова к запуску и будет выглядеть так:

Теперь вам нужно скачать модель, прежде чем ваш LLM начнет работать. И чем мощнее модель, тем больше ресурсов она потребует.

Критическим ресурсом является VRAM, или видеопамять на вашей видеокарте. LLM загружаются в VRAM во время вывода. Если у вас недостаточно места, производительность падает, и системе приходится прибегать к более медленной системной оперативной памяти. Вам следует избежать этого, имея достаточно VRAM для модели, которую вы хотите запустить.

Чтобы узнать, сколько у вас видеопамяти (VRAM), вы можете открыть диспетчер задач Windows (control+alt+del) и щелкнуть на вкладке GPU, убедившись, что вы выбрали дискретную видеокарту, а не встроенную графику на вашем процессоре Intel/AMD.

Вы увидите, сколько у вас видеопамяти (VRAM) в разделе “Выделенная память GPU”.

На Mac с процессорами серии M всё проще, так как они используют общую оперативную память и видеопамять. Объем оперативной памяти на вашем устройстве будет равен объему видеопамяти, к которой вы можете получить доступ.

Чтобы проверить, нажмите на логотип Apple, затем нажмите на “Об этом Mac.” Видите память? Это количество вашей видеопамяти.

Вам потребуется как минимум 8 ГБ видеопамяти. Модели в диапазоне 7-9 миллиардов параметров, сжимаемые с использованием 4-битного квантования, комфортно помещаются и обеспечивают хорошую производительность. Вы узнаете, если модель квантована, потому что разработчики обычно указывают это в названии. Если вы видите BF, FP или GGUF в названии, значит, вы имеете дело с квантованной моделью. Чем ниже число (FP32, FP16, FP8, FP4), тем меньше ресурсов она будет потреблять.

Это не совсем то же самое, но представьте квантование как разрешение вашего экрана. Вы увидите одно и то же изображение в 8K, 4K, 1080p или 720p. Вы сможете понять все, независимо от разрешения, но при увеличении и внимательном рассмотрении деталей станет очевидно, что изображение в 4K содержит больше информации, чем в 720p, но для его рендеринга потребуется больше памяти и ресурсов.

Но в идеале, если вы действительно серьезны, то вам следует купить хороший игровой графический процессор с 24 ГБ видеопамяти. Не имеет значения, новый он или нет, и не имеет значения, насколько он быстрый или мощный. В мире ИИ видеопамять — король.

Как только вы узнаете, сколько видеопамяти (VRAM) вы можете использовать, вы сможете определить, какие модели вы можете запустить, перейдя к калькулятору VRAM. Или просто начните с меньших моделей, содержащих менее 4 миллиардов параметров, а затем переходите к более крупным, пока ваш компьютер не сообщит вам, что у вас недостаточно памяти. (Подробнее об этой технике через минуту.)

Скачивание ваших моделей

Как только вы узнаете пределы своего оборудования, пришло время скачать модель. Нажмите на значок лупы на левой боковой панели и найдите модель по имени.

Qwen и DeepSeek - хорошие модели для начала вашего пути. Да, они китайские, но если вы беспокоитесь о слежке, то можете быть спокойны. Когда вы запускаете свою LLM локально, ничего не покидает ваш компьютер, так что за вами не будут следить ни китайцы, ни правительство США, ни какие-либо корпоративные структуры.

Что касается вирусов, все, что мы рекомендуем, поступает через Hugging Face, где программное обеспечение мгновенно проверяется на шпионское и другое вредоносное ПО. Но, если на то пошло, лучшая американская модель — это Llama от Meta, так что вы можете выбрать её, если вы патриот. ( Мы предлагаем другие рекомендации в последнем разделе. )

Обратите внимание, что модели ведут себя по-разному в зависимости от обучающего набора данных и методов тонкой настройки, использованных для их создания. Несмотря на Грока Илона Маска, не существует безпристрастной модели, потому что не существует безпристрастной информации. Так что выбирайте свою отраву в зависимости от того, насколько вам важна геополитика.

На данный момент загрузите как модель 3B (, так и версию 7B. Если вы можете запустить 7B, то удалите 3B ) и попробуйте загрузить и запустить версию 13B и так далее (. Если вы не можете запустить версию 7B, то удалите ее и используйте версию 3B.

После загрузки загрузите модель из раздела «Мои модели». Появляется интерфейс чата. Напишите сообщение. Модель отвечает. Поздравляем: вы запускаете локальный ИИ.

Предоставление вашему модели доступа к интернету

Из коробки локальные модели не могут просматривать веб. Они изолированы по конструкции, поэтому вы будете работать с ними на основе их внутреннего знания. Они хорошо подходят для написания коротких рассказов, ответов на вопросы, написания кода и т.д. Но они не дадут вам последние новости, не расскажут погоду, не проверят вашу почту и не запланируют встречи.

Серверы протокола контекста модели изменяют это.

Серверы MCP выступают в качестве мостов между вашей моделью и внешними сервисами. Хотите, чтобы ваш ИИ искал в Google, проверял репозитории на GitHub или читал веб-сайты? Серверы MCP делают это возможным. LM Studio добавила поддержку MCP в версии 0.3.17, доступной через вкладку Программа. Каждый сервер открывает специфические инструменты — веб-поиск, доступ к файлам, вызовы API.

Если вы хотите предоставить моделям доступ к интернету, то наше полное руководство по серверам MCP подробно описывает процесс настройки, включая популярные варианты, такие как веб-поиск и доступ к базам данных.

Сохраните файл, и LM Studio автоматически загрузит серверы. Когда вы общаетесь с вашей моделью, она теперь может вызывать эти инструменты для получения актуальных данных. Ваш местный ИИ только что получил суперспособности.

Наши рекомендованные модели для систем на 8 ГБ

В наличии буквально сотни LLM, от универсальных вариантов до тонко настроенных моделей, разработанных для специализированных случаев, таких как программирование, медицина, ролевые игры или креативное письмо.

Лучше для программирования: Nemotron или DeepSeek хороши. Они не поразят вас, но отлично подойдут для генерации кода и отладки, превосходя большинство альтернатив в программных бенчмарках. DeepSeek-Coder-V2 6.7B предлагает еще один надежный вариант, особенно для многоязычной разработки.

Лучший для общих знаний и рассуждений: Qwen3 8B. Модель обладает сильными математическими способностями и эффективно обрабатывает сложные запросы. Ее контекстное окно позволяет обрабатывать более длинные документы, не теряя связности.

Лучше всего для креативного письма: варианты DeepSeek R1, но вам понадобится немного серьезной настройки подсказок. Существуют также нецензурированные тонкие настройки, такие как “abliterated-uncensored-NEO-Imatrix” версия OpenAI's GPT-OSS, которая хороша для ужасов; или Dirty-Muse-Writer, который хорош для эротики )так говорят(.

Лучшие для чат-ботов, ролевых игр, интерактивной прозы, обслуживания клиентов: Mistral 7B ) особенно Undi95 DPO Mistral 7B( и варианты Llama с большими контекстными окнами. MythoMax L2 13B сохраняет характеристики персонажей в длительных беседах и естественно адаптирует тон. Для других NSFW ролевых игр есть много вариантов. Вам может понадобиться проверить некоторые из моделей в этом списке.

Для MCP: Jan-v1-4b и Pokee Research 7b - отличные модели, если вы хотите попробовать что-то новое. DeepSeek R1 - еще один хороший вариант.

Все модели можно скачать прямо из LM Studio, если вы просто поищете их названия.

Обратите внимание, что ландшафт открытых LLM быстро меняется. Новые модели запускаются еженедельно, каждая из которых утверждает о своих улучшениях. Вы можете ознакомиться с ними в LM Studio или просмотреть различные репозитории на Hugging Face. Протестируйте варианты сами. Плохие модели становятся очевидными быстро благодаря неуклюжей формулировке, повторяющимся паттернам и фактическим ошибкам. Хорошие модели ощущаются иначе. Они рассуждают. Они удивляют вас.

Технология работает. Программное обеспечение готово. Ваш компьютер, вероятно, уже обладает достаточной мощностью. Осталось только попробовать это.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить