Pindai untuk Mengunduh Aplikasi Gate

Opsi Unduhan Lainnya

Jangan ingatkan saya lagi hari ini

Menjalankan Model AI Sumber Terbuka Lokal Anda Sendiri Itu Mudah—Inilah Caranya

Decrypt

2025-11-15 17:03:00

Pusat Seni, Mode, dan Hiburan Decrypt.

Temukan SCENE

\u003e\u003e\u003e\u003e gd2md-html peringatan: tautan gambar inline dalam sumber yang dihasilkan dan simpan gambar ke server Anda. CATATAN: Gambar dalam file zip yang diekspor dari Google Docs mungkin tidak muncul dalam urutan yang sama seperti dalam dokumen Anda. Harap periksa gambar-gambarnya!

----->

Jika Anda bukan seorang pengembang, lalu mengapa di dunia ini Anda ingin menjalankan model AI sumber terbuka di komputer rumah Anda?

Ternyata ada beberapa alasan bagus. Dan dengan model-model sumber terbuka gratis yang semakin baik—dan mudah digunakan, dengan persyaratan perangkat keras yang minimal—sekarang adalah waktu yang tepat untuk mencobanya.

Berikut adalah beberapa alasan mengapa model sumber terbuka lebih baik daripada membayar $20 sebulan untuk ChatGPT, Perplexity, atau Google:

Gratis. Tidak ada biaya langganan.
Data Anda tetap di mesin Anda.
Ini berfungsi secara offline, tidak memerlukan internet.
Anda dapat melatih dan menyesuaikan model Anda untuk kasus penggunaan tertentu, seperti menulis kreatif atau… ya, apa saja.

Hambatan untuk masuk telah runtuh. Sekarang ada program-program khusus yang memungkinkan pengguna untuk bereksperimen dengan AI tanpa semua kerepotan menginstal pustaka, ketergantungan, dan plugin secara mandiri. Hampir semua orang dengan komputer yang cukup baru dapat melakukannya: Sebuah laptop atau desktop kelas menengah dengan 8GB memori video dapat menjalankan model-model yang cukup mampu, dan beberapa model dapat berjalan di 6GB atau bahkan 4GB VRAM. Dan untuk Apple, chip M-series mana pun ( dari beberapa tahun terakhir ) akan dapat menjalankan model yang dioptimalkan.

Perangkat lunak ini gratis, pengaturannya hanya memerlukan beberapa menit, dan langkah yang paling menakutkan—memilih alat mana yang akan digunakan—ditentukan oleh pertanyaan sederhana: Apakah Anda lebih suka mengklik tombol atau mengetik perintah?

LM Studio vs. Ollama

Dua platform mendominasi ruang AI lokal, dan mereka mendekati masalah dari sudut yang berlawanan.

LM Studio membungkus semuanya dalam antarmuka grafis yang halus. Anda cukup mengunduh aplikasi, menjelajahi perpustakaan model bawaan, mengklik untuk menginstal, dan mulai mengobrol. Pengalaman ini mencerminkan penggunaan ChatGPT, kecuali pemrosesan terjadi pada perangkat keras Anda. Pengguna Windows, Mac, dan Linux mendapatkan pengalaman yang sama mulusnya. Bagi pendatang baru, ini adalah titik awal yang jelas.

Ollama ditujukan untuk pengembang dan pengguna tingkat lanjut yang bekerja di terminal. Instal melalui baris perintah, tarik model dengan satu perintah, dan kemudian skrip atau otomatisasi sesuai keinginan Anda. Ini ringan, cepat, dan terintegrasi dengan baik ke dalam alur kerja pemrograman.

Kurva pembelajaran lebih curam, tetapi imbalannya adalah fleksibilitas. Ini juga yang dipilih oleh pengguna yang mahir untuk variasi dan kustomisasi.

Kedua alat menjalankan model dasar yang sama menggunakan mesin optimisasi yang identik. Perbedaan kinerja sangat kecil.

Mengatur LM Studio

Kunjungi dan unduh penginstal untuk sistem operasi Anda. File tersebut memiliki ukuran sekitar 540MB. Jalankan penginstal dan ikuti petunjuknya. Luncurkan aplikasi.

Petunjuk 1: Jika ditanya jenis pengguna apa Anda, pilih “pengembang.” Profil lainnya hanya menyembunyikan opsi untuk mempermudah.

Petunjuk 2: Ini akan merekomendasikan untuk mengunduh OSS, model AI sumber terbuka milik OpenAI. Sebagai gantinya, klik “lewati” untuk saat ini; ada model yang lebih baik dan lebih kecil yang akan melakukan pekerjaan lebih baik.

VRAM: Kunci untuk menjalankan AI lokal

Setelah Anda menginstal LM Studio, program akan siap dijalankan dan akan terlihat seperti ini:

Sekarang Anda perlu mengunduh model sebelum LLM Anda dapat berfungsi. Dan semakin kuat modelnya, semakin banyak sumber daya yang dibutuhkan.

Sumber daya kritis adalah VRAM, atau memori video di kartu grafis Anda. LLM dimuat ke dalam VRAM selama inferensi. Jika Anda tidak memiliki cukup ruang, maka kinerja akan runtuh dan sistem harus menggunakan RAM sistem yang lebih lambat. Anda ingin menghindari hal itu dengan memiliki cukup VRAM untuk model yang ingin Anda jalankan.

Untuk mengetahui seberapa banyak VRAM yang Anda miliki, Anda dapat masuk ke manajer tugas Windows (control+alt+del) dan klik pada tab GPU, pastikan Anda telah memilih kartu grafis yang berdedikasi dan bukan grafis terintegrasi pada prosesor Intel/AMD Anda.

Anda akan melihat berapa banyak VRAM yang Anda miliki di bagian “Memori GPU Khusus”.

Pada Mac seri M, semuanya lebih mudah karena mereka berbagi RAM dan VRAM. Jumlah RAM di mesin Anda akan sama dengan VRAM yang dapat Anda akses.

Untuk memeriksa, klik pada logo Apple, lalu klik pada “Tentang.” Lihat Memori? Itulah jumlah VRAM yang Anda miliki.

Anda akan memerlukan setidaknya 8GB VRAM. Model dalam kisaran parameter 7-9 miliar, yang terkompresi menggunakan kuantisasi 4-bit, dapat dengan nyaman digunakan sambil memberikan kinerja yang kuat. Anda akan tahu jika sebuah model terkuantisasi karena pengembang biasanya mengungkapkannya dalam nama. Jika Anda melihat BF, FP atau GGUF dalam nama, maka Anda sedang melihat model yang terkuantisasi. Semakin rendah angkanya (FP32, FP16, FP8, FP4), semakin sedikit sumber daya yang akan dikonsumsinya.

Ini bukan perbandingan yang sama, tetapi bayangkan kuantisasi sebagai resolusi layar Anda. Anda akan melihat gambar yang sama dalam 8K, 4K, 1080p, atau 720p. Anda akan dapat memahami segala sesuatu tidak peduli resolusinya, tetapi memperbesar dan memperhatikan detailnya akan mengungkapkan bahwa gambar 4K memiliki lebih banyak informasi dibandingkan 720p, tetapi akan membutuhkan lebih banyak memori dan sumber daya untuk dirender.

Tetapi idealnya, jika Anda benar-benar serius, maka Anda harus membeli GPU gaming yang bagus dengan 24GB VRAM. Tidak masalah apakah itu baru atau tidak, dan tidak masalah seberapa cepat atau kuatnya. Di dunia AI, VRAM adalah raja.

Setelah Anda mengetahui berapa banyak VRAM yang dapat Anda gunakan, maka Anda dapat menentukan model mana yang dapat Anda jalankan dengan pergi ke Kalkulator VRAM. Atau, cukup mulai dengan model yang lebih kecil dengan kurang dari 4 miliar parameter dan kemudian naik ke model yang lebih besar sampai komputer Anda memberi tahu bahwa Anda tidak memiliki cukup memori. (Lebih lanjut tentang teknik ini sebentar lagi.)

Mengunduh model Anda

Setelah Anda mengetahui batasan perangkat keras Anda, saatnya untuk mengunduh model. Klik pada ikon kaca pembesar di sidebar kiri dan cari model berdasarkan nama.

Qwen dan DeepSeek adalah model yang baik untuk digunakan untuk memulai perjalanan Anda. Ya, mereka adalah produk China, tetapi jika Anda khawatir tentang pengawasan, Anda bisa tenang. Ketika Anda menjalankan LLM Anda secara lokal, tidak ada yang keluar dari mesin Anda, jadi Anda tidak akan diawasi oleh pemerintah China, pemerintah AS, atau entitas korporat manapun.

Mengenai virus, semua yang kami rekomendasikan berasal dari Hugging Face, di mana perangkat lunak langsung diperiksa untuk spyware dan malware lainnya. Namun, jika boleh dikatakan, model Amerika terbaik adalah Llama dari Meta, jadi Anda mungkin ingin memilih itu jika Anda seorang patriot. (Kami menawarkan rekomendasi lain di bagian akhir.)

Perlu dicatat bahwa model berperilaku berbeda tergantung pada dataset pelatihan dan teknik fine-tuning yang digunakan untuk membangunnya. Terlepas dari Grok milik Elon Musk, tidak ada yang namanya model yang tidak bias karena tidak ada informasi yang tidak bias. Jadi pilih racun Anda tergantung pada seberapa besar Anda peduli tentang geopolitik.

Untuk saat ini, unduh kedua model 3B ( yang lebih kecil dan kurang mampu serta versi 7B. Jika Anda dapat menjalankan versi 7B, maka hapus versi 3B ) dan coba unduh serta jalankan versi 13B dan seterusnya (. Jika Anda tidak dapat menjalankan versi 7B, maka hapus dan gunakan versi 3B.

Setelah diunduh, muat model dari bagian Model Saya. Antarmuka chat muncul. Ketik pesan. Model memberikan respons. Selamat: Anda menjalankan AI lokal.

Memberikan akses internet kepada model Anda

Secara default, model lokal tidak dapat menjelajahi web. Mereka terisolasi berdasarkan desain, jadi Anda akan beriterasi dengan mereka berdasarkan pengetahuan internal mereka. Mereka akan bekerja dengan baik untuk menulis cerita pendek, menjawab pertanyaan, melakukan beberapa pengkodean, dll. Tetapi mereka tidak akan memberi Anda berita terbaru, memberi tahu Anda cuaca, memeriksa email Anda, atau menjadwalkan pertemuan untuk Anda.

Server Protokol Konteks Model mengubah ini.

Server MCP bertindak sebagai jembatan antara model Anda dan layanan eksternal. Ingin AI Anda mencari di Google, memeriksa repositori GitHub, atau membaca situs web? Server MCP membuatnya mungkin. LM Studio menambahkan dukungan MCP di versi 0.3.17, yang dapat diakses melalui tab Program. Setiap server menyediakan alat tertentu— pencarian web, akses file, panggilan API.

Jika Anda ingin memberi model akses ke internet, maka panduan lengkap kami tentang server MCP menjelaskan proses pengaturannya, termasuk opsi populer seperti pencarian web dan akses database.

Simpan file tersebut dan LM Studio akan secara otomatis memuat server. Ketika Anda mengobrol dengan model Anda, sekarang ia dapat memanggil alat-alat ini untuk mengambil data langsung. AI lokal Anda baru saja mendapatkan kekuatan super.

Model yang kami rekomendasikan untuk sistem 8GB

Ada ratusan LLM yang tersedia untuk Anda, dari opsi serba bisa hingga model yang disesuaikan untuk kasus penggunaan khusus seperti pengkodean, kedokteran, bermain peran, atau penulisan kreatif.

Terbaik untuk pemrograman: Nemotron atau DeepSeek adalah pilihan yang baik. Mereka tidak akan mengejutkan Anda, tetapi akan bekerja dengan baik dalam generasi kode dan debugging, mengungguli sebagian besar alternatif dalam tolok ukur pemrograman. DeepSeek-Coder-V2 6.7B menawarkan opsi solid lainnya, terutama untuk pengembangan multibahasa.

Terbaik untuk pengetahuan umum dan penalaran: Qwen3 8B. Model ini memiliki kemampuan matematika yang kuat dan menangani pertanyaan kompleks dengan efektif. Jendela konteksnya dapat menampung dokumen yang lebih panjang tanpa kehilangan koherensi.

Terbaik untuk menulis kreatif: Varian DeepSeek R1, tetapi Anda memerlukan beberapa rekayasa prompt yang mendalam. Ada juga fine-tune yang tidak disensor seperti versi “abliterated-uncensored-NEO-Imatrix” dari GPT-OSS OpenAI, yang bagus untuk horor; atau Dirty-Muse-Writer, yang bagus untuk erotika )katanya (.

Terbaik untuk chatbot, permainan peran, fiksi interaktif, layanan pelanggan: Mistral 7B ) terutama Undi95 DPO Mistral 7B( dan varian Llama dengan jendela konteks besar. MythoMax L2 13B mempertahankan karakteristik karakter sepanjang percakapan panjang dan beradaptasi dengan nada secara alami. Untuk permainan peran NSFW lainnya, ada banyak pilihan. Anda mungkin ingin memeriksa beberapa model dalam daftar ini.

Untuk MCP: Jan-v1-4b dan Pokee Research 7b adalah model yang bagus jika Anda ingin mencoba sesuatu yang baru. DeepSeek R1 adalah pilihan yang baik lainnya.

Semua model dapat diunduh langsung dari LM Studio jika Anda hanya mencari nama-nama mereka.

Perhatikan bahwa lanskap LLM sumber terbuka berubah dengan cepat. Model-model baru diluncurkan setiap minggu, masing-masing mengklaim perbaikan. Anda dapat memeriksanya di LM Studio, atau menjelajahi berbagai repositori di Hugging Face. Uji opsi untuk diri Anda sendiri. Kesesuaian yang buruk menjadi jelas dengan cepat, berkat frasa yang canggung, pola yang berulang, dan kesalahan faktual. Model yang baik terasa berbeda. Mereka berpikir. Mereka mengejutkan Anda.

Teknologinya berfungsi. Perangkat lunaknya sudah siap. Komputer Anda mungkin sudah memiliki cukup daya. Yang tersisa hanyalah mencobanya.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.