Escanea para descargar la aplicación Gate

Más opciones de descarga

No volver a recordar hoy

Ejecutar su propio modelo de IA local de código abierto es fácil: así es como

Decrypt

2025-11-15 17:03:00

Centro de Arte, Moda y Entretenimiento de Decrypt.

Descubre SCENE

gd2md-html alerta: enlace de imagen en línea en la fuente generada y almacene las imágenes en su servidor. NOTA: Las imágenes en el archivo zip exportado de Google Docs pueden no aparecer en el mismo orden que en su documento. ¡Por favor revise las imágenes!

----->

Si no eres un desarrollador, ¿por qué demonios querrías ejecutar un modelo de IA de código abierto en tu computadora doméstica?

Resulta que hay varias buenas razones. Y con modelos gratuitos y de código abierto mejorando más que nunca—y fáciles de usar, con requisitos de hardware mínimos—ahora es un gran momento para intentarlo.

Aquí hay algunas razones por las que los modelos de código abierto son mejores que pagar $20 al mes por ChatGPT, Perplexity o Google:

Es gratis. No hay tarifas de suscripción.
Tus datos permanecen en tu máquina.
Funciona sin conexión, no se requiere internet.
Puedes entrenar y personalizar tu modelo para casos de uso específicos, como escritura creativa o… bueno, cualquier cosa.

La barrera de entrada se ha derrumbado. Ahora hay programas especializados que permiten a los usuarios experimentar con la IA sin todo el lío de instalar bibliotecas, dependencias y complementos de forma independiente. Prácticamente cualquier persona con una computadora relativamente reciente puede hacerlo: una laptop o computadora de escritorio de gama media con 8GB de memoria de video puede ejecutar modelos sorprendentemente capaces, y algunos modelos funcionan con 6GB o incluso 4GB de VRAM. Y para Apple, cualquier chip de la serie M ( de los últimos años ) podrá ejecutar modelos optimizados.

El software es gratuito, la configuración toma minutos, y el paso más intimidante—elegir qué herramienta usar—se reduce a una simple pregunta: ¿prefieres hacer clic en botones o escribir comandos?

LM Studio vs. Ollama

Dos plataformas dominan el espacio local de IA, y abordan el problema desde ángulos opuestos.

LM Studio envuelve todo en una interfaz gráfica pulida. Puedes simplemente descargar la aplicación, explorar una biblioteca de modelos incorporada, hacer clic para instalar y comenzar a chatear. La experiencia es similar a usar ChatGPT, excepto que el procesamiento ocurre en tu hardware. Los usuarios de Windows, Mac y Linux obtienen la misma experiencia fluida. Para los recién llegados, este es el punto de partida obvio.

Ollama está dirigido a desarrolladores y usuarios avanzados que trabajan en la terminal. Instálalo a través de la línea de comandos, descarga modelos con un solo comando y luego script o automatiza a tu antojo. Es liviano, rápido e integra perfectamente en los flujos de trabajo de programación.

La curva de aprendizaje es más pronunciada, pero la recompensa es la flexibilidad. También es lo que los usuarios avanzados eligen por su versatilidad y personalización.

Ambas herramientas utilizan los mismos modelos subyacentes con motores de optimización idénticos. Las diferencias de rendimiento son insignificantes.

Configurando LM Studio

Visita y descarga el instalador para tu sistema operativo. El archivo pesa alrededor de 540MB. Ejecuta el instalador y sigue las instrucciones. Lanza la aplicación.

Sugerencia 1: Si te pregunta qué tipo de usuario eres, elige “desarrollador.” Los otros perfiles simplemente ocultan opciones para facilitar las cosas.

Sugerencia 2: Recomendará descargar OSS, el modelo de IA de código abierto de OpenAI. En su lugar, haga clic en “saltar” por ahora; hay modelos mejores y más pequeños que harán un mejor trabajo.

VRAM: La clave para ejecutar IA local

Una vez que hayas instalado LM Studio, el programa estará listo para ejecutarse y se verá así:

Ahora necesitas descargar un modelo antes de que tu LLM funcione. Y cuanto más potente sea el modelo, más recursos requerirá.

El recurso crítico es la VRAM, o memoria de video en tu tarjeta gráfica. Los LLM se cargan en la VRAM durante la inferencia. Si no tienes suficiente espacio, entonces el rendimiento colapsa y el sistema debe recurrir a la más lenta RAM del sistema. Querrás evitar eso teniendo suficiente VRAM para el modelo que deseas ejecutar.

Para saber cuánta VRAM tienes, puedes ingresar al administrador de tareas de Windows (control+alt+del) y hacer clic en la pestaña GPU, asegurándote de haber seleccionado la tarjeta gráfica dedicada y no la gráfica integrada en tu procesador Intel/AMD.

Verás cuánta VRAM tienes en la sección “Memoria dedicada de GPU”.

En las Macs de la serie M, las cosas son más fáciles ya que comparten RAM y VRAM. La cantidad de RAM en tu máquina será igual a la VRAM a la que puedes acceder.

Para comprobar, haz clic en el logo de Apple, luego haz clic en “Acerca de.” ¿Ves Memoria? Esa es la cantidad de VRAM que tienes.

Querrás al menos 8 GB de VRAM. Los modelos en el rango de 7-9 mil millones de parámetros, comprimidos usando cuantización de 4 bits, se ajustan cómodamente mientras ofrecen un buen rendimiento. Sabrás si un modelo está cuantizado porque los desarrolladores generalmente lo divulgan en el nombre. Si ves BF, FP o GGUF en el nombre, entonces estás mirando un modelo cuantizado. Cuanto menor sea el número (FP32, FP16, FP8, FP4), menos recursos consumirá.

No es una comparación directa, pero imagina la cuantización como la resolución de tu pantalla. Verás la misma imagen en 8K, 4K, 1080p o 720p. Podrás entender todo sin importar la resolución, pero al hacer zoom y ser exigente con los detalles, se revelará que una imagen en 4K tiene más información que una en 720p, pero requerirá más memoria y recursos para renderizar.

Pero, idealmente, si realmente estás serio, entonces deberías comprar una buena GPU para juegos con 24GB de VRAM. No importa si es nueva o no, y no importa cuán rápida o poderosa sea. En el mundo de la IA, la VRAM es el rey.

Una vez que sepas cuánta VRAM puedes utilizar, podrás determinar qué modelos puedes ejecutar yendo al Calculador de VRAM. O, simplemente comienza con modelos más pequeños de menos de 4 mil millones de parámetros y luego avanza a modelos más grandes hasta que tu computadora te indique que no tienes suficiente memoria. (Más sobre esta técnica en un momento.)

Descargando tus modelos

Una vez que conozcas los límites de tu hardware, es hora de descargar un modelo. Haz clic en el ícono de la lupa en la barra lateral izquierda y busca el modelo por su nombre.

Qwen y DeepSeek son buenos modelos para comenzar tu viaje. Sí, son chinos, pero si te preocupa ser espiado, puedes estar tranquilo. Cuando ejecutas tu LLM localmente, nada sale de tu máquina, así que no serás espiado ni por los chinos, ni por el gobierno de EE. UU., ni por ninguna entidad corporativa.

En cuanto a los virus, todo lo que estamos recomendando proviene de Hugging Face, donde el software se verifica instantáneamente en busca de spyware y otro malware. Pero, para que conste, el mejor modelo americano es Llama de Meta, así que puede que quieras elegir eso si eres un patriota. (Ofrecemos otras recomendaciones en la sección final.)

Tenga en cuenta que los modelos se comportan de manera diferente dependiendo del conjunto de datos de entrenamiento y las técnicas de ajuste fino utilizadas para construirlos. A pesar de Grok de Elon Musk, no existe un modelo imparcial porque no existe información imparcial. Así que elija su veneno dependiendo de cuánto le importe la geopolítica.

Por ahora, descarga tanto el modelo 3B ( más pequeño y menos capaz como las versiones de 7B. Si puedes ejecutar el 7B, entonces elimina el 3B ) y prueba descargar y ejecutar la versión de 13B y así sucesivamente (. Si no puedes ejecutar la versión de 7B, entonces elimínala y utiliza la versión de 3B.

Una vez descargado, carga el modelo desde la sección Mis Modelos. Aparece la interfaz de chat. Escribe un mensaje. El modelo responde. ¡Felicidades: Estás ejecutando una IA local.

Dar acceso a internet a su modelo

Los modelos locales, fuera de la caja, no pueden navegar por la web. Están aislados por diseño, por lo que iterarás con ellos en función de su conocimiento interno. Funcionarán bien para escribir cuentos cortos, responder preguntas, hacer algo de codificación, etc. Pero no te darán las últimas noticias, no te dirán el clima, no comprobarán tu correo electrónico ni programarán reuniones para ti.

Los servidores del Protocolo de Contexto del Modelo cambian esto.

Los servidores MCP actúan como puentes entre tu modelo y servicios externos. ¿Quieres que tu IA busque en Google, verifique repositorios de GitHub o lea sitios web? Los servidores MCP lo hacen posible. LM Studio añadió soporte MCP en la versión 0.3.17, accesible a través de la pestaña Programa. Cada servidor expone herramientas específicas: búsqueda web, acceso a archivos, llamadas a API.

Si deseas dar acceso a internet a los modelos, nuestra guía completa sobre servidores MCP detalla el proceso de configuración, incluyendo opciones populares como búsqueda en la web y acceso a bases de datos.

Guarda el archivo y LM Studio cargará automáticamente los servidores. Cuando chates con tu modelo, ahora podrá llamar a estas herramientas para obtener datos en vivo. Tu IA local acaba de ganar superpoderes.

Nuestros modelos recomendados para sistemas de 8 GB

Hay literalmente cientos de LLMs disponibles para usted, desde opciones versátiles hasta modelos ajustados diseñados para casos de uso especializados como la programación, la medicina, el juego de roles o la escritura creativa.

Mejor para codificación: Nemotron o DeepSeek son buenos. No te dejarán boquiabierto, pero funcionarán bien con la generación de código y la depuración, superando a la mayoría de las alternativas en los benchmarks de programación. DeepSeek-Coder-V2 6.7B ofrece otra opción sólida, particularmente para el desarrollo multilingüe.

Mejor para el conocimiento general y el razonamiento: Qwen3 8B. El modelo tiene fuertes capacidades matemáticas y maneja consultas complejas de manera efectiva. Su ventana de contexto acomoda documentos más largos sin perder coherencia.

Mejor para la escritura creativa: variantes de DeepSeek R1, pero necesitas una ingeniería de prompts pesada. También hay ajustes finos sin censura como la versión “abliterated-uncensored-NEO-Imatrix” de GPT-OSS de OpenAI, que es buena para el horror; o Dirty-Muse-Writer, que es buena para la erótica ), eso dicen (.

Mejor para chatbots, juegos de rol, ficción interactiva, servicio al cliente: Mistral 7B ) especialmente Undi95 DPO Mistral 7B( y variantes de Llama con grandes ventanas de contexto. MythoMax L2 13B mantiene rasgos de carácter a lo largo de largas conversaciones y adapta el tono de manera natural. Para otros juegos de rol NSFW, hay muchas opciones. Puede que desee consultar algunos de los modelos en esta lista.

Para MCP: Jan-v1-4b y Pokee Research 7b son buenos modelos si quieres probar algo nuevo. DeepSeek R1 es otra buena opción.

Todos los modelos se pueden descargar directamente desde LM Studio si simplemente buscas sus nombres.

Ten en cuenta que el panorama de los LLM de código abierto está cambiando rápidamente. Nuevos modelos se lanzan semanalmente, cada uno reclamando mejoras. Puedes revisarlos en LM Studio, o explorar los diferentes repositorios en Hugging Face. Prueba las opciones por ti mismo. Los malos modelos se vuelven obvios rápidamente, gracias a la redacción incómoda, patrones repetitivos y errores fácticos. Los buenos modelos se sienten diferentes. Razonan. Te sorprenden.

La tecnología funciona. El software está listo. Tu computadora probablemente ya tiene suficiente potencia. Solo queda probarlo.

OWN-0.02%

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.