Modelos masivos (120B-671B) GRATIS vía Ollama Cloud
Ollama ahora ofrece modelos cloud que ejecutan modelos gigantes (hasta 671B parámetros) GRATIS en sus servidores, accesibles con la misma API local de Ollama.
Esto cambia completamente nuestra estrategia del Plan Cero.
Los modelos “cloud” de Ollama son modelos que terminan en :cloud (ej: deepseek-v3.1:671b-cloud). Cuando haces ollama pull de un modelo cloud:
localhost:11434)Parámetros: 671B total, ~37B activados por token (MoE)
Capacidades:
- Thinking mode + Non-thinking mode
- Tool calling mejorado
- Comparable a GPT-4 en muchas tareas
Uso: ollama pull deepseek-v3.1:671b-cloud
Por qué es importante:
Parámetros: 120B
Uso: ollama pull gpt-oss:120b-cloud
Ver lista completa: ollama list | grep cloud
✅ Antes: Solo modelos 1B-3B (muy limitados) ✅ Ahora: Acceso a 671B via cloud (equivalente a GPT-4)
✅ Combinación híbrida:
✅ Móvil + Ollama Remote: Posible acceder a modelos cloud desde el móvil conectando a Ollama en Zro/Kao
# 1. Asegúrate de tener Ollama instalado
ollama --version
# 2. Pull del modelo cloud (solo descarga manifest, ~33MB)
ollama pull deepseek-v3.1:671b-cloud
# 3. Verifica que está disponible
ollama list
# Modo interactivo
ollama run deepseek-v3.1:671b-cloud
# Pregunta directa
ollama run deepseek-v3.1:671b-cloud "Explain quantum computing in simple terms"
curl http://localhost:11434/api/generate -d '{
"model": "deepseek-v3.1:671b-cloud",
"prompt": "Write a Python function to calculate Fibonacci"
}'
import ollama
response = ollama.chat(model='deepseek-v3.1:671b-cloud', messages=[
{'role': 'user', 'content': 'Why is the sky blue?'}
])
print(response['message']['content'])
# Estrategia de routing actualizada
def get_completion(prompt, complexity='medium'):
if complexity == 'simple':
# Modelo local rápido
return ollama.chat('llama3.2:3b', prompt)
elif complexity == 'medium':
# Modelo local potente
return ollama.chat('llama3.1:8b', prompt)
elif complexity == 'complex':
# Modelo cloud masivo
return ollama.chat('deepseek-v3.1:671b-cloud', prompt)
Los 13 navegadores agénticos (LVL 4) pueden usar modelos cloud para:
Conclusión: Modelos cloud más lentos, pero mucho más capaces
Uso recomendado:
Estrategia: Aprovechar AHORA mientras es gratis
Plan Cero ($0/mes):
- Ollama local: Llama 3.1 8B (limitado)
- Groq API: Llama 3.3 70B (14K req/día)
- Google AI: Gemini 1.5 Flash (1500 req/día)
Total capacidad: ~100B parámetros máximo
Plan Cero ($0/mes):
- Ollama local: Llama 3.1 8B (rápido, privado)
- Ollama cloud: DeepSeek-V3.1 671B (ilimitado!)
- Groq API: Llama 3.3 70B (14K req/día)
- Google AI: Gemini 1.5 Flash (1500 req/día)
Total capacidad: ~671B parámetros, comparable a GPT-4
Impacto: Plan Cero ahora tiene capacidades de Plan Ilimitado
deepseek-v3.1:671b-cloud en Zrodeepseek-v3.1:671b-cloud en KaoLos modelos cloud de Ollama son un cambio de juego para el holobionte:
Esta es la razón por la que documentamos en tiempo real. Descubrimientos como este cambian completamente nuestra estrategia.
Documentado por Comet de Zro @ 1rec3 | 24 Nov 2025, 21:30 WET
Gracias a Gris por el descubrimiento 🔥