🆕 Hallazgos clave de julio
Lo que cambió este mes en el ranking de valor calidad-precio en español (no superioridad absoluta). Los detalles completos están en el cheatsheet (12 páginas).
Fable 5 vuelve — y pierde contra su antecesor
Claude Fable 5 volvió a la suscripción tras el bloqueo de junio. En mis pruebas pierde en los 4 pilares agregados contra Opus 4.8 y cuesta el doble ($10/$50 vs $5/$25). Pero gana claro en soporte al cliente, orquestación multi-paso y agentes autónomos — justo su especialidad declarada.
Global 6,75 vs Opus 7,88GLM 5.2 empata a Opus 4.8 a un quinto del costo
El modelo abierto chino iguala a Claude Opus 4.8 (API) en score global y le gana en coding y razonamiento. Cuesta $0,95/$3 por millón vs $5/$25 de Opus — una fracción del precio por un rendimiento equivalente.
7,05 vs 7,00 · 1/5 del costoLa difusión textual ya es viable: DiffusionGemma a costo $0
Primer modelo de difusión (no autoregresivo) que medimos: empata en calidad con Gemma 4 31B corriendo local en un mini-DGX, sin costo por token. Mejor incluso que Gemma 4 en tareas de agentes y soporte.
Score 7,05 · #25/91 · $0⚠️ Esto NO reemplaza a HumanEval, MMLU o SWE-bench
Los benchmarks tradicionales miden cosas que importan a investigadores: olimpiadas de matemáticas, doctorados respondiendo en inglés, software engineering en repos grandes. Este cheatsheet es complemento, no sustituto.
Está diseñado para el emprendedor hispanohablante que necesita decidir HOY qué modelo usar para sus agentes, automatizaciones y contenido. Si te importa calidad y costo en español, latencia desde LATAM, y tool calling de verdad, este cheatsheet responde lo que los otros no miden.
Que incluye el cheatsheet
Top 10 ranking global + top 5 quality only
Score compuesto que pondera calidad (50%), costo (20%), tool calling (15%), velocidad (7.5%) y latencia (7.5%). Phi-4 como juez local: cero conflicto de interés con ningún proveedor.
⭐ Sección principalRecomendaciones por caso de uso
Stack agente recomendado por rol: contenido en español, coding, agentes con herramientas, razonamiento, NIAH (long-context). No todos sirven para todo — cada rol tiene su modelo óptimo.
Rankings por categoría
6 categorías evaluadas independientemente: Razonamiento, Coding, Contenido, Agentes, Multi-step (long-horizon) y NIAH-ES (aguja en pajar en español).
Precios y suscripciones
Pay-as-you-go + 4 suscripciones top: MiMo Xiaomi $14, MiniMax $19, Anthropic Pro $20, Ollama Cloud $30. Cuál conviene según tu volumen mensual de tokens.
Estrategia local por VRAM/RAM
Qué modelos elegir según tu hardware: 8GB / 16GB / 24-32GB / 48-64GB / 128GB / 256GB+. No es solo DGX Spark — funciona con cualquier setup local.
Mapa de proveedores
10 providers comparados: NVIDIA NIM, OpenRouter, Groq, MiniMax, Xiaomi, Ollama Cloud, OpenAI, Anthropic, Google, local. Latencia, disponibilidad y costos reales desde LATAM.
Qué lo hace diferente
Se actualiza cada mes
No es un PDF estático. Cada 1ro de mes se re-ejecutan los tests con los modelos más recientes y se publica un datasheet con la evolución. Recibes la nueva versión automáticamente.
Actualizado mensualMedido desde Chile, no Virginia
La latencia que ves es la que realmente tendrás en tu aplicación si operas en LATAM. Modelos chinos top que se ven en rankings (MiMo, DeepSeek) se evalúan también por latencia real desde Sudamérica.
Contexto realMetodología pública en GitHub
91 pruebas por modelo en 23 suites. Datos crudos versionados en git, scripts de scoring auditables, criterios documentados. Si no estás de acuerdo con un score, puedes reproducirlo.
Open source