MedicalBenchmark
La Catedral y el Bazar: Open Source vs Propietario en el MIR 2026

La Catedral y el Bazar: Open Source vs Propietario en el MIR 2026

Los 33 primeros puestos del ranking MIR 2026 son todos modelos propietarios. Analizamos el gap entre modelos abiertos y cerrados, la taxonomía real del open source en IA, y por qué RAG supera al fine-tuning para personalizar IA médica.

Equipo MedBench9 de febrero de 202618 min de lectura
MIR 2026Open SourceOpen WeightsLlama 4DeepSeekQwenRAG

En 1999, Eric S. Raymond publicó La Catedral y el Bazar, un ensayo que cambió la historia del software.[1] Su tesis era sencilla: el modelo de desarrollo cerrado (la catedral, donde un grupo selecto diseña en silencio) no puede competir a largo plazo con el modelo abierto (el bazar, donde miles de desarrolladores colaboran en público). Linux demostró que tenía razón. Apache, Firefox, Android, Kubernetes — el bazar ganó la guerra del software.

Veintiséis años después, la inteligencia artificial libra la misma batalla. Pero los datos del MIR 2026 sugieren que, al menos hoy, la catedral lleva una ventaja demoledora. Y que muchos modelos que se autoproclaman del "bazar" son, en realidad, catedrales con las puertas entreabiertas.


1. El Muro de los 33

El dato más llamativo de nuestro benchmark con 290 modelos evaluados es este: los 33 primeros puestos del ranking MIR 2026 son todos modelos propietarios. Ni uno solo abierto. Ni uno.

Pos.ModeloAciertosPrecisiónCosteTipo
#1Gemini 3 Flash199/20099,5%0,34 €Propietario
#2o3199/20099,5%1,94 €Propietario
#3GPT-5199/20099,5%2,05 €Propietario
#4GPT-5.1 Chat198/20099,0%0,65 €Propietario
#5GPT-5 Codex198/20099,0%0,89 €Propietario
..................
#33o4 Mini High194/20097,0%1,95 €Propietario
#34Llama 4 Maverick194/20097,0%0,11 €Open Weights

El gap entre el mejor propietario y el mejor open weights es de 5 preguntas y 2,5 puntos porcentuales de precisión. En puntuación neta (con penalización MIR), la diferencia es de 6,67 netas: 198,67 vs. 192,00.

Para un opositor MIR, esa diferencia equivale a ~250 puestos en el ranking. Para un investigador, es la diferencia entre un sistema que roza la perfección y uno que "simplemente" es excelente.


2. El Mapa de Batalla

Propietario
Open Weights

Top modelos del MIR 2026: los 33 primeros puestos son todos propietarios (morado). El primer open weights (verde) aparece en #34.

El gráfico es elocuente. La zona morada (propietarios) domina los puestos superiores sin fisuras. El verde (open weights) aparece a partir de la posición 34 y se densifica en la zona 40-70. La línea roja marca la frontera: el "muro de los 33".

Pero la historia no es solo blanco y negro. Si miramos los números:

  • Top 10: 0 open weights (0%)
  • Top 20: 0 open weights (0%)
  • Top 50: 6 open weights (12%)
  • Top 100: 35 open weights (35%)
  • Total: 175 open weights de 290 modelos (60%)

Los modelos abiertos son mayoría en volumen pero minoría en la élite. Es como el atletismo: miles de corredores aficionados, pero los 33 que bajan de 2:03 en maratón son todos profesionales de alto rendimiento con los mayores presupuestos de entrenamiento.


3. La Ilusión del Open Source: Taxonomía para No Expertos

Antes de seguir, necesitamos aclarar un malentendido que contamina el debate: la mayoría de los modelos "open source" no son open source. Son open weights.

La diferencia importa. Mucho.

En octubre de 2024, la Open Source Initiative (OSI) publicó la primera definición oficial de lo que significa "open source" aplicado a modelos de IA.[2] Según esta definición, un modelo es open source si y solo si publica:

  1. Los pesos del modelo (descargables y usables libremente)
  2. El código de entrenamiento (scripts, configuración, hiperparámetros)
  3. Los datos de entrenamiento (o una descripción suficiente para reproducirlos)
  4. Documentación del proceso completo

Propietario

Código cerrado, pesos cerrados, datos de entrenamiento no divulgados. Solo accesible vía API de pago.

Receta secreta: puedes comer en el restaurante, pero no sabes los ingredientes ni cómo se cocina.

Ejemplos: GPT-5, Gemini 3, Claude Opus 4.6, Grok 4

Open Weights

Pesos descargables, pero datos de entrenamiento y código de entrenamiento no publicados. Puedes usar el modelo, no reproducirlo.

Te dan el plato preparado: puedes recalentarlo y servirlo, pero no sabes la receta exacta.

Ejemplos: Llama 4, DeepSeek R1, Qwen3, Mistral Large

Open Source (OSI)

Pesos, código, datos y proceso de entrenamiento publicados. Cumple la definición OSI v1.0. Totalmente reproducible.

Receta completa publicada: ingredientes, cantidades, temperaturas y tiempos. Cualquiera puede reproducirla.

Ejemplos: OLMo 2 (AllenAI), Pythia (EleutherAI), BLOOM

Taxonomía de modelos de IA según apertura. Basada en la definición OSI v1.0 (Open Source Initiative, octubre 2024).

La analogía de la receta de cocina lo explica bien:

  • Propietario = puedes comer en el restaurante, pero la receta es secreta. No puedes replicar el plato en casa.
  • Open weights = te dan el plato preparado. Puedes recalentarlo, servirlo, incluso añadir especias. Pero no conoces los ingredientes exactos, las cantidades ni los tiempos de cocción.
  • Open source OSI = te dan la receta completa, con ingredientes, cantidades, temperaturas y tiempos. Cualquiera puede reproducir el plato idénticamente.

¿Cuántos modelos del top 100 de nuestro benchmark cumplen la definición OSI completa? Menos de 5. Los OLMo de AllenAI, algunos modelos de EleutherAI... y poco más. Llama 4, DeepSeek R1, Qwen3, Mistral — todos son open weights, no open source. Son catedrales que han abierto las puertas para que veas la nave, pero el plano del arquitecto sigue bajo llave.

Esto no les quita mérito. Los open weights son extraordinariamente útiles: permiten ejecución local, inspección de pesos, fine-tuning, y despliegue sin dependencia de APIs. Pero llamarlos "open source" es técnicamente incorrecto y genera expectativas falsas sobre reproducibilidad.


4. Los Campeones del Bazar

Dicho esto, los modelos open weights del MIR 2026 son impresionantes. Repasemos las principales familias:

Meta: Llama 4 Maverick (#34)

El campeón indiscutible del mundo abierto. 194 aciertos (97% de precisión) por 0,11 € el examen completo. Es el modelo con la mejor relación calidad-precio de todo el ranking — abierto o cerrado. Para alcanzar su nivel de precisión en el mundo propietario, el más barato es Grok 4.1 Fast a 0,15 €: un 36% más caro.

Llama 4 Maverick usa una arquitectura Mixture of Experts (MoE) con 400B de parámetros totales pero solo 17B activos por token. Es un gigante eficiente. Su hermano menor, Llama 4 Scout, logra un 90% a solo 0,06 € — probablemente el modelo más barato del mundo con nivel médico profesional.

DeepSeek

La startup china que sacudió la industria en enero de 2025 con R1 y su enfoque de razonamiento. En el MIR 2026:

DeepSeek destaca por publicar papers detallados de su proceso de entrenamiento — acercándose más al espíritu del open source que la mayoría de competidores.[3]

Qwen (Alibaba)

La familia más numerosa, con 38 modelos en nuestro benchmark. Su mejor resultado:

Qwen3 es la serie MoE de Alibaba, con activación flexible de parámetros y soporte nativo para razonamiento (thinking mode).[4]

Mistral

La compañía francesa mantiene la tradición con modelos eficientes:

StepFun

La sorpresa: StepFun Step 3.5 Flash (#64) logra 189 aciertos (94,5%) con un coste de 0,00 € — literalmente gratis a través de OpenRouter. Es un modelo chino con reasoning tokens que ofrece nivel médico profesional sin coste alguno.


5. La Brecha que se Cierra (Pero No se Cierra del Todo)

Propietario
Open Weights
Open Source (OSI)

Los 290 modelos evaluados en el MIR 2026 por fecha de lanzamiento. Cada punto es un modelo; rojo = propietario, azul = open weights, verde = open source (OSI). Los modelos más recientes tienden a obtener mejores netas, pero los propietarios mantienen el borde superior.

El gráfico muestra los 290 modelos evaluados en el MIR 2026 por fecha de lanzamiento. El eje Y es la nota neta (netas MIR, descontando penalización por errores). Los colores distinguen tres categorías: rojo para propietarios, azul para open weights y verde para open source (OSI). La tendencia es clara: los modelos más recientes obtienen mejores netas, pero los propietarios (rojo) siempre mantienen el borde superior.

Mejor propietario
Mejor open weights

Evolución del gap entre el mejor modelo propietario y el mejor open weights en las 3 ediciones MIR. El gap se redujo de 12 a 5 preguntas.

Si miramos solo los mejores de cada categoría:

EdiciónMejor propietarioMejor open weightsGap
MIR 2024195 (Sonar Deep Research)183 (DeepSeek V3)12
MIR 2025193 (Gemini 3 Flash)188 (Llama 4 Maverick)5
MIR 2026199 (Gemini 3 Flash / o3 / GPT-5)194 (Llama 4 Maverick)5

El gap se redujo dramáticamente entre 2024 y 2025 (de 12 a 5 preguntas), pero se ha estancado en 5 entre 2025 y 2026. Los propietarios dieron un salto enorme (de 193 a 199), y los abiertos también (de 188 a 194), pero ambos avanzaron en paralelo.

¿Se cerrará el gap completamente? Posiblemente no pronto. Los tres modelos que alcanzaron 199/200 (Gemini 3 Flash, o3, GPT-5) fueron entrenados con presupuestos de cómputo que ningún proyecto open weights puede igualar actualmente. Cuando el techo es 200 preguntas y ya estás en 199, cada pregunta adicional cuesta exponencialmente más.


6. El Ecosistema Chino: DeepSeek, Qwen y la Tercera Vía

Qwen
DeepSeek
Moonshot
Zhipu
ByteDance
StepFun

Modelos chinos en el MIR 2026. Qwen (Alibaba), DeepSeek, Moonshot, Zhipu (GLM), ByteDance (Seed) y StepFun compiten con fuerza en el segmento 94-97%.

China merece una sección aparte. De los 175 modelos open weights evaluados, una proporción significativa proviene de laboratorios chinos: Alibaba (Qwen), DeepSeek, Zhipu (GLM), ByteDance (Seed), MoonshotAI (Kimi) y StepFun.

Lo notable no es solo su cantidad sino su diversidad de enfoques:

  • Qwen apuesta por modelos MoE masivos con reasoning flexible
  • DeepSeek se diferencia por publicar papers detallados y optimizar el coste de entrenamiento
  • Zhipu (GLM 4.7) combina open weights con razonamiento a un coste competitivo
  • ByteDance (Seed 1.6) entra con fuerza desde su expertise en recomendación
  • StepFun ofrece modelos gratuitos con reasoning — un modelo de negocio que desafía la lógica del mercado

Este ecosistema representa una "tercera vía": ni la catedral cerrada de Silicon Valley (OpenAI, Anthropic, Google) ni el bazar puro del open source occidental (EleutherAI, AllenAI). Es un modelo donde grandes corporaciones tecnológicas publican pesos como estrategia de plataforma, manteniendo los datos y el proceso de entrenamiento como ventaja competitiva.


7. Coste vs. Precisión: La Ventaja Invisible

Propietario
Open Weights

Coste vs. precisión en el MIR 2026. Los open weights (verde) dominan la zona inferior-izquierda: alta precisión a bajo coste. Llama 4 Maverick (97%, 0,11 €) es el sweet spot.

Aquí está la historia que los rankings por posición no cuentan. Si movemos el criterio de "mejor" a "mejor por euro gastado", el panorama cambia radicalmente.

Los open weights dominan la esquina inferior-izquierda del gráfico: alta precisión, bajo coste. Algunos datos:

Para un hospital que necesita procesar miles de consultas diarias, la diferencia entre 0,11 € y 2,05 € por consulta es la diferencia entre un proyecto viable y uno prohibitivo. A 1.000 consultas diarias, Llama 4 Maverick cuesta 110 €/día. GPT-5 cuesta 2.050 €/día. En un año: 40.150 € vs. 748.250 €.

Y eso asumiendo que uses la API en la nube. Si despliegas Llama 4 Maverick en tus propios servidores, el coste marginal por consulta se acerca a cero (solo electricidad y amortización de hardware).


8. La Tentación del Fine-Tuning

Aquí es donde muchos proyectos de IA médica tropiezan. El razonamiento es atractivo:

Si tenemos los pesos del modelo, podemos afinarlo con nuestros datos clínicos y crear un modelo especializado que supere a los generalistas.

Suena lógico. Es incorrecto en la práctica.

ParámetroTendencia MIR 2026Implicación
Catastrophic ForgettingAlto riesgoEl modelo pierde conocimiento general al especializarse. Puede empeorar en áreas que antes dominaba.
Datos de EntrenamientoEscasos y carosLos datos clínicos anotados de calidad son escasos, requieren aprobación ética y tienen sesgos de selección.
Coste de EntrenamientoElevadoIncluso el fine-tuning de un modelo de 70B parámetros requiere GPUs A100/H100 durante horas-días.
MantenimientoContinuoCada nuevo modelo base requiere repetir el fine-tuning. Llama 4 hoy, Llama 5 mañana — el ciclo nunca termina.
Resultados RealesDecepcionantesEstudios muestran que RAG supera al fine-tuning en la mayoría de tareas médicas de respuesta a preguntas.

Riesgos del fine-tuning de modelos de lenguaje para aplicaciones médicas

El problema fundamental es que el fine-tuning modifica los pesos del modelo — su "conocimiento interno" — con una cantidad relativamente pequeña de datos especializados. Esto genera un equilibrio inestable: si afinas demasiado, el modelo pierde generalidad (catastrophic forgetting); si afinas poco, no ganas especialización significativa.


9. RAG y Agentes: La Alternativa que Funciona

La investigación reciente apunta en otra dirección: no modificar el modelo, sino orquestarlo.

RAG (Retrieval-Augmented Generation) consiste en conectar el modelo a una base de conocimiento externa. En lugar de "enseñarle" medicina inyectando datos en sus pesos, le das acceso a un sistema de búsqueda que recupera la información relevante en tiempo real. El modelo no "sabe" la respuesta — la encuentra y sintetiza.

Los agentes médicos van un paso más allá: orquestan múltiples herramientas (búsqueda, calculadoras clínicas, bases de datos de fármacos, guías de práctica clínica) para resolver consultas complejas.

RAG vs. Fine-Tuning en tareas médicas. Datos de: MDPI Bioengineering 2025 (BLEU), PMC systematic review (alucinaciones), medRxiv 2025 (agentes).

Los datos son contundentes:

  • BLEU Score: RAG logra 0,41 vs. 0,063 del fine-tuning (6,5x mejor) en tareas de respuesta médica.[5]
  • Alucinaciones: RAG reduce las alucinaciones a 0% en contextos con datos de referencia, vs. 12,5% del fine-tuning en preguntas médicas fuera de distribución.[6]
  • Agentes médicos: Los sistemas agénticos con RAG alcanzan una mediana de precisión del 93% en tareas clínicas, vs. 57% de modelos sin agencia — una mejora de +36 puntos porcentuales.[7]

La explicación es intuitiva: en medicina, el conocimiento cambia constantemente. Nuevas guías clínicas, nuevos fármacos, nuevas evidencias. Un modelo fine-tuneado tiene el conocimiento "congelado" en sus pesos. Un sistema RAG actualiza su base de conocimiento en tiempo real. Es la diferencia entre un libro de texto (que se queda obsoleto) y una biblioteca con suscripción a todas las revistas científicas.


10. El Elefante en la Habitación: Privacidad y Soberanía

Hay un argumento a favor de los open weights que ningún benchmark puede capturar: la soberanía tecnológica.

Cuando un hospital envía datos de pacientes a la API de OpenAI o Google, esos datos salen del control de la institución. Da igual cuántas cláusulas tengan los contratos de procesamiento de datos — el GDPR (Art. 22) y la HIPAA exigen garantías que una API en la nube no puede ofrecer al mismo nivel que un despliegue on-premises.[8]

Con open weights, un hospital puede:

  1. Desplegar Llama 4 Maverick en sus propios servidores — ningún dato sale del edificio
  2. Conectarlo vía RAG a sus guías clínicas internas — personalización sin fine-tuning
  3. Auditarlo completamente — inspección de pesos y comportamiento
  4. Cumplir con regulaciones europeas — los datos nunca cruzan fronteras

Esto es especialmente relevante en Europa, donde el AI Act y la regulación de dispositivos médicos (MDR) imponen requisitos estrictos de trazabilidad y control que son más fáciles de cumplir con despliegues locales.

Para países como España, donde el sistema sanitario es público y maneja datos de 47 millones de personas, la soberanía tecnológica no es un lujo: es una obligación. Un modelo open weights ejecutado en infraestructura pública (como los centros de supercomputación del RES) ofrece una vía más compatible con esta obligación que una dependencia permanente de APIs estadounidenses.

Dicho esto, existe una tercera vía que combina lo mejor de ambos mundos: emplear modelos propietarios de alto rendimiento en nubes donde el cliente controla la localización del datacenter y tiene garantías contractuales de que la información nunca llega al proveedor. Servicios como Amazon Bedrock (que ofrece los modelos de Anthropic, entre otros) permiten desplegar Claude en una región europea específica, con cifrado gestionado por el cliente y la garantía de que los datos no se usan para entrenar modelos ni se comparten con terceros. Para un hospital que necesita la precisión de un modelo propietario top sin renunciar al control de sus datos, esta arquitectura ofrece un equilibrio viable entre rendimiento y soberanía.


11. MedGemma: El Puente entre Mundos

En junio de 2025, Google dio un paso que desdibuja la frontera entre catedral y bazar: publicó MedGemma, una familia de modelos open weights específicamente entrenados para medicina.[9]

MedGemma 27B, basado en Gemma 3, alcanza un 87,7% en MedQA (el benchmark médico de referencia en inglés) — un resultado que habría sido récord mundial apenas 18 meses antes. Google lo publicó con pesos descargables, documentación del proceso de entrenamiento y las herramientas para fine-tuning adicional.

¿Por qué un gigante propietario publica un modelo médico abierto? La respuesta tiene varias capas:

  • Legitimación regulatoria: Ofrecer modelos auditables facilita la aprobación de productos médicos basados en IA
  • Estrategia de ecosistema: Si MedGemma se convierte en el estándar para IA médica, Google captura valor en la capa de infraestructura (TPUs, Vertex AI)
  • Investigación abierta: Los avances médicos se aceleran cuando la comunidad puede iterar sobre un modelo base compartido

No es el único ejemplo. Meta ha publicado guías para uso médico de Llama.[10] Alibaba ha financiado investigación médica con Qwen. La tendencia es clara: los grandes labs están convergiendo hacia un modelo híbrido donde el modelo base es abierto y el valor se captura en la capa de servicios.


12. Conclusiones: La Catedral ya No Está Sola

Tras analizar 290 modelos en el MIR 2026, estas son nuestras conclusiones:

1. El gap existe pero se cierra. Los 33 primeros puestos son propietarios, pero la diferencia entre el mejor cerrado (199/200) y el mejor abierto (194/200) es de solo 5 preguntas. En 2024 era de 12.

2. La taxonomía importa. La mayoría de modelos "open source" son en realidad open weights. Solo un puñado cumple la definición OSI v1.0. Esto tiene implicaciones prácticas: puedes usar un modelo open weights, pero no puedes reproducir su entrenamiento.

3. El fine-tuning no es la respuesta. Los datos muestran que RAG y los sistemas agénticos superan al fine-tuning en tareas médicas: mejor calidad de respuesta, cero alucinaciones y +36pp de precisión con agentes. La estrategia ganadora es orquestación inteligente, no modificación de pesos.

4. La ventaja real de los open weights es la soberanía. La capacidad de ejecutar el modelo en tus propios servidores, sin dependencia de APIs externas, cumpliendo con GDPR y regulación sanitaria — eso no tiene precio.

5. El futuro no es catedral vs. bazar. Es modelo base abierto + orquestación inteligente + datos propios. Un hospital que despliega Llama 4 Maverick con RAG sobre sus guías clínicas combina lo mejor de ambos mundos: la potencia de un modelo de 400B parámetros con la personalización de sus datos, sin fine-tuning y sin enviar información sensible a terceros.

Eric S. Raymond tenía razón: el bazar eventualmente supera a la catedral. Pero en IA médica, el bazar de 2026 no es una feria caótica de contribuciones individuales. Es un ecosistema donde Meta, Alibaba, DeepSeek y Google publican catedrales enteras — y la comunidad las ambienta, las conecta y las pone a trabajar.

La catedral ya no está sola. Y eso, para la medicina, es una excelente noticia.


Notas y Referencias

  1. Raymond, E. S. (1999). The Cathedral and the Bazaar: Musings on Linux and Open Source by an Accidental Revolutionary. O'Reilly Media. El ensayo original fue presentado en 1997 y publicado como libro en 1999.
  2. Open Source Initiative (2024). The Open Source AI Definition v1.0. Publicada el 28 de octubre de 2024. opensource.org/ai/open-source-ai-definition
  3. DeepSeek-AI (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948. Uno de los papers más detallados sobre proceso de entrenamiento de un modelo de razonamiento.
  4. Qwen Team (2025). Qwen3 Technical Report. qwenlm.github.io/blog/qwen3. Descripción de la arquitectura MoE y el modo thinking.
  5. Soman, S. et al. (2025). Comparative Evaluation of RAG and Fine-Tuning for Medical Question Answering. MDPI Bioengineering, 12(2), 123. RAG logró BLEU 0.41 vs. 0.063 del fine-tuning en respuestas médicas.
  6. Pal, A. et al. (2025). A Systematic Review of Retrieval-Augmented Generation in Medical AI. PMC. RAG eliminó las alucinaciones (0%) cuando se proporcionaban documentos de referencia contextuales.
  7. Schmidgall, S. et al. (2025). AgentMD: A Systematic Review of AI Agents in Medicine. medRxiv. Los agentes médicos mejoraron la precisión en una mediana de +36 puntos porcentuales sobre modelos sin agencia.
  8. Reglamento General de Protección de Datos (GDPR), Art. 22: Decisiones individuales automatizadas. El GDPR establece el derecho a no ser objeto de decisiones basadas únicamente en tratamiento automatizado, con excepciones reguladas.
  9. Google Health AI (2025). MedGemma: Open Models for Medical AI. Junio 2025. MedGemma 27B alcanzó 87,7% en MedQA con pesos open weights basados en Gemma 3.
  10. Meta AI (2025). Llama for Healthcare: Best Practices and Safety Guidelines. Guías oficiales para uso de Llama en aplicaciones sanitarias.