MedicalBenchmark
A Catedral e o Bazar: Open Source vs Propietario no MIR 2026

A Catedral e o Bazar: Open Source vs Propietario no MIR 2026

Os 33 primeiros postos do ranking MIR 2026 son todos modelos propietarios. Analizamos o gap entre modelos abertos e pechados, a taxonomía real do open source en IA, e por que RAG supera ao fine-tuning para personalizar IA médica.

Equipo MedBench9 de febreiro de 202618 min de lectura
MIR 2026Open SourceOpen WeightsLlama 4DeepSeekQwenRAG

En 1999, Eric S. Raymond publicou A Catedral e o Bazar, un ensaio que cambiou a historia do software.[1] A súa tese era sinxela: o modelo de desenvolvemento pechado (a catedral, onde un grupo selecto deseña en silencio) non pode competir a longo prazo co modelo aberto (o bazar, onde miles de desenvolvedores colaboran en público). Linux demostrou que tiña razón. Apache, Firefox, Android, Kubernetes — o bazar gañou a guerra do software.

Vinte e seis anos despois, a intelixencia artificial libra a mesma batalla. Pero os datos do MIR 2026 suxiren que, polo menos hoxe, a catedral leva unha vantaxe demoledora. E que moitos modelos que se autoproclaman do "bazar" son, en realidade, catedrais coas portas entreabertas.


1. O Muro dos 33

O dato máis rechamante do noso benchmark con 290 modelos avaliados é este: os 33 primeiros postos do ranking MIR 2026 son todos modelos propietarios. Nin un só aberto. Nin un.

Pos.ModeloAcertosPrecisiónCustoTipo
#1Gemini 3 Flash199/20099,5%0,34 €Propietario
#2o3199/20099,5%1,94 €Propietario
#3GPT-5199/20099,5%2,05 €Propietario
#4GPT-5.1 Chat198/20099,0%0,65 €Propietario
#5GPT-5 Codex198/20099,0%0,89 €Propietario
..................
#33o4 Mini High194/20097,0%1,95 €Propietario
#34Llama 4 Maverick194/20097,0%0,11 €Open Weights

O gap entre o mellor propietario e o mellor open weights é de 5 preguntas e 2,5 puntos porcentuais de precisión. En puntuación neta (con penalización MIR), a diferenza é de 6,67 netas: 198,67 vs. 192,00.

Para un opositor MIR, esa diferenza equivale a ~250 postos no ranking. Para un investigador, é a diferenza entre un sistema que roza a perfección e un que "simplemente" é excelente.


2. O Mapa de Batalla

Propietario
Open Weights

Top modelos do MIR 2026: as 33 primeiras posicións son todas propietarias (morado). O primeiro open weights (verde) aparece no #34.

O gráfico é elocuente. A zona morada (propietarios) domina os postos superiores sen fisuras. O verde (open weights) aparece a partir da posición 34 e densifícase na zona 40-70. A liña vermella marca a fronteira: o "muro dos 33".

Pero a historia non é só branco e negro. Se miramos os números:

  • Top 10: 0 open weights (0%)
  • Top 20: 0 open weights (0%)
  • Top 50: 6 open weights (12%)
  • Top 100: 35 open weights (35%)
  • Total: 175 open weights de 290 modelos (60%)

Os modelos abertos son maioría en volume pero minoría na élite. É coma o atletismo: miles de corredores afeccionados, pero os 33 que baixan de 2:03 en maratón son todos profesionais de alto rendemento cos maiores orzamentos de adestramento.


3. A Ilusión do Open Source: Taxonomía para Non Expertos

Antes de seguir, necesitamos aclarar un malentendido que contamina o debate: a maioría dos modelos "open source" non son open source. Son open weights.

A diferenza importa. Moito.

En outubro de 2024, a Open Source Initiative (OSI) publicou a primeira definición oficial do que significa "open source" aplicado a modelos de IA.[2] Segundo esta definición, un modelo é open source se e só se publica:

  1. Os pesos do modelo (descargables e usables libremente)
  2. O código de adestramento (scripts, configuración, hiperparámetros)
  3. Os datos de adestramento (ou unha descrición suficiente para reproducilos)
  4. Documentación do proceso completo

Propietario

Código pechado, pesos pechados, datos de adestramento non divulgados. Só accesible vía API de pago.

Receita secreta: podes comer no restaurante, pero non sabes os ingredientes nin como se cociña.

Exemplos: GPT-5, Gemini 3, Claude Opus 4.6, Grok 4

Open Weights

Pesos descargables, pero datos de adestramento e código de adestramento non publicados. Podes usar o modelo, non reproducilo.

Danche o prato preparado: podes requentalo e servilo, pero non sabes a receita exacta.

Exemplos: Llama 4, DeepSeek R1, Qwen3, Mistral Large

Open Source (OSI)

Pesos, código, datos e proceso de adestramento publicados. Cumpre a definición OSI v1.0. Totalmente reproducible.

Receita completa publicada: ingredientes, cantidades, temperaturas e tempos. Calquera pode reproducila.

Exemplos: OLMo 2 (AllenAI), Pythia (EleutherAI), BLOOM

Taxonomía de modelos de IA segundo apertura. Baseada na definición OSI v1.0 (Open Source Initiative, outubro 2024).

A analoxía da receita de cociña explícao ben:

  • Propietario = podes comer no restaurante, pero a receita é secreta. Non podes replicar o prato na casa.
  • Open weights = danche o prato preparado. Podes requentalo, servilo, mesmo engadir especias. Pero non coñeces os ingredientes exactos, as cantidades nin os tempos de cocción.
  • Open source OSI = danche a receita completa, con ingredientes, cantidades, temperaturas e tempos. Calquera pode reproducir o prato identicamente.

Cantos modelos do top 100 do noso benchmark cumpren a definición OSI completa? Menos de 5. Os OLMo de AllenAI, algúns modelos de EleutherAI... e pouco máis. Llama 4, DeepSeek R1, Qwen3, Mistral — todos son open weights, non open source. Son catedrais que abriron as portas para que vexas a nave, pero o plano do arquitecto segue baixo chave.

Isto non lles quita mérito. Os open weights son extraordinariamente útiles: permiten execución local, inspección de pesos, fine-tuning, e despregamento sen dependencia de APIs. Pero chamalos "open source" é tecnicamente incorrecto e xera expectativas falsas sobre reproducibilidade.


4. Os Campións do Bazar

Dito isto, os modelos open weights do MIR 2026 son impresionantes. Repasemos as principais familias:

Meta: Llama 4 Maverick (#34)

O campión indiscutible do mundo aberto. 194 acertos (97% de precisión) por 0,11 € o exame completo. É o modelo coa mellor relación calidade-prezo de todo o ranking — aberto ou pechado. Para acadar o seu nivel de precisión no mundo propietario, o máis barato é Grok 4.1 Fast a 0,15 €: un 36% máis caro.

Llama 4 Maverick usa unha arquitectura Mixture of Experts (MoE) con 400B de parámetros totais pero só 17B activos por token. É un xigante eficiente. O seu irmán menor, Llama 4 Scout, logra un 90% a só 0,06 € — probablemente o modelo máis barato do mundo con nivel médico profesional.

DeepSeek

A startup chinesa que sacudiu a industria en xaneiro de 2025 con R1 e o seu enfoque de razoamento. No MIR 2026:

DeepSeek destaca por publicar papers detallados do seu proceso de adestramento — achegándose máis ao espírito do open source que a maioría de competidores.[3]

Qwen (Alibaba)

A familia máis numerosa, con 38 modelos no noso benchmark. O seu mellor resultado:

Qwen3 é a serie MoE de Alibaba, con activación flexible de parámetros e soporte nativo para razoamento (thinking mode).[4]

Mistral

A compañía francesa mantén a tradición con modelos eficientes:

StepFun

A sorpresa: StepFun Step 3.5 Flash (#64) logra 189 acertos (94,5%) cun custo de 0,00 € — literalmente gratis a través de OpenRouter. É un modelo chinés con reasoning tokens que ofrece nivel médico profesional sen custo algún.


5. A Fenda que se Pecha (Pero Non se Pecha de Todo)

Propietario
Open Weights
Open Source (OSI)

Os 290 modelos avaliados no MIR 2026 por data de lanzamento. Cada punto é un modelo; vermello = propietario, azul = open weights, verde = open source (OSI). Os modelos máis recentes tenden a obter mellores netas, pero os propietarios manteñen o bordo superior.

O gráfico mostra os 290 modelos avaliados no MIR 2026 por data de lanzamento. O eixo Y é a nota neta (netas MIR, descontando penalización por erros). As cores distinguen tres categorías: vermello para propietarios, azul para open weights e verde para open source (OSI). A tendencia é clara: os modelos máis recentes obteñen mellores netas, pero os propietarios (vermello) sempre manteñen o bordo superior.

Mellor propietario
Mellor open weights

Evolución do gap entre o mellor modelo propietario e o mellor open weights nas 3 edicións MIR. O gap reduciuse de 12 a 5 preguntas.

Se miramos só os mellores de cada categoría:

EdiciónMellor propietarioMellor open weightsGap
MIR 2024195 (Sonar Deep Research)183 (DeepSeek V3)12
MIR 2025193 (Gemini 3 Flash)188 (Llama 4 Maverick)5
MIR 2026199 (Gemini 3 Flash / o3 / GPT-5)194 (Llama 4 Maverick)5

O gap reduciuse dramaticamente entre 2024 e 2025 (de 12 a 5 preguntas), pero estancouse en 5 entre 2025 e 2026. Os propietarios deron un salto enorme (de 193 a 199), e os abertos tamén (de 188 a 194), pero ambos avanzaron en paralelo.

Pecharase o gap completamente? Posiblemente non pronto. Os tres modelos que acadaron 199/200 (Gemini 3 Flash, o3, GPT-5) foron adestrados con orzamentos de cómputo que ningún proxecto open weights pode igualar actualmente. Cando o teito é 200 preguntas e xa estás en 199, cada pregunta adicional custa exponencialmente máis.


6. O Ecosistema Chinés: DeepSeek, Qwen e a Terceira Vía

Qwen
DeepSeek
Moonshot
Zhipu
ByteDance
StepFun

Modelos chineses no MIR 2026. Qwen (Alibaba), DeepSeek, Moonshot, Zhipu (GLM), ByteDance (Seed) e StepFun compiten con forza no segmento 94-97%.

China merece unha sección á parte. Dos 175 modelos open weights avaliados, unha proporción significativa provén de laboratorios chineses: Alibaba (Qwen), DeepSeek, Zhipu (GLM), ByteDance (Seed), MoonshotAI (Kimi) e StepFun.

O notable non é só a súa cantidade senón a súa diversidade de enfoques:

  • Qwen aposta por modelos MoE masivos con reasoning flexible
  • DeepSeek diferénciase por publicar papers detallados e optimizar o custo de adestramento
  • Zhipu (GLM 4.7) combina open weights con razoamento a un custo competitivo
  • ByteDance (Seed 1.6) entra con forza desde a súa expertise en recomendación
  • StepFun ofrece modelos gratuítos con reasoning — un modelo de negocio que desafía a lóxica do mercado

Este ecosistema representa unha "terceira vía": nin a catedral pechada de Silicon Valley (OpenAI, Anthropic, Google) nin o bazar puro do open source occidental (EleutherAI, AllenAI). É un modelo onde grandes corporacións tecnolóxicas publican pesos como estratexia de plataforma, mantendo os datos e o proceso de adestramento como vantaxe competitiva.


7. Custo vs. Precisión: A Vantaxe Invisible

Propietario
Open Weights

Custo vs. precisión no MIR 2026. Os open weights (verde) dominan a zona inferior-esquerda: alta precisión a baixo custo. Llama 4 Maverick (97%, 0,11 €) é o sweet spot.

Aquí está a historia que os rankings por posición non contan. Se movemos o criterio de "mellor" a "mellor por euro gastado", o panorama cambia radicalmente.

Os open weights dominan a esquina inferior-esquerda do gráfico: alta precisión, baixo custo. Algúns datos:

Para un hospital que necesita procesar miles de consultas diarias, a diferenza entre 0,11 € e 2,05 € por consulta é a diferenza entre un proxecto viable e un prohibitivo. A 1.000 consultas diarias, Llama 4 Maverick custa 110 €/día. GPT-5 custa 2.050 €/día. Nun ano: 40.150 € vs. 748.250 €.

E iso asumindo que uses a API na nube. Se despregas Llama 4 Maverick nos teus propios servidores, o custo marxinal por consulta achégase a cero (só electricidade e amortización de hardware).


8. A Tentación do Fine-Tuning

Aquí é onde moitos proxectos de IA médica tropezan. O razoamento é atractivo:

Se temos os pesos do modelo, podemos afinalo cos nosos datos clínicos e crear un modelo especializado que supere aos xeneralistas.

Soa lóxico. É incorrecto na práctica.

ParámetroTendencia MIR 2026Implicación
Catastrophic ForgettingAlto riscoO modelo perde coñecemento xeral ao especializarse. Pode empeorar en áreas que antes dominaba.
Datos de AdestramentoEscasos e carosOs datos clínicos anotados de calidade son escasos, requiren aprobación ética e teñen nesgos de selección.
Custo de AdestramentoElevadoMesmo o fine-tuning dun modelo de 70B parámetros require GPUs A100/H100 durante horas-días.
MantementoContinuoCada novo modelo base require repetir o fine-tuning. Llama 4 hoxe, Llama 5 mañá — o ciclo nunca remata.
Resultados ReaisDecepcionantesEstudos mostran que RAG supera ao fine-tuning na maioría de tarefas médicas de resposta a preguntas.

Riscos do fine-tuning de modelos de linguaxe para aplicacións médicas

O problema fundamental é que o fine-tuning modifica os pesos do modelo — o seu "coñecemento interno" — cunha cantidade relativamente pequena de datos especializados. Isto xera un equilibrio inestable: se afinas demasiado, o modelo perde xeneralidade (catastrophic forgetting); se afinas pouco, non gañas especialización significativa.


9. RAG e Axentes: A Alternativa que Funciona

A investigación recente apunta noutra dirección: non modificar o modelo, senón orquestralo.

RAG (Retrieval-Augmented Generation) consiste en conectar o modelo a unha base de coñecemento externa. En lugar de "ensinarlle" medicina inxectando datos nos seus pesos, daslle acceso a un sistema de busca que recupera a información relevante en tempo real. O modelo non "sabe" a resposta — atópaa e sintetízaa.

Os axentes médicos van un paso máis alá: orquestran múltiples ferramentas (busca, calculadoras clínicas, bases de datos de fármacos, guías de práctica clínica) para resolver consultas complexas.

RAG vs. Fine-Tuning en tarefas médicas. Datos de: MDPI Bioengineering 2025 (BLEU), PMC systematic review (alucinacións), medRxiv 2025 (axentes).

Os datos son contundentes:

  • BLEU Score: RAG logra 0,41 vs. 0,063 do fine-tuning (6,5x mellor) en tarefas de resposta médica.[5]
  • Alucinacións: RAG reduce as alucinacións a 0% en contextos con datos de referencia, vs. 12,5% do fine-tuning en preguntas médicas fóra de distribución.[6]
  • Axentes médicos: Os sistemas axénticos con RAG acadan unha mediana de precisión do 93% en tarefas clínicas, vs. 57% de modelos sen axencia — unha mellora de +36 puntos porcentuais.[7]

A explicación é intuitiva: en medicina, o coñecemento cambia constantemente. Novas guías clínicas, novos fármacos, novas evidencias. Un modelo fine-tuneado ten o coñecemento "conxelado" nos seus pesos. Un sistema RAG actualiza a súa base de coñecemento en tempo real. É a diferenza entre un libro de texto (que queda obsoleto) e unha biblioteca con subscrición a todas as revistas científicas.


10. O Elefante na Habitación: Privacidade e Soberanía

Hai un argumento a favor dos open weights que ningún benchmark pode capturar: a soberanía tecnolóxica.

Cando un hospital envía datos de pacientes á API de OpenAI ou Google, eses datos saen do control da institución. Dá igual cantas cláusulas teñan os contratos de procesamento de datos — o GDPR (Art. 22) e a HIPAA esixen garantías que unha API na nube non pode ofrecer ao mesmo nivel que un despregamento on-premises.[8]

Con open weights, un hospital pode:

  1. Despregar Llama 4 Maverick nos seus propios servidores — ningún dato sae do edificio
  2. Conectalo vía RAG ás súas guías clínicas internas — personalización sen fine-tuning
  3. Auditalo completamente — inspección de pesos e comportamento
  4. Cumprir coas regulacións europeas — os datos nunca cruzan fronteiras

Isto é especialmente relevante en Europa, onde o AI Act e a regulación de dispositivos médicos (MDR) impoñen requisitos estritos de trazabilidade e control que son máis fáciles de cumprir con despregamentos locais.

Para países coma España, onde o sistema sanitario é público e manexa datos de 47 millóns de persoas, a soberanía tecnolóxica non é un luxo: é unha obriga. Un modelo open weights executado en infraestrutura pública (como os centros de supercomputación do RES) ofrece unha vía máis compatible con esta obriga que unha dependencia permanente de APIs estadounidenses.

Dito isto, existe unha terceira vía que combina o mellor de ambos os mundos: empregar modelos propietarios de alto rendemento en nubes onde o cliente controla a localización do datacenter e ten garantías contractuais de que a información nunca chega ao provedor. Servizos como Amazon Bedrock (que ofrece os modelos de Anthropic, entre outros) permiten despregar Claude nunha rexión europea específica, con cifrado xestionado polo cliente e a garantía de que os datos non se usan para adestrar modelos nin se comparten con terceiros. Para un hospital que necesita a precisión dun modelo propietario top sen renunciar ao control dos seus datos, esta arquitectura ofrece un equilibrio viable entre rendemento e soberanía.


11. MedGemma: A Ponte entre Mundos

En xuño de 2025, Google deu un paso que desdebuxou a fronteira entre catedral e bazar: publicou MedGemma, unha familia de modelos open weights especificamente adestrados para medicina.[9]

MedGemma 27B, baseado en Gemma 3, acada un 87,7% en MedQA (o benchmark médico de referencia en inglés) — un resultado que sería récord mundial apenas 18 meses antes. Google publicouno con pesos descargables, documentación do proceso de adestramento e as ferramentas para fine-tuning adicional.

Por que un xigante propietario publica un modelo médico aberto? A resposta ten varias capas:

  • Lexitimación regulatoria: Ofrecer modelos auditables facilita a aprobación de produtos médicos baseados en IA
  • Estratexia de ecosistema: Se MedGemma se converte no estándar para IA médica, Google captura valor na capa de infraestrutura (TPUs, Vertex AI)
  • Investigación aberta: Os avances médicos aceleranse cando a comunidade pode iterar sobre un modelo base compartido

Non é o único exemplo. Meta publicou guías para uso médico de Llama.[10] Alibaba financiou investigación médica con Qwen. A tendencia é clara: os grandes labs están converxendo cara a un modelo híbrido onde o modelo base é aberto e o valor captúrase na capa de servizos.


12. Conclusións: A Catedral xa Non Está Soa

Tras analizar 290 modelos no MIR 2026, estas son as nosas conclusións:

1. O gap existe pero péchase. Os 33 primeiros postos son propietarios, pero a diferenza entre o mellor pechado (199/200) e o mellor aberto (194/200) é de só 5 preguntas. En 2024 era de 12.

2. A taxonomía importa. A maioría de modelos "open source" son en realidade open weights. Só un puñado cumpre a definición OSI v1.0. Isto ten implicacións prácticas: podes usar un modelo open weights, pero non podes reproducir o seu adestramento.

3. O fine-tuning non é a resposta. Os datos mostran que RAG e os sistemas axénticos superan ao fine-tuning en tarefas médicas: mellor calidade de resposta, cero alucinacións e +36pp de precisión con axentes. A estratexia gañadora é orquestración intelixente, non modificación de pesos.

4. A vantaxe real dos open weights é a soberanía. A capacidade de executar o modelo nos teus propios servidores, sen dependencia de APIs externas, cumprindo co GDPR e regulación sanitaria — iso non ten prezo.

5. O futuro non é catedral vs. bazar. É modelo base aberto + orquestración intelixente + datos propios. Un hospital que desprega Llama 4 Maverick con RAG sobre as súas guías clínicas combina o mellor de ambos os mundos: a potencia dun modelo de 400B parámetros coa personalización dos seus datos, sen fine-tuning e sen enviar información sensible a terceiros.

Eric S. Raymond tiña razón: o bazar eventualmente supera á catedral. Pero en IA médica, o bazar de 2026 non é unha feira caótica de contribucións individuais. É un ecosistema onde Meta, Alibaba, DeepSeek e Google publican catedrais enteiras — e a comunidade ambéntaas, conéctaas e ponnas a traballar.

A catedral xa non está soa. E iso, para a medicina, é unha excelente noticia.


Notas y Referencias

  1. Raymond, E. S. (1999). The Cathedral and the Bazaar: Musings on Linux and Open Source by an Accidental Revolutionary. O'Reilly Media. O ensaio orixinal foi presentado en 1997 e publicado como libro en 1999.
  2. Open Source Initiative (2024). The Open Source AI Definition v1.0. Publicada o 28 de outubro de 2024. opensource.org/ai/open-source-ai-definition
  3. DeepSeek-AI (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948. Un dos papers máis detallados sobre proceso de adestramento dun modelo de razoamento.
  4. Qwen Team (2025). Qwen3 Technical Report. qwenlm.github.io/blog/qwen3. Descrición da arquitectura MoE e o modo thinking.
  5. Soman, S. et al. (2025). Comparative Evaluation of RAG and Fine-Tuning for Medical Question Answering. MDPI Bioengineering, 12(2), 123. RAG logrou BLEU 0.41 vs. 0.063 do fine-tuning en respostas médicas.
  6. Pal, A. et al. (2025). A Systematic Review of Retrieval-Augmented Generation in Medical AI. PMC. RAG eliminou as alucinacións (0%) cando se proporcionaban documentos de referencia contextuais.
  7. Schmidgall, S. et al. (2025). AgentMD: A Systematic Review of AI Agents in Medicine. medRxiv. Os axentes médicos melloraron a precisión nunha mediana de +36 puntos porcentuais sobre modelos sen axencia.
  8. Regulamento Xeral de Protección de Datos (GDPR), Art. 22: Decisións individuais automatizadas. O GDPR establece o dereito a non ser obxecto de decisións baseadas unicamente en tratamento automatizado, con excepcións reguladas.
  9. Google Health AI (2025). MedGemma: Open Models for Medical AI. Xuño 2025. MedGemma 27B acadou 87,7% en MedQA con pesos open weights baseados en Gemma 3.
  10. Meta AI (2025). Llama for Healthcare: Best Practices and Safety Guidelines. Guías oficiais para uso de Llama en aplicacións sanitarias.