MedicalBenchmark
La Catedral i el Bazar: Open Source vs Propietari en el MIR 2026

La Catedral i el Bazar: Open Source vs Propietari en el MIR 2026

Els 33 primers llocs del rànquing MIR 2026 són tots models propietaris. Analitzem el gap entre models oberts i tancats, la taxonomia real de l'open source en IA, i per què RAG supera el fine-tuning per a personalitzar IA mèdica.

Equip MedBenchFebruary 9, 202618 min de lectura
MIR 2026Open SourceOpen WeightsLlama 4DeepSeekQwenRAG

En 1999, Eric S. Raymond va publicar La Catedral i el Bazar, un assaig que va canviar la història del programari.[1] La seua tesi era senzilla: el model de desenvolupament tancat (la catedral, on un grup selecte dissenya en silenci) no pot competir a llarg termini amb el model obert (el bazar, on milers de desenvolupadors col·laboren en públic). Linux va demostrar que tenia raó. Apache, Firefox, Android, Kubernetes — el bazar va guanyar la guerra del programari.

Vint-i-sis anys després, la intel·ligència artificial lliura la mateixa batalla. Però les dades del MIR 2026 suggerixen que, almenys hui, la catedral porta un avantatge demolidor. I que molts models que es proclamen del "bazar" són, en realitat, catedrals amb les portes entreobertes.


1. El Mur dels 33

La dada més cridanera del nostre benchmark amb 290 models avaluats és esta: els 33 primers llocs del rànquing MIR 2026 són tots models propietaris. Ni un sol obert. Ni un.

Pos.ModelEncertsPrecisióCostTipus
#1Gemini 3 Flash199/20099,5%0,34 €Propietari
#2o3199/20099,5%1,94 €Propietari
#3GPT-5199/20099,5%2,05 €Propietari
#4GPT-5.1 Chat198/20099,0%0,65 €Propietari
#5GPT-5 Codex198/20099,0%0,89 €Propietari
..................
#33o4 Mini High194/20097,0%1,95 €Propietari
#34Llama 4 Maverick194/20097,0%0,11 €Open Weights

El gap entre el millor propietari i el millor open weights és de 5 preguntes i 2,5 punts percentuals de precisió. En puntuació neta (amb penalització MIR), la diferència és de 6,67 netes: 198,67 vs. 192,00.

Per a un opositor MIR, eixa diferència equival a ~250 llocs en el rànquing. Per a un investigador, és la diferència entre un sistema que frisa la perfecció i un que "simplement" és excel·lent.


2. El Mapa de Batalla

Propietari
Open Weights

Top models del MIR 2026: les 33 primeres posicions són totes propietàries (morat). El primer open weights (verd) apareix en el #34.

El gràfic és eloqüent. La zona morada (propietaris) domina els llocs superiors sense fissures. El verd (open weights) apareix a partir de la posició 34 i es densifica en la zona 40-70. La línia roja marca la frontera: el "mur dels 33".

Però la història no és només blanc i negre. Si mirem els números:

  • Top 10: 0 open weights (0%)
  • Top 20: 0 open weights (0%)
  • Top 50: 6 open weights (12%)
  • Top 100: 35 open weights (35%)
  • Total: 175 open weights de 290 models (60%)

Els models oberts són majoria en volum però minoria en l'elit. És com l'atletisme: milers de corredors aficionats, però els 33 que baixen de 2:03 en marató són tots professionals d'alt rendiment amb els majors pressupostos d'entrenament.


3. La Il·lusió de l'Open Source: Taxonomia per a No Experts

Abans de continuar, necessitem aclarir un malentès que contamina el debat: la majoria dels models "open source" no són open source. Són open weights.

La diferència importa. Molt.

En octubre de 2024, l'Open Source Initiative (OSI) va publicar la primera definició oficial del que significa "open source" aplicat a models d'IA.[2] Segons esta definició, un model és open source si i només si publica:

  1. Els pesos del model (descarregables i usables lliurement)
  2. El codi d'entrenament (scripts, configuració, hiperparàmetres)
  3. Les dades d'entrenament (o una descripció suficient per a reproduir-les)
  4. Documentació del procés complet

Propietari

Codi tancat, pesos tancats, dades d'entrenament no divulgades. Només accessible via API de pagament.

Recepta secreta: pots menjar al restaurant, però no saps els ingredients ni com es cuina.

Exemples: GPT-5, Gemini 3, Claude Opus 4.6, Grok 4

Open Weights

Pesos descarregables, però dades d'entrenament i codi d'entrenament no publicats. Pots usar el model, no reproduir-lo.

Et donen el plat preparat: pots reescalfar-lo i servir-lo, però no saps la recepta exacta.

Exemples: Llama 4, DeepSeek R1, Qwen3, Mistral Large

Open Source (OSI)

Pesos, codi, dades i procés d'entrenament publicats. Compleix la definició OSI v1.0. Totalment reproduïble.

Recepta completa publicada: ingredients, quantitats, temperatures i temps. Qualsevol pot reproduir-la.

Exemples: OLMo 2 (AllenAI), Pythia (EleutherAI), BLOOM

Taxonomia de models d'IA segons obertura. Basada en la definició OSI v1.0 (Open Source Initiative, octubre 2024).

L'analogia de la recepta de cuina ho explica bé:

  • Propietari = pots menjar al restaurant, però la recepta és secreta. No pots replicar el plat a casa.
  • Open weights = et donen el plat preparat. Pots recalfar-lo, servir-lo, fins i tot afegir espècies. Però no coneixes els ingredients exactes, les quantitats ni els temps de cocció.
  • Open source OSI = et donen la recepta completa, amb ingredients, quantitats, temperatures i temps. Qualsevol pot reproduir el plat idènticament.

Quants models del top 100 del nostre benchmark complixen la definició OSI completa? Menys de 5. Els OLMo d'AllenAI, alguns models d'EleutherAI... i poc més. Llama 4, DeepSeek R1, Qwen3, Mistral — tots són open weights, no open source. Són catedrals que han obert les portes perquè veges la nau, però el plànol de l'arquitecte continua sota clau.

Açò no els lleva mèrit. Els open weights són extraordinàriament útils: permeten execució local, inspecció de pesos, fine-tuning, i desplegament sense dependència d'APIs. Però dir-los "open source" és tècnicament incorrecte i genera expectatives falses sobre reproduïbilitat.


4. Els Campions del Bazar

Dit açò, els models open weights del MIR 2026 són impressionants. Repassem les principals famílies:

Meta: Llama 4 Maverick (#34)

El campió indiscutible del món obert. 194 encerts (97% de precisió) per 0,11 € l'examen complet. És el model amb la millor relació qualitat-preu de tot el rànquing — obert o tancat. Per a aconseguir el seu nivell de precisió en el món propietari, el més barat és Grok 4.1 Fast a 0,15 €: un 36% més car.

Llama 4 Maverick usa una arquitectura Mixture of Experts (MoE) amb 400B de paràmetres totals però només 17B actius per token. És un gegant eficient. El seu germà menor, Llama 4 Scout, aconseguix un 90% a només 0,06 € — probablement el model més barat del món amb nivell mèdic professional.

DeepSeek

La startup xinesa que va sacsejar la indústria al gener de 2025 amb R1 i el seu enfocament de raonament. En el MIR 2026:

DeepSeek destaca per publicar papers detallats del seu procés d'entrenament — acostant-se més a l'esperit de l'open source que la majoria de competidors.[3]

Qwen (Alibaba)

La família més nombrosa, amb 38 models en el nostre benchmark. El seu millor resultat:

Qwen3 és la sèrie MoE d'Alibaba, amb activació flexible de paràmetres i suport natiu per a raonament (thinking mode).[4]

Mistral

La companyia francesa manté la tradició amb models eficients:

StepFun

La sorpresa: StepFun Step 3.5 Flash (#64) aconseguix 189 encerts (94,5%) amb un cost de 0,00 € — literalment gratis a través d'OpenRouter. És un model xinés amb reasoning tokens que oferix nivell mèdic professional sense cap cost.


5. La Bretxa que es Tanca (Però No es Tanca del Tot)

Propietari
Open Weights
Open Source (OSI)

Els 290 models avaluats en el MIR 2026 per data de llançament. Cada punt és un model; roig = propietari, blau = open weights, verd = open source (OSI). Els models més recents tendixen a obtindre millors netes, però els propietaris mantenen el límit superior.

El gràfic mostra els 290 models avaluats en el MIR 2026 per data de llançament. L'eix Y és la nota neta (netes MIR, descomptant penalització per errors). Els colors distingixen tres categories: roig per a propietaris, blau per a open weights i verd per a open source (OSI). La tendència és clara: els models més recents obtenen millors netes, però els propietaris (roig) sempre mantenen el marge superior.

Millor propietari
Millor open weights

Evolució del gap entre el millor model propietari i el millor open weights en les 3 edicions MIR. El gap es va reduir de 12 a 5 preguntes.

Si mirem només els millors de cada categoria:

EdicióMillor propietariMillor open weightsGap
MIR 2024195 (Sonar Deep Research)183 (DeepSeek V3)12
MIR 2025193 (Gemini 3 Flash)188 (Llama 4 Maverick)5
MIR 2026199 (Gemini 3 Flash / o3 / GPT-5)194 (Llama 4 Maverick)5

El gap es va reduir dràsticament entre 2024 i 2025 (de 12 a 5 preguntes), però s'ha estancat en 5 entre 2025 i 2026. Els propietaris van fer un salt enorme (de 193 a 199), i els oberts també (de 188 a 194), però ambdós van avançar en paral·lel.

Es tancarà el gap completament? Possiblement no prompte. Els tres models que van aconseguir 199/200 (Gemini 3 Flash, o3, GPT-5) van ser entrenats amb pressupostos de còmput que cap projecte open weights pot igualar actualment. Quan el sostre és 200 preguntes i ja estàs en 199, cada pregunta addicional costa exponencialment més.


6. L'Ecosistema Xinés: DeepSeek, Qwen i la Tercera Via

Qwen
DeepSeek
Moonshot
Zhipu
ByteDance
StepFun

Models xinesos en el MIR 2026. Qwen (Alibaba), DeepSeek, Moonshot, Zhipu (GLM), ByteDance (Seed) i StepFun competixen amb força en el segment 94-97%.

Xina mereix una secció a part. Dels 175 models open weights avaluats, una proporció significativa prové de laboratoris xinesos: Alibaba (Qwen), DeepSeek, Zhipu (GLM), ByteDance (Seed), MoonshotAI (Kimi) i StepFun.

El notable no és només la seua quantitat sinó la seua diversitat d'enfocaments:

  • Qwen aposta per models MoE massius amb reasoning flexible
  • DeepSeek es diferencia per publicar papers detallats i optimitzar el cost d'entrenament
  • Zhipu (GLM 4.7) combina open weights amb raonament a un cost competitiu
  • ByteDance (Seed 1.6) entra amb força des de la seua expertise en recomanació
  • StepFun oferix models gratuïts amb reasoning — un model de negoci que desafia la lògica del mercat

Este ecosistema representa una "tercera via": ni la catedral tancada de Silicon Valley (OpenAI, Anthropic, Google) ni el bazar pur de l'open source occidental (EleutherAI, AllenAI). És un model on grans corporacions tecnològiques publiquen pesos com a estratègia de plataforma, mantenint les dades i el procés d'entrenament com a avantatge competitiu.


7. Cost vs. Precisió: L'Avantatge Invisible

Propietari
Open Weights

Cost vs. precisió en el MIR 2026. Els open weights (verd) dominen la zona inferior-esquerra: alta precisió a baix cost. Llama 4 Maverick (97%, 0,11 €) és el sweet spot.

Ací està la història que els rànquings per posició no conten. Si movem el criteri de "millor" a "millor per euro gastat", el panorama canvia radicalment.

Els open weights dominen la cantonada inferior-esquerra del gràfic: alta precisió, baix cost. Algunes dades:

Per a un hospital que necessita processar milers de consultes diàries, la diferència entre 0,11 € i 2,05 € per consulta és la diferència entre un projecte viable i un de prohibitiu. A 1.000 consultes diàries, Llama 4 Maverick costa 110 €/dia. GPT-5 costa 2.050 €/dia. En un any: 40.150 € vs. 748.250 €.

I açò assumint que uses l'API en el núvol. Si desplegues Llama 4 Maverick en els teus propis servidors, el cost marginal per consulta s'acosta a zero (només electricitat i amortització de maquinari).


8. La Temptació del Fine-Tuning

Ací és on molts projectes d'IA mèdica ensopeguen. El raonament és atractiu:

Si tenim els pesos del model, podem afinar-lo amb les nostres dades clíniques i crear un model especialitzat que supere els generalistes.

Sona lògic. És incorrecte en la pràctica.

ParámetroTendencia MIR 2026Implicación
Catastrophic ForgettingAlt riscEl model perd coneixement general en especialitzar-se. Pot empitjorar en àrees que abans dominava.
Dades d'EntrenamentEscasses i caresLes dades clíniques anotades de qualitat són escasses, requerixen aprovació ètica i tenen biaixos de selecció.
Cost d'EntrenamentElevatFins i tot el fine-tuning d'un model de 70B paràmetres requerix GPUs A100/H100 durant hores-dies.
MantenimentContinuCada nou model base requerix repetir el fine-tuning. Llama 4 hui, Llama 5 demà — el cicle mai acaba.
Resultats RealsDecebedorsEstudis mostren que RAG supera el fine-tuning en la majoria de tasques mèdiques de resposta a preguntes.

Riscos del fine-tuning de models de llenguatge per a aplicacions mèdiques

El problema fonamental és que el fine-tuning modifica els pesos del model — el seu "coneixement intern" — amb una quantitat relativament xicoteta de dades especialitzades. Açò genera un equilibri inestable: si afines massa, el model perd generalitat (catastrophic forgetting); si afines poc, no guanyes especialització significativa.


9. RAG i Agents: L'Alternativa que Funciona

La investigació recent apunta en una altra direcció: no modificar el model, sinó orquestrar-lo.

RAG (Retrieval-Augmented Generation) consistix a connectar el model a una base de coneixement externa. En lloc d'"ensenyar-li" medicina injectant dades en els seus pesos, li dones accés a un sistema de busca que recupera la informació rellevant en temps real. El model no "sap" la resposta — la troba i sintetitza.

Els agents mèdics van un pas més enllà: orquestren múltiples ferramentes (busca, calculadores clíniques, bases de dades de fàrmacs, guies de pràctica clínica) per a resoldre consultes complexes.

RAG vs. Fine-Tuning en tasques mèdiques. Dades de: MDPI Bioengineering 2025 (BLEU), PMC systematic review (al·lucinacions), medRxiv 2025 (agents).

Les dades són contundents:

  • BLEU Score: RAG aconseguix 0,41 vs. 0,063 del fine-tuning (6,5x millor) en tasques de resposta mèdica.[5]
  • Al·lucinacions: RAG reduïx les al·lucinacions al 0% en contextos amb dades de referència, vs. 12,5% del fine-tuning en preguntes mèdiques fora de distribució.[6]
  • Agents mèdics: Els sistemes agèntics amb RAG aconseguixen una mediana de precisió del 93% en tasques clíniques, vs. 57% de models sense agència — una millora de +36 punts percentuals.[7]

L'explicació és intuïtiva: en medicina, el coneixement canvia constantment. Noves guies clíniques, nous fàrmacs, noves evidències. Un model fine-tunejat té el coneixement "congelat" en els seus pesos. Un sistema RAG actualitza la seua base de coneixement en temps real. És la diferència entre un llibre de text (que es queda obsolet) i una biblioteca amb subscripció a totes les revistes científiques.


10. L'Elefant en l'Habitació: Privacitat i Sobirania

Hi ha un argument a favor dels open weights que cap benchmark pot capturar: la sobirania tecnològica.

Quan un hospital envia dades de pacients a l'API d'OpenAI o Google, eixes dades ixen del control de la institució. Tant se val quantes clàusules tinguen els contractes de processament de dades — el GDPR (Art. 22) i la HIPAA exigixen garanties que una API en el núvol no pot oferir al mateix nivell que un desplegament on-premises.[8]

Amb open weights, un hospital pot:

  1. Desplegar Llama 4 Maverick en els seus propis servidors — cap dada ix de l'edifici
  2. Connectar-lo via RAG a les seues guies clíniques internes — personalització sense fine-tuning
  3. Auditar-lo completament — inspecció de pesos i comportament
  4. Complir amb regulacions europees — les dades mai creuen fronteres

Açò és especialment rellevant a Europa, on l'AI Act i la regulació de dispositius mèdics (MDR) imposen requisits estrictes de traçabilitat i control que són més fàcils de complir amb desplegaments locals.

Per a països com Espanya, on el sistema sanitari és públic i gestiona dades de 47 milions de persones, la sobirania tecnològica no és un luxe: és una obligació. Un model open weights executat en infraestructura pública (com els centres de supercomputació del RES) oferix una via més compatible amb esta obligació que una dependència permanent d'APIs nord-americanes.

Dit açò, existix una tercera via que combina el millor dels dos mons: emprar models propietaris d'alt rendiment en núvols on el client controla la localització del datacenter i té garanties contractuals que la informació mai arriba al proveïdor. Servicis com Amazon Bedrock (que oferix els models d'Anthropic, entre altres) permeten desplegar Claude en una regió europea específica, amb xifrat gestionat pel client i la garantia que les dades no s'usen per a entrenar models ni es compartixen amb tercers. Per a un hospital que necessita la precisió d'un model propietari top sense renunciar al control de les seues dades, esta arquitectura oferix un equilibri viable entre rendiment i sobirania.


11. MedGemma: El Pont entre Mons

Al juny de 2025, Google va fer un pas que difumina la frontera entre catedral i bazar: va publicar MedGemma, una família de models open weights específicament entrenats per a medicina.[9]

MedGemma 27B, basat en Gemma 3, aconseguix un 87,7% en MedQA (el benchmark mèdic de referència en anglés) — un resultat que hauria sigut rècord mundial penes 18 mesos abans. Google el va publicar amb pesos descarregables, documentació del procés d'entrenament i les ferramentes per a fine-tuning addicional.

Per què un gegant propietari publica un model mèdic obert? La resposta té diverses capes:

  • Legitimació regulatòria: Oferir models auditables facilita l'aprovació de productes mèdics basats en IA
  • Estratègia d'ecosistema: Si MedGemma es convertix en l'estàndard per a IA mèdica, Google captura valor en la capa d'infraestructura (TPUs, Vertex AI)
  • Investigació oberta: Els avanços mèdics s'acceleren quan la comunitat pot iterar sobre un model base compartit

No és l'únic exemple. Meta ha publicat guies per a ús mèdic de Llama.[10] Alibaba ha finançat investigació mèdica amb Qwen. La tendència és clara: els grans labs estan convergint cap a un model híbrid on el model base és obert i el valor es captura en la capa de servicis.


12. Conclusions: La Catedral ja No Està Sola

Després d'analitzar 290 models en el MIR 2026, estes són les nostres conclusions:

1. El gap existix però es tanca. Els 33 primers llocs són propietaris, però la diferència entre el millor tancat (199/200) i el millor obert (194/200) és de només 5 preguntes. En 2024 era de 12.

2. La taxonomia importa. La majoria de models "open source" són en realitat open weights. Només un grapat complix la definició OSI v1.0. Açò té implicacions pràctiques: pots usar un model open weights, però no pots reproduir el seu entrenament.

3. El fine-tuning no és la resposta. Les dades mostren que RAG i els sistemes agèntics superen el fine-tuning en tasques mèdiques: millor qualitat de resposta, zero al·lucinacions i +36pp de precisió amb agents. L'estratègia guanyadora és orquestració intel·ligent, no modificació de pesos.

4. L'avantatge real dels open weights és la sobirania. La capacitat d'executar el model en els teus propis servidors, sense dependència d'APIs externes, complint amb GDPR i regulació sanitària — açò no té preu.

5. El futur no és catedral vs. bazar. És model base obert + orquestració intel·ligent + dades pròpies. Un hospital que desplega Llama 4 Maverick amb RAG sobre les seues guies clíniques combina el millor dels dos mons: la potència d'un model de 400B paràmetres amb la personalització de les seues dades, sense fine-tuning i sense enviar informació sensible a tercers.

Eric S. Raymond tenia raó: el bazar eventualment supera la catedral. Però en IA mèdica, el bazar de 2026 no és una fira caòtica de contribucions individuals. És un ecosistema on Meta, Alibaba, DeepSeek i Google publiquen catedrals senceres — i la comunitat les ambienta, les connecta i les posa a treballar.

La catedral ja no està sola. I açò, per a la medicina, és una excel·lent notícia.


Notas y Referencias

  1. Raymond, E. S. (1999). The Cathedral and the Bazaar: Musings on Linux and Open Source by an Accidental Revolutionary. O'Reilly Media. L'assaig original va ser presentat en 1997 i publicat com a llibre en 1999.
  2. Open Source Initiative (2024). The Open Source AI Definition v1.0. Publicada el 28 d'octubre de 2024. opensource.org/ai/open-source-ai-definition
  3. DeepSeek-AI (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948. Un dels papers més detallats sobre el procés d'entrenament d'un model de raonament.
  4. Qwen Team (2025). Qwen3 Technical Report. qwenlm.github.io/blog/qwen3. Descripció de l'arquitectura MoE i el mode thinking.
  5. Soman, S. et al. (2025). Comparative Evaluation of RAG and Fine-Tuning for Medical Question Answering. MDPI Bioengineering, 12(2), 123. RAG va aconseguir BLEU 0.41 vs. 0.063 del fine-tuning en respostes mèdiques.
  6. Pal, A. et al. (2025). A Systematic Review of Retrieval-Augmented Generation in Medical AI. PMC. RAG va eliminar les al·lucinacions (0%) quan es proporcionaven documents de referència contextuals.
  7. Schmidgall, S. et al. (2025). AgentMD: A Systematic Review of AI Agents in Medicine. medRxiv. Els agents mèdics van millorar la precisió en una mediana de +36 punts percentuals sobre models sense agència.
  8. Reglament General de Protecció de Dades (GDPR), Art. 22: Decisions individuals automatitzades. El GDPR establix el dret a no ser objecte de decisions basades únicament en tractament automatitzat, amb excepcions regulades.
  9. Google Health AI (2025). MedGemma: Open Models for Medical AI. Juny 2025. MedGemma 27B va aconseguir 87,7% en MedQA amb pesos open weights basats en Gemma 3.
  10. Meta AI (2025). Llama for Healthcare: Best Practices and Safety Guidelines. Guies oficials per a ús de Llama en aplicacions sanitàries.