MedicalBenchmark
La Catedral i el Basar: Open Source vs Propietari al MIR 2026

La Catedral i el Basar: Open Source vs Propietari al MIR 2026

Les 33 primeres posicions del rànquing MIR 2026 són tots models propietaris. Analitzem el gap entre models oberts i tancats, la taxonomia real de l'open source en IA, i per què RAG supera el fine-tuning per personalitzar IA mèdica.

Equip MedBench9 de febrer del 202618 min de lectura
MIR 2026Open SourceOpen WeightsLlama 4DeepSeekQwenRAG

El 1999, Eric S. Raymond va publicar La Catedral i el Basar, un assaig que va canviar la història del programari.[1] La seva tesi era senzilla: el model de desenvolupament tancat (la catedral, on un grup selecte dissenya en silenci) no pot competir a llarg termini amb el model obert (el basar, on milers de desenvolupadors col·laboren en públic). Linux va demostrar que tenia raó. Apache, Firefox, Android, Kubernetes — el basar va guanyar la guerra del programari.

Vint-i-sis anys després, la intel·ligència artificial lliura la mateixa batalla. Però les dades del MIR 2026 suggereixen que, almenys avui, la catedral porta un avantatge demolidor. I que molts models que s'autoproclamem del "basar" són, en realitat, catedrals amb les portes entreobertes.


1. El Mur dels 33

La dada més cridanera del nostre benchmark amb 290 models avaluats és aquesta: les 33 primeres posicions del rànquing MIR 2026 són tots models propietaris. Ni un sol obert. Ni un.

Pos.ModelEncertsPrecisióCostTipus
#1Gemini 3 Flash199/20099,5%0,34 €Propietari
#2o3199/20099,5%1,94 €Propietari
#3GPT-5199/20099,5%2,05 €Propietari
#4GPT-5.1 Chat198/20099,0%0,65 €Propietari
#5GPT-5 Codex198/20099,0%0,89 €Propietari
..................
#33o4 Mini High194/20097,0%1,95 €Propietari
#34Llama 4 Maverick194/20097,0%0,11 €Open Weights

El gap entre el millor propietari i el millor open weights és de 5 preguntes i 2,5 punts percentuals de precisió. En puntuació neta (amb penalització MIR), la diferència és de 6,67 netes: 198,67 vs. 192,00.

Per a un opositor MIR, aquesta diferència equival a ~250 posicions al rànquing. Per a un investigador, és la diferència entre un sistema que fraga la perfecció i un que "simplement" és excel·lent.


2. El Mapa de Batalla

Propietari
Open Weights

Top models del MIR 2026: les 33 primeres posicions són totes propietàries (morat). El primer open weights (verd) apareix al #34.

El gràfic és eloqüent. La zona morada (propietaris) domina les posicions superiors sense fissures. El verd (open weights) apareix a partir de la posició 34 i es densifica a la zona 40-70. La línia vermella marca la frontera: el "mur dels 33".

Però la història no és només blanc i negre. Si mirem els números:

  • Top 10: 0 open weights (0%)
  • Top 20: 0 open weights (0%)
  • Top 50: 6 open weights (12%)
  • Top 100: 35 open weights (35%)
  • Total: 175 open weights de 290 models (60%)

Els models oberts són majoria en volum però minoria a l'elit. És com l'atletisme: milers de corredors aficionats, però els 33 que baixen de 2:03 en marató són tots professionals d'alt rendiment amb els pressupostos d'entrenament més grans.


3. La Il·lusió de l'Open Source: Taxonomia per a No Experts

Abans de continuar, necessitem aclarir un malentès que contamina el debat: la majoria dels models "open source" no són open source. Són open weights.

La diferència importa. Molt.

L'octubre de 2024, l'Open Source Initiative (OSI) va publicar la primera definició oficial del que significa "open source" aplicat a models d'IA.[2] Segons aquesta definició, un model és open source si i només si publica:

  1. Els pesos del model (descarregables i usables lliurement)
  2. El codi d'entrenament (scripts, configuració, hiperparàmetres)
  3. Les dades d'entrenament (o una descripció suficient per reproduir-les)
  4. Documentació del procés complet

Propietari

Codi tancat, pesos tancats, dades d'entrenament no divulgades. Només accessible via API de pagament.

Recepta secreta: pots menjar al restaurant, però no saps els ingredients ni com es cuina.

Exemples: GPT-5, Gemini 3, Claude Opus 4.6, Grok 4

Open Weights

Pesos descarregables, però dades d'entrenament i codi d'entrenament no publicats. Pots usar el model, no reproduir-lo.

Et donen el plat preparat: pots reescalfar-lo i servir-lo, però no saps la recepta exacta.

Exemples: Llama 4, DeepSeek R1, Qwen3, Mistral Large

Open Source (OSI)

Pesos, codi, dades i procés d'entrenament publicats. Compleix la definició OSI v1.0. Totalment reproduïble.

Recepta completa publicada: ingredients, quantitats, temperatures i temps. Qualsevol pot reproduir-la.

Exemples: OLMo 2 (AllenAI), Pythia (EleutherAI), BLOOM

Taxonomia de models d'IA segons obertura. Basada en la definició OSI v1.0 (Open Source Initiative, octubre 2024).

L'analogia de la recepta de cuina ho explica bé:

  • Propietari = pots menjar al restaurant, però la recepta és secreta. No pots replicar el plat a casa.
  • Open weights = et donen el plat preparat. Pots reescalfar-lo, servir-lo, fins i tot afegir-hi espècies. Però no coneixes els ingredients exactes, les quantitats ni els temps de cocció.
  • Open source OSI = et donen la recepta completa, amb ingredients, quantitats, temperatures i temps. Qualsevol pot reproduir el plat idènticament.

Quants models del top 100 del nostre benchmark compleixen la definició OSI completa? Menys de 5. Els OLMo d'AllenAI, alguns models d'EleutherAI... i poc més. Llama 4, DeepSeek R1, Qwen3, Mistral — tots són open weights, no open source. Són catedrals que han obert les portes perquè vegis la nau, però el plànol de l'arquitecte segueix sota clau.

Això no els treu mèrit. Els open weights són extraordinàriament útils: permeten execució local, inspecció de pesos, fine-tuning, i desplegament sense dependència d'APIs. Però dir-ne "open source" és tècnicament incorrecte i genera expectatives falses sobre reproduïbilitat.


4. Els Campions del Basar

Dit això, els models open weights del MIR 2026 són impressionants. Repassem les principals famílies:

Meta: Llama 4 Maverick (#34)

El campió indiscutible del món obert. 194 encerts (97% de precisió) per 0,11 € l'examen complet. És el model amb la millor relació qualitat-preu de tot el rànquing — obert o tancat. Per assolir el seu nivell de precisió al món propietari, el més barat és Grok 4.1 Fast a 0,15 €: un 36% més car.

Llama 4 Maverick fa servir una arquitectura Mixture of Experts (MoE) amb 400B de paràmetres totals però només 17B actius per token. És un gegant eficient. El seu germà petit, Llama 4 Scout, aconsegueix un 90% a només 0,06 € — probablement el model més barat del món amb nivell mèdic professional.

DeepSeek

La startup xinesa que va sacsejar la indústria el gener de 2025 amb R1 i el seu enfocament de raonament. Al MIR 2026:

DeepSeek destaca per publicar papers detallats del seu procés d'entrenament — acostant-se més a l'esperit de l'open source que la majoria de competidors.[3]

Qwen (Alibaba)

La família més nombrosa, amb 38 models al nostre benchmark. El seu millor resultat:

Qwen3 és la sèrie MoE d'Alibaba, amb activació flexible de paràmetres i suport natiu per a raonament (thinking mode).[4]

Mistral

La companyia francesa manté la tradició amb models eficients:

StepFun

La sorpresa: StepFun Step 3.5 Flash (#64) aconsegueix 189 encerts (94,5%) amb un cost de 0,00 € — literalment gratuït a través d'OpenRouter. És un model xinès amb reasoning tokens que ofereix nivell mèdic professional sense cap cost.


5. La Bretxa que es Tanca (Però No es Tanca del Tot)

Propietari
Open Weights
Open Source (OSI)

Els 290 models avaluats al MIR 2026 per data de llançament. Cada punt és un model; vermell = propietari, blau = open weights, verd = open source (OSI). Els models més recents tendeixen a obtenir millors netes, però els propietaris mantenen el límit superior.

El gràfic mostra els 290 models avaluats al MIR 2026 per data de llançament. L'eix Y és la nota neta (netes MIR, descomptant penalització per errors). Els colors distingeixen tres categories: vermell per a propietaris, blau per a open weights i verd per a open source (OSI). La tendència és clara: els models més recents obtenen millors netes, però els propietaris (vermell) sempre mantenen la vora superior.

Millor propietari
Millor open weights

Evolució del gap entre el millor model propietari i el millor open weights a les 3 edicions MIR. El gap es va reduir de 12 a 5 preguntes.

Si mirem només els millors de cada categoria:

EdicióMillor propietariMillor open weightsGap
MIR 2024195 (Sonar Deep Research)183 (DeepSeek V3)12
MIR 2025193 (Gemini 3 Flash)188 (Llama 4 Maverick)5
MIR 2026199 (Gemini 3 Flash / o3 / GPT-5)194 (Llama 4 Maverick)5

El gap es va reduir dràsticament entre 2024 i 2025 (de 12 a 5 preguntes), però s'ha estancat en 5 entre 2025 i 2026. Els propietaris van fer un salt enorme (de 193 a 199), i els oberts també (de 188 a 194), però tots dos van avançar en paral·lel.

Es tancarà el gap completament? Possiblement no aviat. Els tres models que van assolir 199/200 (Gemini 3 Flash, o3, GPT-5) van ser entrenats amb pressupostos de còmput que cap projecte open weights pot igualar actualment. Quan el sostre és 200 preguntes i ja estàs a 199, cada pregunta addicional costa exponencialment més.


6. L'Ecosistema Xinès: DeepSeek, Qwen i la Tercera Via

Qwen
DeepSeek
Moonshot
Zhipu
ByteDance
StepFun

Models xinesos al MIR 2026. Qwen (Alibaba), DeepSeek, Moonshot, Zhipu (GLM), ByteDance (Seed) i StepFun competeixen amb força al segment 94-97%.

La Xina mereix una secció a part. Dels 175 models open weights avaluats, una proporció significativa prové de laboratoris xinesos: Alibaba (Qwen), DeepSeek, Zhipu (GLM), ByteDance (Seed), MoonshotAI (Kimi) i StepFun.

El que destaca no és només la seva quantitat sinó la seva diversitat d'enfocaments:

  • Qwen aposta per models MoE massius amb reasoning flexible
  • DeepSeek es diferencia per publicar papers detallats i optimitzar el cost d'entrenament
  • Zhipu (GLM 4.7) combina open weights amb raonament a un cost competitiu
  • ByteDance (Seed 1.6) entra amb força des de la seva expertise en recomanació
  • StepFun ofereix models gratuïts amb reasoning — un model de negoci que desafia la lògica del mercat

Aquest ecosistema representa una "tercera via": ni la catedral tancada de Silicon Valley (OpenAI, Anthropic, Google) ni el basar pur de l'open source occidental (EleutherAI, AllenAI). És un model on grans corporacions tecnològiques publiquen pesos com a estratègia de plataforma, mantenint les dades i el procés d'entrenament com a avantatge competitiu.


7. Cost vs. Precisió: L'Avantatge Invisible

Propietari
Open Weights

Cost vs. precisió al MIR 2026. Els open weights (verd) dominen la zona inferior-esquerra: alta precisió a baix cost. Llama 4 Maverick (97%, 0,11 €) és el sweet spot.

Aquí hi ha la història que els rànquings per posició no expliquen. Si movem el criteri de "millor" a "millor per euro gastat", el panorama canvia radicalment.

Els open weights dominen el racó inferior-esquerre del gràfic: alta precisió, baix cost. Algunes dades:

Per a un hospital que necessita processar milers de consultes diàries, la diferència entre 0,11 € i 2,05 € per consulta és la diferència entre un projecte viable i un de prohibitiu. A 1.000 consultes diàries, Llama 4 Maverick costa 110 €/dia. GPT-5 costa 2.050 €/dia. En un any: 40.150 € vs. 748.250 €.

I això assumint que facis servir l'API al núvol. Si desplegueu Llama 4 Maverick als vostres propis servidors, el cost marginal per consulta s'acosta a zero (només electricitat i amortització de maquinari).


8. La Temptació del Fine-Tuning

Aquí és on molts projectes d'IA mèdica ensopeguen. El raonament és atractiu:

Si tenim els pesos del model, podem afinar-lo amb les nostres dades clíniques i crear un model especialitzat que superi els generalistes.

Sona lògic. És incorrecte a la pràctica.

ParámetroTendencia MIR 2026Implicación
Catastrophic ForgettingRisc altEl model perd coneixement general en especialitzar-se. Pot empitjorar en àrees que abans dominava.
Dades d'EntrenamentEscasses i caresLes dades clíniques anotades de qualitat són escasses, requereixen aprovació ètica i tenen biaixos de selecció.
Cost d'EntrenamentElevatFins i tot el fine-tuning d'un model de 70B paràmetres requereix GPUs A100/H100 durant hores-dies.
MantenimentContinuCada nou model base requereix repetir el fine-tuning. Llama 4 avui, Llama 5 demà — el cicle no acaba mai.
Resultats RealsDecebedorsEstudis mostren que RAG supera el fine-tuning en la majoria de tasques mèdiques de resposta a preguntes.

Riscos del fine-tuning de models de llenguatge per a aplicacions mèdiques

El problema fonamental és que el fine-tuning modifica els pesos del model — el seu "coneixement intern" — amb una quantitat relativament petita de dades especialitzades. Això genera un equilibri inestable: si afines massa, el model perd generalitat (catastrophic forgetting); si afines poc, no guanyes especialització significativa.


9. RAG i Agents: L'Alternativa que Funciona

La investigació recent apunta en una altra direcció: no modificar el model, sinó orquestrar-lo.

RAG (Retrieval-Augmented Generation) consisteix a connectar el model a una base de coneixement externa. En lloc d'"ensenyar-li" medicina injectant dades als seus pesos, li dones accés a un sistema de cerca que recupera la informació rellevant en temps real. El model no "sap" la resposta — la troba i sintetitza.

Els agents mèdics van un pas més enllà: orquestren múltiples eines (cerca, calculadores clíniques, bases de dades de fàrmacs, guies de pràctica clínica) per resoldre consultes complexes.

RAG vs. Fine-Tuning en tasques mèdiques. Dades de: MDPI Bioengineering 2025 (BLEU), PMC systematic review (al·lucinacions), medRxiv 2025 (agents).

Les dades són contundents:

  • BLEU Score: RAG aconsegueix 0,41 vs. 0,063 del fine-tuning (6,5x millor) en tasques de resposta mèdica.[5]
  • Al·lucinacions: RAG redueix les al·lucinacions a 0% en contextos amb dades de referència, vs. 12,5% del fine-tuning en preguntes mèdiques fora de distribució.[6]
  • Agents mèdics: Els sistemes agèntics amb RAG assoleixen una mediana de precisió del 93% en tasques clíniques, vs. 57% de models sense agència — una millora de +36 punts percentuals.[7]

L'explicació és intuïtiva: en medicina, el coneixement canvia constantment. Noves guies clíniques, nous fàrmacs, noves evidències. Un model fine-tuneat té el coneixement "congelat" als seus pesos. Un sistema RAG actualitza la seva base de coneixement en temps real. És la diferència entre un llibre de text (que es queda obsolet) i una biblioteca amb subscripció a totes les revistes científiques.


10. L'Elefant a l'Habitació: Privacitat i Sobirania

Hi ha un argument a favor dels open weights que cap benchmark pot capturar: la sobirania tecnològica.

Quan un hospital envia dades de pacients a l'API d'OpenAI o Google, aquestes dades surten del control de la institució. Tant se val quantes clàusules tinguin els contractes de processament de dades — el GDPR (Art. 22) i la HIPAA exigeixen garanties que una API al núvol no pot oferir al mateix nivell que un desplegament on-premises.[8]

Amb open weights, un hospital pot:

  1. Desplegar Llama 4 Maverick als seus propis servidors — cap dada surt de l'edifici
  2. Connectar-lo via RAG a les seves guies clíniques internes — personalització sense fine-tuning
  3. Auditar-lo completament — inspecció de pesos i comportament
  4. Complir amb les regulacions europees — les dades mai creuen fronteres

Això és especialment rellevant a Europa, on l'AI Act i la regulació de dispositius mèdics (MDR) imposen requisits estrictes de traçabilitat i control que són més fàcils de complir amb desplegaments locals.

Per a països com Espanya, on el sistema sanitari és públic i gestiona dades de 47 milions de persones, la sobirania tecnològica no és un luxe: és una obligació. Un model open weights executat en infraestructura pública (com els centres de supercomputació del RES) ofereix una via més compatible amb aquesta obligació que una dependència permanent d'APIs estatunidenques.

Dit això, existeix una tercera via que combina el millor dels dos mons: emprar models propietaris d'alt rendiment en núvols on el client controla la localització del datacenter i té garanties contractuals que la informació mai arriba al proveïdor. Serveis com Amazon Bedrock (que ofereix els models d'Anthropic, entre d'altres) permeten desplegar Claude en una regió europea específica, amb xifrat gestionat pel client i la garantia que les dades no es fan servir per entrenar models ni es comparteixen amb tercers. Per a un hospital que necessita la precisió d'un model propietari top sense renunciar al control de les seves dades, aquesta arquitectura ofereix un equilibri viable entre rendiment i sobirania.


11. MedGemma: El Pont entre Mons

El juny de 2025, Google va fer un pas que difumina la frontera entre catedral i basar: va publicar MedGemma, una família de models open weights específicament entrenats per a medicina.[9]

MedGemma 27B, basat en Gemma 3, assoleix un 87,7% a MedQA (el benchmark mèdic de referència en anglès) — un resultat que hauria estat rècord mundial fa només 18 mesos. Google el va publicar amb pesos descarregables, documentació del procés d'entrenament i les eines per a fine-tuning addicional.

Per què un gegant propietari publica un model mèdic obert? La resposta té diverses capes:

  • Legitimació regulatòria: Oferir models auditables facilita l'aprovació de productes mèdics basats en IA
  • Estratègia d'ecosistema: Si MedGemma es converteix en l'estàndard per a IA mèdica, Google captura valor a la capa d'infraestructura (TPUs, Vertex AI)
  • Investigació oberta: Els avenços mèdics s'acceleren quan la comunitat pot iterar sobre un model base compartit

No és l'únic exemple. Meta ha publicat guies per a ús mèdic de Llama.[10] Alibaba ha finançat investigació mèdica amb Qwen. La tendència és clara: els grans labs estan convergint cap a un model híbrid on el model base és obert i el valor es captura a la capa de serveis.


12. Conclusions: La Catedral ja No Està Sola

Després d'analitzar 290 models al MIR 2026, aquestes són les nostres conclusions:

1. El gap existeix però es tanca. Les 33 primeres posicions són propietaris, però la diferència entre el millor tancat (199/200) i el millor obert (194/200) és de només 5 preguntes. El 2024 era de 12.

2. La taxonomia importa. La majoria de models "open source" són en realitat open weights. Només un grapat compleix la definició OSI v1.0. Això té implicacions pràctiques: pots fer servir un model open weights, però no pots reproduir el seu entrenament.

3. El fine-tuning no és la resposta. Les dades mostren que RAG i els sistemes agèntics superen el fine-tuning en tasques mèdiques: millor qualitat de resposta, zero al·lucinacions i +36pp de precisió amb agents. L'estratègia guanyadora és orquestració intel·ligent, no modificació de pesos.

4. L'avantatge real dels open weights és la sobirania. La capacitat d'executar el model als teus propis servidors, sense dependència d'APIs externes, complint amb el GDPR i la regulació sanitària — això no té preu.

5. El futur no és catedral vs. basar. És model base obert + orquestració intel·ligent + dades pròpies. Un hospital que desplega Llama 4 Maverick amb RAG sobre les seves guies clíniques combina el millor dels dos mons: la potència d'un model de 400B paràmetres amb la personalització de les seves dades, sense fine-tuning i sense enviar informació sensible a tercers.

Eric S. Raymond tenia raó: el basar eventualment supera la catedral. Però en IA mèdica, el basar de 2026 no és una fira caòtica de contribucions individuals. És un ecosistema on Meta, Alibaba, DeepSeek i Google publiquen catedrals senceres — i la comunitat les ambienta, les connecta i les posa a treballar.

La catedral ja no està sola. I això, per a la medicina, és una excel·lent notícia.


Notas y Referencias

  1. Raymond, E. S. (1999). The Cathedral and the Bazaar: Musings on Linux and Open Source by an Accidental Revolutionary. O'Reilly Media. L'assaig original va ser presentat el 1997 i publicat com a llibre el 1999.
  2. Open Source Initiative (2024). The Open Source AI Definition v1.0. Publicada el 28 d'octubre de 2024. opensource.org/ai/open-source-ai-definition
  3. DeepSeek-AI (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948. Un dels papers més detallats sobre el procés d'entrenament d'un model de raonament.
  4. Qwen Team (2025). Qwen3 Technical Report. qwenlm.github.io/blog/qwen3. Descripció de l'arquitectura MoE i el mode thinking.
  5. Soman, S. et al. (2025). Comparative Evaluation of RAG and Fine-Tuning for Medical Question Answering. MDPI Bioengineering, 12(2), 123. RAG va aconseguir BLEU 0.41 vs. 0.063 del fine-tuning en respostes mèdiques.
  6. Pal, A. et al. (2025). A Systematic Review of Retrieval-Augmented Generation in Medical AI. PMC. RAG va eliminar les al·lucinacions (0%) quan es proporcionaven documents de referència contextuals.
  7. Schmidgall, S. et al. (2025). AgentMD: A Systematic Review of AI Agents in Medicine. medRxiv. Els agents mèdics van millorar la precisió en una mediana de +36 punts percentuals sobre models sense agència.
  8. Reglament General de Protecció de Dades (GDPR), Art. 22: Decisions individuals automatitzades. El GDPR estableix el dret a no ser objecte de decisions basades únicament en tractament automatitzat, amb excepcions regulades.
  9. Google Health AI (2025). MedGemma: Open Models for Medical AI. Juny 2025. MedGemma 27B va assolir 87,7% a MedQA amb pesos open weights basats en Gemma 3.
  10. Meta AI (2025). Llama for Healthcare: Best Practices and Safety Guidelines. Guies oficials per a l'ús de Llama en aplicacions sanitàries.