MedicalBenchmark
Sa Catedral i es Bazar: Open Source vs Propietari en es MIR 2026

Sa Catedral i es Bazar: Open Source vs Propietari en es MIR 2026

Ses 33 primeres posicions des rànquing MIR 2026 són totes models propietaris. Analitzam es gap entre models oberts i tancats, sa taxonomia real de s'open source en IA, i per què RAG supera es fine-tuning per personalitzar IA mèdica.

Equip MedBenchFebruary 9, 202618 min de lectura
MIR 2026Open SourceOpen WeightsLlama 4DeepSeekQwenRAG

En 1999, Eric S. Raymond publicà Sa Catedral i es Bazar, un assaig que canvià sa història des programari.[1] Sa seva tesi era senzilla: es model de desenvolupament tancat (sa catedral, on un grup selecte dissenya en silenci) no pot competir a llarg termini amb es model obert (es bazar, on milers de desenvolupadors col·laboren en públic). Linux demostrà que tenia raó. Apache, Firefox, Android, Kubernetes — es bazar guanyà sa guerra des programari.

Vint-i-sis anys després, sa intel·ligència artificial lliura sa mateixa batalla. Però ses dades des MIR 2026 suggereixen que, almanco avui, sa catedral du un avantatge demolidor. I que molts de models que s'autoproclamen des "bazar" són, en realitat, catedrals amb ses portes entreobertes.


1. Es Mur des 33

Sa dada més cridanera des nostro benchmark amb 290 models avaluats és aquesta: ses 33 primeres posicions des rànquing MIR 2026 són totes models propietaris. Ni un sol obert. Ni un.

Pos.ModelEncertsPrecisióCostTipus
#1Gemini 3 Flash199/20099,5%0,34 €Propietari
#2o3199/20099,5%1,94 €Propietari
#3GPT-5199/20099,5%2,05 €Propietari
#4GPT-5.1 Chat198/20099,0%0,65 €Propietari
#5GPT-5 Codex198/20099,0%0,89 €Propietari
..................
#33o4 Mini High194/20097,0%1,95 €Propietari
#34Llama 4 Maverick194/20097,0%0,11 €Open Weights

Es gap entre es millor propietari i es millor open weights és de 5 preguntes i 2,5 punts percentuals de precisió. En puntuació neta (amb penalització MIR), sa diferència és de 6,67 netes: 198,67 vs. 192,00.

Per a un opositor MIR, aquesta diferència equival a ~250 llocs en es rànquing. Per a un investigador, és sa diferència entre un sistema que frega sa perfecció i un que "simplement" és excel·lent.


2. Es Mapa de Batalla

Propietari
Open Weights

Top models des MIR 2026: ses 33 primeres posicions són totes propietàries (morat). Es primer open weights (verd) apareix en es #34.

Es gràfic és eloqüent. Sa zona morada (propietaris) domina ses posicions superiors sense fissures. Es verd (open weights) apareix a partir de sa posició 34 i es densifica en sa zona 40-70. Sa línia vermella marca sa frontera: es "mur des 33".

Però sa història no és només blanc i negre. Si miram es números:

  • Top 10: 0 open weights (0%)
  • Top 20: 0 open weights (0%)
  • Top 50: 6 open weights (12%)
  • Top 100: 35 open weights (35%)
  • Total: 175 open weights de 290 models (60%)

Ets models oberts són majoria en volum però minoria dins s'elit. És com s'atletisme: milers de corredors aficionats, però es 33 que baixen de 2:03 en marató són tots professionals d'alt rendiment amb es majors pressuposts d'entrenament.


3. Sa Il·lusió de s'Open Source: Taxonomia per a No Experts

Abans de seguir, necessitam aclarir un malentès que contamina es debat: sa majoria des models "open source" no són open source. Són open weights.

Sa diferència importa. Molt.

A s'octubre de 2024, s'Open Source Initiative (OSI) publicà sa primera definició oficial des que significa "open source" aplicat a models d'IA.[2] Segons aquesta definició, un model és open source si i només si publica:

  1. Es pesos des model (descarregables i usables lliurement)
  2. Es codi d'entrenament (scripts, configuració, hiperparàmetres)
  3. Ses dades d'entrenament (o una descripció suficient per reproduir-les)
  4. Documentació des procés complet

Propietari

Codi tancat, pesos tancats, dades d'entrenament no divulgades. Només accessible via API de pagament.

Recepta secreta: pots menjar an es restaurant, però no saps es ingredients ni com es cuina.

Exemples: GPT-5, Gemini 3, Claude Opus 4.6, Grok 4

Open Weights

Pesos descarregables, però dades d'entrenament i codi d'entrenament no publicats. Pots usar es model, no reproduir-lo.

Et donen es plat preparat: pots reescalfar-lo i servir-lo, però no saps sa recepta exacta.

Exemples: Llama 4, DeepSeek R1, Qwen3, Mistral Large

Open Source (OSI)

Pesos, codi, dades i procés d'entrenament publicats. Compleix sa definició OSI v1.0. Totalment reproduïble.

Recepta completa publicada: ingredients, quantitats, temperatures i temps. Qualsevol pot reproduir-la.

Exemples: OLMo 2 (AllenAI), Pythia (EleutherAI), BLOOM

Taxonomia de models d'IA segons obertura. Basada en sa definició OSI v1.0 (Open Source Initiative, octubre 2024).

S'analogia de sa recepta de cuina ho explica bé:

  • Propietari = pots menjar an es restaurant, però sa recepta és secreta. No pots replicar es plat a ca teva.
  • Open weights = te donen es plat preparat. Pots recalfar-lo, servir-lo, fins i tot afegir-hi espècies. Però no coneixes ets ingredients exactes, ses quantitats ni es temps de cocció.
  • Open source OSI = te donen sa recepta completa, amb ingredients, quantitats, temperatures i temps. Qualsevol pot reproduir es plat idènticament.

Quants de models des top 100 des nostro benchmark compleixen sa definició OSI completa? Menys de 5. Ets OLMo d'AllenAI, alguns models d'EleutherAI... i poc més. Llama 4, DeepSeek R1, Qwen3, Mistral — tots són open weights, no open source. Són catedrals que han obert ses portes perquè vegis sa nau, però es plànol de s'arquitecte segueix davall clau.

Això no els lleva mèrit. Ets open weights són extraordinàriament útils: permeten execució local, inspecció de pesos, fine-tuning, i desplegament sense dependència d'APIs. Però dir-los "open source" és tècnicament incorrecte i genera expectatives falses sobre reproduïbilitat.


4. Ets Campions des Bazar

Dit això, ets models open weights des MIR 2026 són impressionants. Repassem ses principals famílies:

Meta: Llama 4 Maverick (#34)

Es campió indiscutible des món obert. 194 encerts (97% de precisió) per 0,11 € s'examen complet. És es model amb sa millor relació qualitat-preu de tot es rànquing — obert o tancat. Per assolir es seu nivell de precisió en es món propietari, es més barat és Grok 4.1 Fast a 0,15 €: un 36% més car.

Llama 4 Maverick usa una arquitectura Mixture of Experts (MoE) amb 400B de paràmetres totals però només 17B actius per token. És un gegant eficient. Es seu germà menor, Llama 4 Scout, aconsegueix un 90% a només 0,06 € — probablement es model més barat des món amb nivell mèdic professional.

DeepSeek

Sa startup xinesa que sacsejà sa indústria es gener de 2025 amb R1 i es seu enfocament de raonament. En es MIR 2026:

DeepSeek destaca per publicar papers detallats des seu procés d'entrenament — acostant-se més a s'esperit de s'open source que sa majoria de competidors.[3]

Qwen (Alibaba)

Sa família més nombrosa, amb 38 models en es nostro benchmark. Es seu millor resultat:

Qwen3 és sa sèrie MoE d'Alibaba, amb activació flexible de paràmetres i suport natiu per a raonament (thinking mode).[4]

Mistral

Sa companyia francesa manté sa tradició amb models eficients:

StepFun

Sa sorpresa: StepFun Step 3.5 Flash (#64) aconsegueix 189 encerts (94,5%) amb un cost de 0,00 € — literalment gratis a través d'OpenRouter. És un model xinès amb reasoning tokens que ofereix nivell mèdic professional sense cap cost.


5. Sa Bretxa que es Tanca (Però No es Tanca des Tot)

Propietari
Open Weights
Open Source (OSI)

Es 290 models avaluats en es MIR 2026 per data de llançament. Cada punt és un model; vermell = propietari, blau = open weights, verd = open source (OSI). Es models més recents tendeixen a obtenir millors netes, però es propietaris mantenen es límit superior.

Es gràfic mostra es 290 models avaluats en es MIR 2026 per data de llançament. S'eix Y és sa nota neta (netes MIR, descomptant penalització per errors). Es colors distingeixen tres categories: vermell per a propietaris, blau per a open weights i verd per a open source (OSI). Sa tendència és clara: ets models més recents obtenen millors netes, però es propietaris (vermell) sempre mantenen es marge superior.

Millor propietari
Millor open weights

Evolució des gap entre es millor model propietari i es millor open weights en ses 3 edicions MIR. Es gap es va reduir de 12 a 5 preguntes.

Si miram només es millors de cada categoria:

EdicióMillor propietariMillor open weightsGap
MIR 2024195 (Sonar Deep Research)183 (DeepSeek V3)12
MIR 2025193 (Gemini 3 Flash)188 (Llama 4 Maverick)5
MIR 2026199 (Gemini 3 Flash / o3 / GPT-5)194 (Llama 4 Maverick)5

Es gap es reduí dràsticament entre 2024 i 2025 (de 12 a 5 preguntes), però s'ha estancat en 5 entre 2025 i 2026. Es propietaris feren un bot enorme (de 193 a 199), i ets oberts també (de 188 a 194), però ambdós avançaren en paral·lel.

Es tancarà es gap completament? Possiblement no prest. Es tres models que assoliren 199/200 (Gemini 3 Flash, o3, GPT-5) foren entrenats amb pressuposts de còmput que cap projecte open weights pot igualar actualment. Quan es sostre és 200 preguntes i ja estàs en 199, cada pregunta addicional costa exponencialment més.


6. S'Ecosistema Xinès: DeepSeek, Qwen i sa Tercera Via

Qwen
DeepSeek
Moonshot
Zhipu
ByteDance
StepFun

Models xinesos en es MIR 2026. Qwen (Alibaba), DeepSeek, Moonshot, Zhipu (GLM), ByteDance (Seed) i StepFun competeixen amb força en es segment 94-97%.

Xina mereix una secció a part. Des 175 models open weights avaluats, una proporció significativa prové de laboratoris xinesos: Alibaba (Qwen), DeepSeek, Zhipu (GLM), ByteDance (Seed), MoonshotAI (Kimi) i StepFun.

Lo notable no és només sa seva quantitat sinó sa seva diversitat d'enfocaments:

  • Qwen aposta per models MoE massius amb reasoning flexible
  • DeepSeek es diferencia per publicar papers detallats i optimitzar es cost d'entrenament
  • Zhipu (GLM 4.7) combina open weights amb raonament a un cost competitiu
  • ByteDance (Seed 1.6) entra amb força des de sa seva expertise en recomanació
  • StepFun ofereix models gratuïts amb reasoning — un model de negoci que desafia sa lògica des mercat

Aquest ecosistema representa una "tercera via": ni sa catedral tancada de Silicon Valley (OpenAI, Anthropic, Google) ni es bazar pur de s'open source occidental (EleutherAI, AllenAI). És un model on grans corporacions tecnològiques publiquen pesos com a estratègia de plataforma, mantenint ses dades i es procés d'entrenament com a avantatge competitiu.


7. Cost vs. Precisió: S'Avantatge Invisible

Propietari
Open Weights

Cost vs. precisió en es MIR 2026. Es open weights (verd) dominen sa zona inferior-esquerra: alta precisió a baix cost. Llama 4 Maverick (97%, 0,11 €) és es sweet spot.

Aquí teniu sa història que es rànquings per posició no conten. Si movem es criteri de "millor" a "millor per euro gastat", es panorama canvia radicalment.

Ets open weights dominen es cantó inferior-esquerre des gràfic: alta precisió, baix cost. Algunes dades:

Per a un hospital que necessita processar milers de consultes diàries, sa diferència entre 0,11 € i 2,05 € per consulta és sa diferència entre un projecte viable i un de prohibitiu. A 1.000 consultes diàries, Llama 4 Maverick costa 110 €/dia. GPT-5 costa 2.050 €/dia. En un any: 40.150 € vs. 748.250 €.

I això assumint que usis s'API en es núvol. Si desplees Llama 4 Maverick en es teus propis servidors, es cost marginal per consulta s'acosta a zero (només electricitat i amortització de maquinari).


8. Sa Temptació des Fine-Tuning

Aquí és on molts de projectes d'IA mèdica ensopeguen. Es raonament és atractiu:

Si tenim es pesos des model, podem afinar-lo amb ses nostres dades clíniques i crear un model especialitzat que superi es generalistes.

Sona lògic. És incorrecte a sa pràctica.

ParámetroTendencia MIR 2026Implicación
Catastrophic ForgettingRisc altEs model perd coneixement general en especialitzar-se. Pot empitjorar en àrees que abans dominava.
Dades d'EntrenamentEscasses i caresSes dades clíniques anotades de qualitat són escasses, requereixen aprovació ètica i tenen biaixos de selecció.
Cost d'EntrenamentElevatFins i tot es fine-tuning d'un model de 70B paràmetres requereix GPUs A100/H100 durant hores-dies.
MantenimentContinuCada nou model base requereix repetir es fine-tuning. Llama 4 avui, Llama 5 demà — es cicle no acaba mai.
Resultats RealsDecebedorsEstudis mostren que RAG supera es fine-tuning en sa majoria de tasques mèdiques de resposta a preguntes.

Riscos des fine-tuning de models de llenguatge per a aplicacions mèdiques

Es problema fonamental és que es fine-tuning modifica es pesos des model — es seu "coneixement intern" — amb una quantitat relativament petita de dades especialitzades. Això genera un equilibri inestable: si afines massa, es model perd generalitat (catastrophic forgetting); si afines poc, no guanyes especialització significativa.


9. RAG i Agents: S'Alternativa que Funciona

Sa investigació recent apunta en una altra direcció: no modificar es model, sinó orquestrar-lo.

RAG (Retrieval-Augmented Generation) consisteix en connectar es model a una base de coneixement externa. En lloc d'"ensenyar-li" medicina injectant dades en es seus pesos, li dones accés a un sistema de cerca que recupera sa informació rellevant en temps real. Es model no "sap" sa resposta — la troba i sintetitza.

Ets agents mèdics van un pas més enllà: orquestren múltiples eines (cerca, calculadores clíniques, bases de dades de fàrmacs, guies de pràctica clínica) per resoldre consultes complexes.

RAG vs. Fine-Tuning en tasques mèdiques. Dades de: MDPI Bioengineering 2025 (BLEU), PMC systematic review (al·lucinacions), medRxiv 2025 (agents).

Ses dades són contundents:

  • BLEU Score: RAG aconsegueix 0,41 vs. 0,063 des fine-tuning (6,5x millor) en tasques de resposta mèdica.[5]
  • Al·lucinacions: RAG redueix ses al·lucinacions a 0% en contextos amb dades de referència, vs. 12,5% des fine-tuning en preguntes mèdiques fora de distribució.[6]
  • Agents mèdics: Es sistemes agèntics amb RAG assoleixen una mediana de precisió des 93% en tasques clíniques, vs. 57% de models sense agència — una millora de +36 punts percentuals.[7]

S'explicació és intuïtiva: en medicina, es coneixement canvia constantment. Noves guies clíniques, nous fàrmacs, noves evidències. Un model fine-tuneat té es coneixement "congelat" en es seus pesos. Un sistema RAG actualitza sa seva base de coneixement en temps real. És sa diferència entre un llibre de text (que es queda obsolet) i una biblioteca amb subscripció a totes ses revistes científiques.


10. S'Elefant dins s'Habitació: Privadesa i Sobirania

Hi ha un argument a favor dets open weights que cap benchmark pot capturar: sa sobirania tecnològica.

Quan un hospital envia dades de pacients a s'API d'OpenAI o Google, aquestes dades surten des control de sa institució. Tant és quantes clàusules tenguin es contractes de processament de dades — es GDPR (Art. 22) i sa HIPAA exigeixen garanties que una API en es núvol no pot oferir an es mateix nivell que un desplegament on-premises.[8]

Amb open weights, un hospital pot:

  1. Desplegar Llama 4 Maverick en es seus propis servidors — cap dada surt de s'edifici
  2. Connectar-lo via RAG a ses seves guies clíniques internes — personalització sense fine-tuning
  3. Auditar-lo completament — inspecció de pesos i comportament
  4. Complir amb regulacions europees — ses dades mai creuen fronteres

Això és especialment rellevant a Europa, on s'AI Act i sa regulació de dispositius mèdics (MDR) imposen requisits estrictes de traçabilitat i control que són més fàcils de complir amb desplegaments locals.

Per a països com Espanya, on es sistema sanitari és públic i gestiona dades de 47 milions de persones, sa sobirania tecnològica no és un luxe: és una obligació. Un model open weights executat en infraestructura pública (com es centres de supercomputació des RES) ofereix una via més compatible amb aquesta obligació que una dependència permanent d'APIs nord-americanes.

Dit això, existeix una tercera via que combina lo millor d'ambdós mons: emprar models propietaris d'alt rendiment en núvols on es client controla sa localització des datacenter i té garanties contractuals que sa informació mai arriba an es proveïdor. Serveis com Amazon Bedrock (que ofereix es models d'Anthropic, entre d'altres) permeten desplegar Claude en una regió europea específica, amb xifrat gestionat pes client i sa garantia que ses dades no s'usen per entrenar models ni es comparteixen amb tercers. Per a un hospital que necessita sa precisió d'un model propietari top sense renunciar an es control de ses seves dades, aquesta arquitectura ofereix un equilibri viable entre rendiment i sobirania.


11. MedGemma: Es Pont entre Mons

Es juny de 2025, Google donà un pas que desdibuixa sa frontera entre catedral i bazar: publicà MedGemma, una família de models open weights específicament entrenats per a medicina.[9]

MedGemma 27B, basat en Gemma 3, assoleix un 87,7% en MedQA (es benchmark mèdic de referència en anglès) — un resultat que hauria estat rècord mundial a penes 18 mesos abans. Google el publicà amb pesos descarregables, documentació des procés d'entrenament i ses eines per a fine-tuning addicional.

Per què un gegant propietari publica un model mèdic obert? Sa resposta té diverses capes:

  • Legitimació regulatòria: Oferir models auditables facilita s'aprovació de productes mèdics basats en IA
  • Estratègia d'ecosistema: Si MedGemma es converteix en s'estàndard per a IA mèdica, Google captura valor en sa capa d'infraestructura (TPUs, Vertex AI)
  • Investigació oberta: Ets avanços mèdics s'acceleren quan sa comunitat pot iterar sobre un model base compartit

No és s'únic exemple. Meta ha publicat guies per a ús mèdic de Llama.[10] Alibaba ha finançat investigació mèdica amb Qwen. Sa tendència és clara: es grans labs estan convergint cap a un model híbrid on es model base és obert i es valor es captura en sa capa de serveis.


12. Conclusions: Sa Catedral ja No Està Tota Sola

Després d'analitzar 290 models en es MIR 2026, aquestes són ses nostres conclusions:

1. Es gap existeix però es tanca. Ses 33 primeres posicions són propietàries, però sa diferència entre es millor tancat (199/200) i es millor obert (194/200) és de només 5 preguntes. En 2024 era de 12.

2. Sa taxonomia importa. Sa majoria de models "open source" són en realitat open weights. Només un grapat compleix sa definició OSI v1.0. Això té implicacions pràctiques: pots usar un model open weights, però no pots reproduir es seu entrenament.

3. Es fine-tuning no és sa resposta. Ses dades mostren que RAG i es sistemes agèntics superen es fine-tuning en tasques mèdiques: millor qualitat de resposta, zero al·lucinacions i +36pp de precisió amb agents. S'estratègia guanyadora és orquestació intel·ligent, no modificació de pesos.

4. S'avantatge real dets open weights és sa sobirania. Sa capacitat d'executar es model en es teus propis servidors, sense dependència d'APIs externes, complint amb es GDPR i sa regulació sanitària — això no té preu.

5. Es futur no és catedral vs. bazar. És model base obert + orquestació intel·ligent + dades pròpies. Un hospital que desplea Llama 4 Maverick amb RAG sobre ses seves guies clíniques combina lo millor d'ambdós mons: sa potència d'un model de 400B paràmetres amb sa personalització de ses seves dades, sense fine-tuning i sense enviar informació sensible a tercers.

Eric S. Raymond tenia raó: es bazar eventualment supera sa catedral. Però en IA mèdica, es bazar de 2026 no és una fira caòtica de contribucions individuals. És un ecosistema on Meta, Alibaba, DeepSeek i Google publiquen catedrals senceres — i sa comunitat les ambienta, les connecta i les posa a treballar.

Sa catedral ja no està tota sola. I això, per a sa medicina, és una excel·lent notícia.


Notas y Referencias

  1. Raymond, E. S. (1999). The Cathedral and the Bazaar: Musings on Linux and Open Source by an Accidental Revolutionary. O'Reilly Media. S'assaig original va ser presentat en 1997 i publicat com a llibre en 1999.
  2. Open Source Initiative (2024). The Open Source AI Definition v1.0. Publicada es 28 d'octubre de 2024. opensource.org/ai/open-source-ai-definition
  3. DeepSeek-AI (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948. Un des papers més detallats sobre es procés d'entrenament d'un model de raonament.
  4. Qwen Team (2025). Qwen3 Technical Report. qwenlm.github.io/blog/qwen3. Descripció de s'arquitectura MoE i es mode thinking.
  5. Soman, S. et al. (2025). Comparative Evaluation of RAG and Fine-Tuning for Medical Question Answering. MDPI Bioengineering, 12(2), 123. RAG aconseguí BLEU 0.41 vs. 0.063 des fine-tuning en respostes mèdiques.
  6. Pal, A. et al. (2025). A Systematic Review of Retrieval-Augmented Generation in Medical AI. PMC. RAG eliminà ses al·lucinacions (0%) quan es proporcionaven documents de referència contextuals.
  7. Schmidgall, S. et al. (2025). AgentMD: A Systematic Review of AI Agents in Medicine. medRxiv. Ets agents mèdics milloraren sa precisió en una mediana de +36 punts percentuals sobre models sense agència.
  8. Reglament General de Protecció de Dades (GDPR), Art. 22: Decisions individuals automatitzades. Es GDPR estableix es dret a no ser objecte de decisions basades únicament en tractament automatitzat, amb excepcions regulades.
  9. Google Health AI (2025). MedGemma: Open Models for Medical AI. Juny 2025. MedGemma 27B assolí 87,7% en MedQA amb pesos open weights basats en Gemma 3.
  10. Meta AI (2025). Llama for Healthcare: Best Practices and Safety Guidelines. Guies oficials per a ús de Llama en aplicacions sanitàries.