MedicalBenchmark
Katedrala eta Bazarra: Open Source vs Jabetza MIR 2026an

Katedrala eta Bazarra: Open Source vs Jabetza MIR 2026an

MIR 2026ko rankingeko lehen 33 postuak jabetza-eredu guztiak dira. Eredu irekien eta itxien arteko aldea, IAko open source-aren benetako taxonomia, eta zergatik RAGek fine-tuning-a gainditzen duen IA medikoa pertsonalizatzeko aztertzen ditugu.

MedBench Taldea2026(e)ko otsailaren 9(a)15 min irakurketa
MIR 2026Open SourceOpen WeightsLlama 4DeepSeekQwenRAG

1999an, Eric S. Raymondk Katedrala eta Bazarra argitaratu zuen, softwarearen historia aldatu zuen saiakera.[1] Bere tesia sinplea zen: garapen-eredu itxiak (katedrala, non talde hautatuak isiltasunean diseinatzen duen) ezin du epe luzera lehiatu eredu irekiarekin (bazarra, non milaka garatzailek publikoki kolaboratzen duten). Linuxek arrazoia zuela frogatu zuen. Apache, Firefox, Android, Kubernetes — bazarrak softwarearen gerra irabazi zuen.

Hogeita sei urte geroago, adimen artifizialak borroka bera bizi du. Baina MIR 2026ko datuek iradokitzen dute, gutxienez gaur egun, katedralak abantaila suntsitzailea duela. Eta "bazarrekoak" direla aldarrikatzen duten eredu askok, egiatan, ateak erdi irekita dituzten katedralak direla.


1. 33ren Harresia

Gure benchmark-eko daturik deigarriena ebaluatutako 290 eredurekin hau da: MIR 2026ko rankingeko lehen 33 postuak jabetza-eredu guztiak dira. Ez dago ireki bakarra ere. Bat ere ez.

Pos.EreduaAsmatuakZehaztasunaKostuaMota
#1Gemini 3 Flash199/20099,5%0,34 €Jabetza
#2o3199/20099,5%1,94 €Jabetza
#3GPT-5199/20099,5%2,05 €Jabetza
#4GPT-5.1 Chat198/20099,0%0,65 €Jabetza
#5GPT-5 Codex198/20099,0%0,89 €Jabetza
..................
#33o4 Mini High194/20097,0%1,95 €Jabetza
#34Llama 4 Maverick194/20097,0%0,11 €Open Weights

Jabetza-eredu onenaren eta open weights onenaren arteko aldea 5 galdera eta zehaztasuneko 2,5 puntu portzentual da. Puntuazio garbian (MIR penalizazioarekin), aldea 6,67 garbi da: 198,67 vs. 192,00.

MIR opositzaile batentzat, alde horrek ~250 postu rankingean baliokidea da. Ikertzaile batentzat, perfekziora hurbiltzen den sistema baten eta "soilik" bikaina den baten arteko aldea da.


2. Borrokaren Mapa

Jabeduna
Open Weights

MIR 2026ko top ereduak: lehen 33 postuak jabedun guztiak dira (morea). Lehen open weights (berdea) #34an agertzen da.

Grafikoa argigarria da. Zona moreak (jabetza) goiko postuak arrakalak gabe menderatzen ditu. Berdeak (open weights) 34. postutik aurrera agertzen da eta 40-70 zonaldean dentsifikatzen da. Lerro gorriak muga markatzen du: "33ren harresia".

Baina historia ez da zuri-beltz soila. Zenbakiak begiratzen baditugu:

  • Top 10: 0 open weights (%0)
  • Top 20: 0 open weights (%0)
  • Top 50: 6 open weights (%12)
  • Top 100: 35 open weights (%35)
  • Guztira: 175 open weights 290 eredutik (%60)

Eredu irekiak bolumenean gehiengoa dira, baina eliteen gutxiengoa. Atletismoan bezala da: milaka korrikalari zalea, baina maratoian 2:03tik jaisten diren 33ak guzti-guztiak errendimendu handiko profesionalak dira, entrenamendu-aurrekontu handienak dituztenak.


3. Open Source-aren Ilusioa: Aditu Ez Direnentzako Taxonomia

Aurrera jarraitu baino lehen, eztabaida kutsatzen duen gaizki-ulertu bat argitu behar dugu: "open source" eredu gehienak ez dira open source. Open weights dira.

Aldeak garrantzia du. Asko.

2024ko urrian, Open Source Initiative (OSI) erakundeak IA ereduei "open source" esanahia ematen dion lehen definizio ofiziala argitaratu zuen.[2] Definizio horren arabera, eredu bat open source da, eta soilik, honako hauek argitaratzen baditu:

  1. Ereduaren pisuak (deskargagarriak eta libreki erabilgarriak)
  2. Entrenamendu-kodea (scriptak, konfigurazioa, hiperparametroak)
  3. Entrenamendu-datuak (edo horiek erreproduzitzeko deskribapen nahikoa)
  4. Dokumentazioa prozesu osoaren gainean

Jabeduna

Kode itxia, pisu itxiak, entrenamendu-datuak ez dira argitaratu. API ordainduz bakarrik eskuragarri.

Errezeta sekretua: jatetxean jan dezakezu, baina ez dakizu osagaiak ez nola prestatzen den.

Adibideak: GPT-5, Gemini 3, Claude Opus 4.6, Grok 4

Open Weights

Pisuak deskargagarriak, baina entrenamendu-datuak eta kodea ez dira argitaratu. Eredua erabili dezakezu, ezin duzu erreproduzitu.

Prestatutako platera ematen dizute: berotu eta zerbitza dezakezu, baina ez dakizu errezeta zehatza.

Adibideak: Llama 4, DeepSeek R1, Qwen3, Mistral Large

Open Source (OSI)

Pisuak, kodea, datuak eta entrenamendu-prozesua argitaratuak. OSI v1.0 definizioa betetzen du. Erabat erreproduzitzekoa.

Errezeta osoa argitaratua: osagaiak, kantitateak, tenperaturak eta denborak. Edonork erreproduzitu dezake.

Adibideak: OLMo 2 (AllenAI), Pythia (EleutherAI), BLOOM

IA ereduen taxonomia irekitasunaren arabera. OSI v1.0 definizioan oinarritua (Open Source Initiative, 2024ko urria).

Sukaldaritza-errezetaren analogiak ondo azaltzen du:

  • Jabetza = jatetxean jan dezakezu, baina errezeta sekretua da. Ezin duzu platera etxean erreplikatu.
  • Open weights = prestaturiko platera ematen dizute. Berotu, zerbitzatu, baita espezia gehitu ere egin dezakezu. Baina ez dituzu osagai zehatzak, kantitateak ezta egosteko denborak ere ezagutzen.
  • Open source OSI = errezeta osoa ematen dizute, osagaiekin, kantitateekin, tenperaturekin eta denborekin. Edonork platera berdin-berdin erreproduzitu dezake.

Zenbat ereduk betetzen dute gure benchmark-eko top 100ean OSI definizio osoa? 5 baino gutxiagok. AllenAI-ko OLMo ereduak, EleutherAI-ko eredu batzuk... eta gutxi gehiago. Llama 4, DeepSeek R1, Qwen3, Mistral — guztiak open weights dira, ez open source. Katedralak dira, ateak ireki dituztenak nabea ikusteko, baina arkitektoaren planoa giltza-pean jarraitzen du.

Honek ez die meriturik kentzen. Open weights ereduak izugarri erabilgarriak dira: exekuzio lokala, pisuen ikuskapena, fine-tuning-a eta APIekiko menpekotasunik gabeko hedapena ahalbidetzen dute. Baina "open source" deitzea teknikoki okerra da eta erreproduzitzeko itxaropen faltsuak sortzen ditu.


4. Bazarreko Txapeldunak

Hori esanda, MIR 2026ko open weights ereduak ikusgarriak dira. Familia nagusiak berrikus ditzagun:

Meta: Llama 4 Maverick (#34)

Mundu irekiko txapeldun eztabaidaezina. 194 asmatze (%97 zehaztasuna) 0,11 €-rengandik azterketa osoan. Ranking osoko kalitate-prezio harreman onena duen eredua da — irekia nahiz itxia. Jabetza munduan bere zehaztasun-mailara iristeko, merkeen dena Grok 4.1 Fast da 0,15 €-tan: %36 garestiagoa.

Llama 4 Maverick-ek Mixture of Experts (MoE) arkitektura erabiltzen du, 400B parametro guztira baina token-eko soilik 17B aktibo. Erraldoi efizientea da. Bere anaia txikia, Llama 4 Scout, %90 lortzen du soilik 0,06 €-rengatik — seguruenik maila mediko profesionala duen munduko eredu merkeena.

DeepSeek

Txinako startup-a, 2025eko urtarrilean industria astindu zuena R1-ekin eta bere arrazoibide ikuspegiarekin. MIR 2026an:

DeepSeek-ek bere entrenamendu-prozesuari buruzko paper zehatzak argitaratzeagatik nabarmentzen da — lehiakide gehienak baino open source-aren espiritutik hurbilago.[3]

Qwen (Alibaba)

Familiarik ugariena, 38 eredu gure benchmark-ean. Bere emaitzarik onena:

Qwen3 Alibabaren MoE seriea da, parametroen aktibazio malguarekin eta arrazoibiderako jatorrizko euskarriarekin (thinking mode).[4]

Mistral

Frantziako konpainiak tradizioa mantentzen du eredu efizienteekin:

StepFun

Sorpresa: StepFun Step 3.5 Flash (#64) ereduak 189 asmatze (%94,5) lortzen ditu 0,00 €-ko kostuarekin — literalki doakoa OpenRouter bidez. Txinako eredua da, reasoning token-ekin, maila mediko profesionala kostu gabe eskaintzen duena.


5. Ixten Ari Den Arrakala (Baina Ez Guztiz Ixten Dena)

Jabeduna
Open Weights
Open Source (OSI)

MIR 2026an ebaluatutako 290 ereduak kaleratzeko dataren arabera. Puntu bakoitza eredu bat da; gorria = jabeduna, urdina = open weights, berdea = open source (OSI). Eredu berrienek nota hobeak lortzeko joera dute, baina jabedun ereduek goiko muga mantentzen dute.

Grafikoak MIR 2026an ebaluatutako 290 ereduak erakusten ditu, kaleratze-dataren arabera. Y ardatza nota garbia da (MIR garbi puntuazioak, erroreen penalizazioa deskontatuta). Koloreekin hiru kategoria bereizten dira: gorria jabetzarentzat, urdina open weights-entzat eta berdea open source-rentzat (OSI). Joera argia da: eredu berrieneek garbi hobeak lortzen dituzte, baina jabetza-ereduek (gorria) beti mantentzen dute goiko ertza.

Jabedun onena
Open weights onena

Jabedun onena eta open weights onenaren arteko gap-aren bilakaera MIR-eko 3 edizioetan. Gap-a 12tik 5 galderara murriztu zen.

Kategoria bakoitzeko onenak soilik begiratzen baditugu:

EdizioaJabetza onenaOpen weights onenaAldea
MIR 2024195 (Sonar Deep Research)183 (DeepSeek V3)12
MIR 2025193 (Gemini 3 Flash)188 (Llama 4 Maverick)5
MIR 2026199 (Gemini 3 Flash / o3 / GPT-5)194 (Llama 4 Maverick)5

Aldea nabarmen murriztu zen 2024 eta 2025 artean (12tik 5 galderatara), baina 5ean gelditu da 2025 eta 2026 artean. Jabetza-ereduek jauzi handia eman zuten (193tik 199ra), eta irekiek ere bai (188tik 194ra), baina biak paraleloan aurreratu zuten.

Aldea guztiz itxiko al da? Ziurrenik ez laster. 199/200 lortu zuten hiru ereduak (Gemini 3 Flash, o3, GPT-5) open weights proiektu batek gaur egun parekatu ezin dituen konputazio-aurrekontuekin entrenatu ziren. Sabaia 200 galdera denean eta dagoeneko 199n zaudenean, galdera gehigarri bakoitzak esponentzialki gehiago kostatzen da.


6. Txinako Ekosistema: DeepSeek, Qwen eta Hirugarren Bidea

Qwen
DeepSeek
Moonshot
Zhipu
ByteDance
StepFun

Txinatar ereduak MIR 2026an. Qwen (Alibaba), DeepSeek, Moonshot, Zhipu (GLM), ByteDance (Seed) eta StepFun-ek indarrez lehiatzen dute %94-97 segmentuan.

Txinak atal aparte bat merezi du. Ebaluatutako 175 open weights ereduetatik, proportzio esanguratsu bat Txinako laborategietatik dator: Alibaba (Qwen), DeepSeek, Zhipu (GLM), ByteDance (Seed), MoonshotAI (Kimi) eta StepFun.

Nabarmengarria ez da bakarrik kantitatea, baizik eta haien ikuspegien aniztasuna:

  • Qwen-ek MoE eredu masiboen aldeko apustua egiten du reasoning malguarekin
  • DeepSeek-ek paper zehatzak argitaratuz eta entrenamendu-kostua optimizatuz bereizten da
  • Zhipu-k (GLM 4.7) open weights eta arrazoibidea konbinatzen ditu kostu lehiakor batean
  • ByteDance-k (Seed 1.6) indarrez sartzen da bere gomendio-ezagutzan oinarrituta
  • StepFun-ek reasoning-dun doako ereduak eskaintzen ditu — merkatuaren logika erronkan jartzen duen negozio-eredua

Ekosistema honek "hirugarren bide" bat irudikatzen du: ez Silicon Valley-ko katedra itxia (OpenAI, Anthropic, Google) ez mendebaldeko open source-aren bazar hutsa (EleutherAI, AllenAI). Teknologia-korporazio handiek pisuak plataforma-estrategia gisa argitaratzen dituzten eredua da, datuak eta entrenamendu-prozesua abantaila lehiakor gisa mantenduz.


7. Kostua vs. Zehaztasuna: Abantaila Ikusezina

Jabeduna
Open Weights

Kostua vs. zehaztasuna MIR 2026an. Open weights (berdea) beheko-ezkerreko eremua menperatzen du: zehaztasun handia kostu baxuan. Llama 4 Maverick (%97, 0,11 €) sweet spot-a da.

Hemen dago ranking-posizioek kontatzen ez duten historia. "Onena" irizpidea "gastatutako euroko onena"ra mugitzen badugu, panorama errotik aldatzen da.

Open weights ereduek grafikoaren beheko ezkerreko izkina menderatzen dute: zehaztasun altua, kostu baxua. Datu batzuk:

Egunero milaka kontsulta prozesatu behar dituen ospitale batentzat, kontsultako 0,11 € eta 2,05 €-ren arteko aldea proiektu bideragarri baten eta debekatua den baten arteko aldea da. Eguneko 1.000 kontsultarekin, Llama 4 Maverick-ek 110 €/egun kostatzen du. GPT-5-ek 2.050 €/egun. Urtebetean: 40.150 € vs. 748.250 €.

Eta hori hodeiko APIa erabiltzen duzula suposatuz. Llama 4 Maverick zeure zerbitzarietan hedatzen baduzu, kontsultako kostu marjinala zerora hurbiltzen da (elektrizitatea eta hardwarearen amortizazioa soilik).


8. Fine-Tuning-aren Tentazioa

Hemen da non IA medikoko proiektu askok estropezu egiten duten. Arrazoibidea erakargarria da:

Ereduaren pisuak baditugu, gure datu klinikoekin fintzen ahal dugu eta orokorrista diren ereduak gainditzen dituen eredu espezializatu bat sortu dezakegu.

Logikoa dirudi. Praktikan okerra da.

ParámetroTendencia MIR 2026Implicación
Catastrophic ForgettingArrisku altuaEreduak ezagutza orokorra galtzen du espezializatzean. Lehenago menperatzen zituen arloetan okerrera egin dezake.
Entrenamendu-datuakUrriak eta garestiakKalitatezko datu kliniko anotatuak urriak dira, ontzat emateko etika behar dute eta hautaketa-alborapenak dituzte.
Entrenamendu-kostuaAltua70B parametroko eredu baten fine-tuning-ak ere A100/H100 GPUak behar ditu orduz-egunez.
MantentzeaEtengabeaOinarri-eredu berri bakoitzak fine-tuning-a errepikatzea eskatzen du. Llama 4 gaur, Llama 5 bihar — zikloak ez du inoiz bukatzen.
Benetako emaitzakEtsipenezkoakIkerketak erakusten du RAGek fine-tuning-a gainditzen duela galdera medikoetarako erantzun-zeregin gehienetan.

Hizkuntza-ereduen fine-tuning-aren arriskuak aplikazio medikoetarako

Arazo funtsezkoa da fine-tuning-ak ereduaren pisuak aldatzen dituela — bere "barne-ezagutza" — datu espezializatuen kantitate nahiko txikiarekin. Honek oreka ezegonkorra sortzen du: gehiegi fintzen baduzu, ereduak orokortasuna galtzen du (catastrophic forgetting); gutxi fintzen baduzu, ez duzu espezializazio esanguratsurik irabazten.


9. RAG eta Agenteak: Funtzionatzen Duen Alternatiboa

Ikerketa berriak beste norabide batera apuntatzen du: eredua ez aldatzea, baizik eta orkestratzea.

RAG (Retrieval-Augmented Generation) eredua kanpoko ezagutza-base batera konektatzean datza. Bere pisuetan datuak injektatuz medikuntza "irakasteko" ordez, unean-unean informazio garrantzitsua berreskuratzen duen bilaketa-sistema baterako sarbidea ematen diozu. Ereduak ez du erantzuna "ezagutzen" — aurkitu eta sintetizatzen du.

Agente medikoek urrats bat gehiago ematen dute: tresna anitz orkestratzen dituzte (bilaketak, kalkulagailu klinikoak, farmako-datu-baseak, praktika klinikoko gidak) kontsulta konplexuak ebazteko.

RAG vs. Fine-Tuning ataza medikoetan. Datuak: MDPI Bioengineering 2025 (BLEU), PMC systematic review (haluzinazioek), medRxiv 2025 (agenteak).

Datuak argiak dira:

  • BLEU Score: RAGek 0,41 lortzen du vs. fine-tuning-aren 0,063 (6,5 aldiz hobea) erantzun medikoko zereginetan.[5]
  • Haluzinazioak: RAGek haluzinazioak %0ra murrizten ditu erreferentzia-datuekin testuinguruetan, vs. fine-tuning-aren %12,5 banaketaz kanpoko galdera medikoetan.[6]
  • Agente medikoak: RAG-dun sistema agentzialeek %93ko zehaztasun-mediana lortzen dute zeregin klinikoetan, vs. agentzirik gabeko ereduen %57 — +36 puntu portzentualeko hobekuntza.[7]

Azalpena intuitiboa da: medikuntzan, ezagutza etengabe aldatzen da. Gida kliniko berriak, farmako berriak, ebidentzia berriak. Finturiko eredu batek ezagutza bere pisuetan "izoztuta" du. RAG sistema batek bere ezagutza-basea denbora errealean eguneratzen du. Testu-liburu baten (zaharkituta geratzen denaren) eta aldizkari zientifiko guztietarako harpidetza duen liburutegi baten arteko aldea da.


10. Elefantea Gelan: Pribatutasuna eta Subiranotasuna

Open weights-en aldeko argumentu bat dago benchmark batek ere jaso ezin duena: subiranotasun teknologikoa.

Ospitale batek pazienteen datuak OpenAI edo Google-ren APIra bidaltzen dituenean, datu horiek erakundearen kontroletik irteten dira. Berdin du zenbat klausula dituzten datu-prozesamenduko kontratuek — GDPRek (22. art.) eta HIPAAk bermeak eskatzen dituzte, hodei-bateko API batek on-premises hedapen batek bezain maila berean eskaini ezin dituenak.[8]

Open weights-ekin, ospitale batek honako hauek egin ditzake:

  1. Llama 4 Maverick bere zerbitzarietan hedatu — ez da daturik eraikinaz kanpo ateratzen
  2. RAG bidez barne gida klinikoekin konektatu — pertsonalizazioa fine-tuning gabe
  3. Guztiz auditatu — pisuen eta portaeraren ikuskapena
  4. Europar araudi-betepenarekin — datuek ez dituzte inoiz mugak zeharkatzen

Hau bereziki garrantzitsua da Europan, non AI Act-ak eta gailu medikoen arauketak (MDR) trazabilitate- eta kontrol-baldintza zorrotzak ezartzen dituzten, tokiko hedapenekin betetzen errazagoak direnak.

Espainia bezalako herrialdeetarako, non osasun-sistema publikoa den eta 47 milioi pertsonaren datuak kudeatzen dituen, subiranotasun teknologikoa ez da luxua: betebeharra da. Azpiegitura publikoan (RESko superkonputazio-zentroetan bezala) exekutatutako open weights eredu batek betebehar honekin bateragarriagoa den bide bat eskaintzen du, AEB-ko APIen mendekotasun iraunkor bat baino.

Hori esanda, bi munduen onena konbinatzen duen hirugarren bide bat existitzen da: errendimendu handiko jabetza-ereduak erabiltzen dituzte, non bezeroak datu-zentroaren kokapena kontrolatzen duen eta informazioa hornitzailera inoiz iristen ez dela bermatzen duten kontratu-bermeak dituen hodeian. Amazon Bedrock bezalako zerbitzuek (Anthropic-en ereduak eskaintzen dituztenak, besteak beste) Claude Europako eskualde zehatz batean hedatzea ahalbidetzen dute, bezeroak kudeatutako zifratzuarekin eta datuak ereduak entrenatzeko erabiltzen ez direla eta hirugarrenekin partekatzen ez direla bermatzuarekin. Bere datuen kontrolari uko egin gabe jabetza-eredu baten zehaztasuna behar duen ospitale batentzat, arkitektura honek errendimenduaren eta subiranotasunaren arteko oreka bideragarria eskaintzen du.


11. MedGemma: Munduen Arteko Zubia

2025eko ekainean, Googlek katedrala eta bazarraren arteko muga lausotzen duen urrats bat eman zuen: MedGemma argitaratu zuen, medikuntzarako bereziki entrenatutako open weights eredu-familia bat.[9]

MedGemma 27B, Gemma 3n oinarrituta, %87,7 lortzen du MedQA-n (ingelesezko erreferentziako benchmark medikoa) — 18 hilabete lehenago munduko errekorra izango zen emaitza. Googlek pisu deskargagarriekin, entrenamendu-prozesuaren dokumentazioarekin eta fine-tuning gehigarrirako tresnekin argitaratu zuen.

Zergatik jabetza-erraldoi batek eredu mediko ireki bat argitaratzen du? Erantzunak hainbat geruza ditu:

  • Arautzeko legitimazioa: Eredu auditagarriak eskaintzeak IAn oinarritutako produktu medikoen onarpena errazten du
  • Ekosistema-estrategia: MedGemma IA medikorako estandarra bihurtzen bada, Googlek balioa azpiegitura-geruzan jasotzen du (TPUak, Vertex AI)
  • Ikerketa irekia: Aurrerapen medikoak azeleratzen dira komunitateak oinarri-eredu partekatu baten gainean berrikuntzak egin ditzakeenean

Ez da adibide bakarra. Metak Llamaren erabilera medikoko gidak argitaratu ditu.[10] Alibabak ikerketa medikoa finantzatu du Qwen-ekin. Joera argia da: laborategi handiak eredu hibrido batera konbergentzen ari dira, non oinarri-eredua irekia den eta balioa zerbitzu-geruzan jasotzen den.


12. Ondorioak: Katedrala Jada Ez Dago Bakarrik

MIR 2026an 290 eredu aztertu ondoren, hauek dira gure ondorioak:

1. Aldea existitzen da, baina ixten ari da. Lehen 33 postuak jabetza-ereduak dira, baina itxi onenaren (199/200) eta ireki onenaren (194/200) arteko aldea 5 galdera besterik ez da. 2024an 12 zen.

2. Taxonomiak garrantzia du. "Open source" eredu gehienak egiatan open weights dira. Eskuputu batek soilik betetzen du OSI v1.0 definizioa. Honek ondorio praktikoak ditu: open weights eredu bat erabil dezakezu, baina ezin duzu bere entrenamendua erreproduzitu.

3. Fine-tuning-a ez da erantzuna. Datuek erakusten dute RAGek eta sistema agentzialek fine-tuning-a gainditzen dutela zeregin medikoetan: erantzun-kalitate hobea, zero haluzinazioa eta agenteekin +36pp zehaztasuna. Estrategia irabazlea orkestraketa adimentsua da, ez pisuen aldaketa.

4. Open weights-en benetako abantaila subiranotasuna da. Eredua zeure zerbitzarietan exekutatzeko gaitasuna, kanpoko APIen mendekotasunik gabe, GDPR eta osasun-araudiarekin bat etorriz — horrek ez du preziorik.

5. Etorkizuna ez da katedrala vs. bazarra. Oinarri-eredu irekia + orkestraketa adimentsua + norberaren datuak da. Llama 4 Maverick bere gida klinikoen gaineko RAG-arekin hedatzen duen ospitale batek bi munduen onena konbinatzen du: 400B parametroko eredu baten potentzia bere datuen pertsonalizazioarekin, fine-tuning gabe eta informazio sentikorra hirugarrenei bidali gabe.

Eric S. Raymondk arrazoia zuen: bazarrak azken batean katedrala gainditzen du. Baina IA medikoan, 2026ko bazarra ez da norbanakoen ekarpen kaotikoen azoka. Ekosistema bat da, non Metak, Alibabak, DeepSeek-ek eta Googlek katedral osoak argitaratzen dituzten — eta komunitateak haiek moldatzen, konektatzen eta lanean jartzen ditu.

Katedrala jada ez dago bakarrik. Eta hori, medikuntza-arloarentzat, albiste bikaina da.


Notas y Referencias

  1. Raymond, E. S. (1999). The Cathedral and the Bazaar: Musings on Linux and Open Source by an Accidental Revolutionary. O'Reilly Media. Jatorrizko saiakera 1997an aurkeztu zen eta 1999an liburu gisa argitaratu zen.
  2. Open Source Initiative (2024). The Open Source AI Definition v1.0. 2024ko urriaren 28an argitaratua. opensource.org/ai/open-source-ai-definition
  3. DeepSeek-AI (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948. Arrazonamendu-eredu baten entrenamendu-prozesuari buruzko paperrik xehatuenetako bat.
  4. Qwen Team (2025). Qwen3 Technical Report. qwenlm.github.io/blog/qwen3. MoE arkitekturaren eta thinking moduaren deskribapena.
  5. Soman, S. et al. (2025). Comparative Evaluation of RAG and Fine-Tuning for Medical Question Answering. MDPI Bioengineering, 12(2), 123. RAGek BLEU 0.41 lortu zuen vs. fine-tuning-aren 0.063 erantzun medikoetan.
  6. Pal, A. et al. (2025). A Systematic Review of Retrieval-Augmented Generation in Medical AI. PMC. RAGek haluzinazioak ezabatu zituen (%0) testuinguruko erreferentzia-dokumentuak ematen zirenean.
  7. Schmidgall, S. et al. (2025). AgentMD: A Systematic Review of AI Agents in Medicine. medRxiv. Agente medikoek zehaztasuna hobetu zuten +36 puntu portzentualeko medianan, agentzia gabeko ereduen gainetik.
  8. Datuak Babesteko Erregelamendu Orokorra (GDPR), 22. art.: Erabaki indibidual automatizatuak. GDPRek tratamendu automatizatuan soilik oinarritutako erabakien objektu ez izateko eskubidea ezartzen du, salbuespen arautuekin.
  9. Google Health AI (2025). MedGemma: Open Models for Medical AI. 2025eko ekaina. MedGemma 27B-k %87,7 lortu zuen MedQA-n, Gemma 3-n oinarritutako open weights pisuekin.
  10. Meta AI (2025). Llama for Healthcare: Best Practices and Safety Guidelines. Llama osasun-aplikazioetan erabiltzeko gida ofizialak.