MedicalBenchmark
Blogera itzuli

ALMA eta MIRI-k MIR 2026 azterketan lor daitekeen notarik altuena lortzen dute %100eko asmatze-tasarekin

Espainian garatutako bi AA mediko modelok aurrekaririk gabeko emaitzak lortu dituzte. ALMAk azken hiru MIR-etako 600 galderak asmatu ditu akats bakar bat ere gabe — beste eredu inork lortu ez duen %100 absolutua. MIRIk %99,3 lortu du 13 aldiz kostu txikiagoarekin eta askoz azkarrago erantzunez.

Ez dira eredu orokorrak: aditu espezializatuekin RAG Agentiko arkitekturak dira, BinPar eta Editorial Medica Panamericana-k eraikitakoak, AA medikoaren etorkizuna ez dagoela eredu handiagoengan, baizik eta adimendunagoetan frogatzen dutenak.

MedBench Taldea2026(e)ko otsailaren 11(a)23 min irakurketa
MIR 2026ALMAMIRIRAG AgentikoaAA MedikoaBinParEditorial Médica Panamericana

Hiru urtez, Medical Benchmark-ek 300 adimen artifizialeko modelo baino gehiago ebaluatu ditu MIR azterketan, Espainiako prestakuntza mediko espezializaturako sarbide-proban. Dokumentatu dugu nola modelo orokor onenek — Gemini, GPT, Claude — %100eko sabaira hurbildu diren, gero eta galdera gutxiago hutsez, gero eta diru gutxiago kostatuz, gero eta azkarrago erantzunez.

Baina beti huts egiten zuten zerbaitetan.

Gaur hesi hori hausten duten bi modeloren emaitzak aurkezten ditugu. Ez dira modelo orokorrak. Ez daude linean eskuragarri. Ezin dira API publiko batekin probatu. Modelo custom dira, Espainian eraikiak oinarrizko arkitektura ezberdina dutenak: espezialista adituekin RAG Agentikoa.

MIRI, BinPar-ek PROMIR-entzat (Editorial Medica Panamericana) garatua, 600etik 596 MIR galdera asmatu ditu, hiru urtetan 4 akats besterik gabe eta MIR 2026an 200/200eko errendimendu perfektua lortuz. Eta hori guztia guztira $2,38-ko kostuan egin du — ALMA baino 13 aldiz gutxiago eta modelo estandar merkeenekin konparagarria.

ALMA, BinPar-ek Editorial Medica Panamericana-ren eta Gida Kliniko Espainiarren edukiekin garatua, azken hiru MIR azterketetako 600 galderak asmatu ditu — erreserba-galdera guztiak barne — akats bakar bat ere gabe.[1] Historian zehar MedBench-eko AA modelo bakar batek ere ez du, eta guk dakigunez, munduko benchmark mediko bateko modelo bakar batek ere ez du inoiz hiru urteko metatutako puntuazio perfektu bat lortu.


1. Emaitzak: %100eko Horma

Has gaitezen zenbakietatik. Apaindurik gabe, hiperbolerik gabe. Datuak besterik ez.

ALMAren datuak

DeialdiaZuzenakAkatsakGarbiakZehaztasunaKostuaDenbora/galderaKonfiantzaReasoning Tokens
MIR 2024200/2000200,00100,0%$9,9954,7s99,9%71K
MIR 2025200/2000200,00100,0%$11,0250,8s99,8%78K
MIR 2026200/2000200,00100,0%$10,5654,3s99,8%66K
Metatua600/6000600,00100,0%$31,57

MIRIren datuak

DeialdiaZuzenakAkatsakGarbiakZehaztasunaKostuaDenbora/galderaKonfiantza
MIR 2024198/2002197,3399,0%$0,7814,2s99,9%
MIR 2025198/2002197,3399,0%$0,8215,3s99,8%
MIR 2026200/2000200,00100,0%$0,7811,9s100,0%
Metatua596/6004594,6699,3%$2,38

Orain, jar dezagun hau testuinguruan benchmark-eko modelo estandar onenekin.

Custom (RAG Agéntico)
Modelos estándar

ALMA y MIRI (modelos custom con RAG Agéntico) frente a los 10 mejores modelos estándar del benchmark MIR 2026

MIR 2026an, bai ALMAk bai MIRIk 200/200 lortu dute: puntuazio perfektua. Modelo estandar bakar batek ere ez du inoiz 200/200 lortu hiru deialdietako batean ere. 2026ko emaitza estandar onena 199/200 da, hiru modeloek partekatua (Gemini 3 Flash, o3 eta GPT-5).

Aldea txikia dirudike — asmatze bakar bat — baina asmatze bakarreko alde hori, sistematikoki urtez urte errepikatua, apartekoa eta perfektua bereizten ditu.

MIR 2026ko 5 modelo estandar onenak

ModeloaZuzenakGarbiakKostua
Gemini 3 Flash199/200198,67$0,34
o3199/200198,67$1,94
GPT-5199/200198,67$2,05
GPT-5.1 Chat198/200197,33$0,65
GPT-5 Codex198/200197,33$0,89

2. Hiru Urteren Ikuspegia

Azterketa bat zoria izan daiteke. Bi, kasualitatea. Hiru urteko emaitza koherenteak joera bat dira.

Custom (RAG Agéntico)
Modelos estándar

Preguntas correctas acumuladas en MIR 2024, 2025 y 2026 (máximo: 600). Solo se muestran los modelos con resultados en los 3 años.

Grafiko honek ALMAren koherentzia absolutua erakusten du: 200/200 hiru urteetan, salbuespenik gabe. Ez ditu galdera ofizial guztiak besterik asmatu, erreserba-galdera guztiak ere bai (201-210) deialdi bakoitzean. Galdera ofizialak baliogabetu eta erreserbak hartzen direnean, ALMAk guztiak zuzen ditu.

MIRIk progresio lilugarria erakusten du: 198/200 2024an, 198/200 2025ean, eta azkenik 200/200 2026an. Modeloa hobetuz joan da perfekzioa lortu arte.

Metatutako modelo estandar onena, Gemini 3 Flash, 590/600era iristen da — emaitza bikaina termino absolutuetan, baina ALMA baino 10 asmatze gutxiago.

0 errores
Custom
Estándar

Total de errores en MIR 2024 + 2025 + 2026 (máximo posible: 600). Menos es mejor.

Metatutako akatsen bisualizazioa agian adierazgarriena da. ALMAk barra hutsa du: zero akats hiru urtetan. MIRIk 4 besterik ez ditu metatzen. Modelo estandar onena, Gemini 3 Flash, 10 metatzen ditu. Top 5 estandarreko gainerako modeloek dozena bat akats gainditzen dute.

ParámetroTendencia MIR 2026Implicación
ALMA vs estandar onena-10 akatsALMAk 0 akats egiten ditu modelo estandar onenaren 10en aldean (Gemini 3 Flash) 3 urtetan
MIRI vs estandar onena-6 akatsMIRIk 4 akats besterik ez ditu egiten Flash-en 10en aldean, 2,3 aldiz kostu handiagoan soilik
MIRI vs ALMA+4 akatsMIRIk ALMA baino 4 akats gehiago egiten ditu, baina bere kostua 13,3 aldiz txikiagoa da ($2,38 vs $31,57)
ALMA: saihestitako akats bakoitzeko kostua$2,92/akatsFlash-en aldean, ALMAk $30,55 gehiago kostatzen du baina 10 akats saihesten ditu ($3,06 saihestitako akats bakoitzeko)

3 urteko metatutako akatsen konparaketa: modelo custom-ak vs modelo estandar onena


3. MIRIren Hutsen Anatomia

MIRIk zehazki 2 galdera huts egiten ditu MIR 2024an, 2 MIR 2025ean eta 0 MIR 2026an. Azter dezagun huts bakoitza.

MIR 2024: 9. eta 13. galderak

MIR 2024an, MIRIk 9. eta 13. galderak huts egiten ditu. Biak azterketako lehen 25 galderen artean daude, bertsio guztientzat (V0-V4) komunak direnak.

MIR 2025: 181. eta 201. galderak

MIR 2025ean, MIRIk 181. eta 201. galderak huts egiten ditu. 201. galdera erreserba-galdera bat da — horrek esan nahi du, erreserba guztiak asmatu dituen ALMA ez bezala, MIRIk bat huts egiten duela.

MIR 2026: Perfekzioa

MIR 2026an, MIRIk ez du galderarik huts egiten. Ez 200 ofizialak, ez 10 erreserbakoak. Modeloa eboluzionatu egin da errendimendu perfektua lortu arte.

Hobekuntza-joera

MIRIren eboluzioak RAG Agentiko arkitekturaren oinarrizko abantailetako bat ilustratzen du: modelo oinarrizkoa berriz entrenatu gabe etengabeko hobekuntza egiteko gaitasuna. Corpusaren eta adituen konfigurazioaren iterazio bakoitzak hobekuntza inkremental neurgarriak sortzen ditu.

MIR 2024

2 errores

MIR 2025

2 errores

MIR 2026

Perfección
DeialdiaMIRI akatsakALMA akatsakMIRI eboluzioa
MIR 202420Oinarrizko lerroa
MIR 202520Mantenimendua
MIR 202600Perfekzioa

4. ALMA: Perfekzioaren Anatomia

ALMA BinPar-ek garatutako modeloa da, Editorial Medica Panamericana-ren — mundu hispanohitzarenean erreferentziako argitaletxe medikoa — edukiekin eta gida kliniko hautatu batzuekin. Erreferentzia kliniko tresna gisa kontzebitu da osasun profesionalentzat: jardunean dauden medikuak, prestakuntzako espezialistak eta erakunde sanitario edo osasun zerbitzu baten barruan ezagutza kliniko eguneratua kontsultatu eta balioztatu behar duten profesionalak.

Gaur egun CATSalut-eko (Kataluniako osasun zerbitzua) hamaika mila profesionalek erabiltzen dute.

Corpusa: gida klinikoak eta gomendioak

ALMAren oinarrizko abantaila bere arkitekturan eta corpusean datza. Editorial Medica Panamericanak gaztelaniazko literatur medikoaren katalogo osoenenetako bat du, besteak beste:

  • Oposizioetarako prestakuntzara (tartean MIR) zuzendutako eduki espezifikoak
  • Espezialitate mediko guztietako erreferentziako tratatuak
  • Elkarte zientifiko nagusietako gida klinikoak
  • Ebidentzia zientifiko berrienetaren arabera eguneratutako protokoloak
  • Espezialistek diseinatutako eta berrikusitako prestakuntza-materiala

Corpus hau hizkuntza-modeloek kontsumitzeko prozesatu eta optimizatu da, token bakoitzeko informazio garrantzitsuaren dentsitatea maximizatzen duen corpus sintetiko espezializatu bat sortuz.[2]

Orkestatzailea: Claude Sonnet 4.5 Bedrock Aragoien

ALMAren modelo orkestatzailea Claude Sonnet 4.5 da arrazoiketa hedatuarekin, Amazon Bedrock-en Aragoiko datacenter-ean (Espainia) exekutatua. Aukera hau ez da kasualitatea: inferentzia-datu guztiak — galdera medikoak, testuinguru klinikoak, erantzunak — Europar Batasunaren barruan prozesatzen direla bermatzen du, legezko eta pribatutasun-bermerik zorrotzenekin.[3]

Metrika zehatzak

MetrikaMIR 2024MIR 2025MIR 2026
Zehaztasuna100,0%100,0%100,0%
Azterketa bakoitzeko kostua$9,99$11,02$10,56
Galdera bakoitzeko kostua$0,048$0,052$0,050
Galdera bakoitzeko denbora54,2s50,8s54,3s
Batez besteko konfiantza99,9%99,8%99,8%
Arrazoiketa-tokenak71K78K66K

~$10,50eko batez besteko kostua azterketa bakoitzeko (gutxi gorabehera 10 euro aldaketa-tasarekin) esanguratsua da Gemini Flash ($0,34) bezalako modelo estandarrekin alderatuz, baina testuinguruan jarri behar da: ALMAk ez du batere galdera huts egiten. Hiru urtetan. Erreserbak barne. Akats baten kostua testuinguru kliniko erreal batean $10 baino infinituki handiagoa izan daiteke.

~53 segundoko batez besteko denbora galdera bakoitzeko arkitekturaren izaera iteratiboa islatzen du: orkestatzaileak hainbat aditu kontsultatzen ditu (agente birtual espezializatuak), haien erantzunak ebaluatzen ditu, argibideak eskatu ditzake eta azken erantzun bat sintetizatzen du. Galdera bakoitzak ~32 espezialisteren arteko "mediku-batzorde" baliokidea jasotzen du.

600/600: aurrekaririk gabe

Emaitza honen garrantzia ulertzeko, komenigarria da gogoratzea:

  1. Ebaluatutako ~290 modelo estandaretako batek ere ez du inoiz 200/200 lortu deialdi bakar batean.
  2. Metatutako estandar onena 590/600 da (Gemini 3 Flash) — 10 akats.
  3. ALMAk ez ditu 200 ofizialak besterik asmatu, baizik eta urte bakoitzeko 10 erreserbak ere bai (210/210 x 3).

5. MIRI: Zehaztasuna publiko zabalerako

MIRI BinPar-ek PROMIR-entzat garatutako modeloa da, Editorial Medica Panamericanaren MIR prestakuntzarako plataforma. ALMA ingurune kliniko batean lan egiten duten profesionalentzat kontzebitu bada, MIRI medikuntza-ikasleak, egoiliarrak, MIR oposiziogile eta profesional independienteak galderak azkar eta zehaztasunez ebazteko diseinatua dago.

Diseinu-filosofia

MIRIren arkitekturak ALMA-ren printzipio berak jarraitzen ditu — orkestatzaile zentrala + aditu espezializatuak + ezagutza-corpusa — baina optimizazio-profil ezberdina duena:

  • Kostuari eta abiadurari lehentasuna, zehaztasun kritikoa sakrifikatu gabe
  • Erantzun-denbora azkarrak (~13 segundo galdera bakoitzeko vs ALMA-ren ~53)
  • Kostu optimizatua ($0,78-$0,82 azterketa oso bakoitzeko)

Kalitate-prezio erlazioa

ALMA
MIRI
Estándar

Coste acumulado (3 exámenes) vs. precisión acumulada (3 años). Los modelos custom alcanzan mayor precisión a un coste competitivo.

Grafiko honek modelo bakoitzaren posizio estrategikoa erakusten du:

  • ALMA (puntu urreduna, goian eskuinean): zehaztasun maximoa (%100), kostu moderatua ($31,57 metatua). Zehaztasuna gauza bakarra denean "konpromisorik gabeko" aukera da.
  • MIRI (puntu teal-a, goian erdian): ia perfektua den zehaztasuna (%99,3), gutxieneko kostua ($2,38 metatua). Merkatuko kalitate-prezio erlazio oneneko aukera da.
  • Gemini 3 Flash (puntu grisa, behean ezkerrean): zehaztasun bikaina (%98,3), kostu gaindiezina ($1,02 metatua). Baina ALMA baino 10 akats gehiago eta MIRI baino 6 gehiago.

6. Arkitektura: RAG Agentikoa

Nola da posible modelo custom-ek munduko modelo orokor onenak sistematikoki gainditzea? Erantzuna arkitekturan dago.

Orquestador

LLM de razonamiento avanzado

Analiza la preguntaSelecciona expertosSintetiza respuesta
Consulta iterativa
Especialidades Clínicas
CardiologíaNeumologíaNeurologíaNefrologíaEndocrinologíaReumatologíaHematologíaOncología
Especialidades Quirúrgicas
Cirugía GeneralTraumatologíaUrologíaORLOftalmologíaDermatologíaGinecologíaObstetricia
Ciencias Básicas y Diagnósticas
FarmacologíaMicrobiologíaAnatomía PatológicaRadiologíaBioestadísticaMedicina PreventivaPediatríaPsiquiatría
Soporte y Contexto
Legislación SanitariaGestión ClínicaÉtica MédicaUrgenciasMedicina InternaGeriatríaPaliativosM. Familiar
Corpus sintético especializado

Optimizado para consumo por LLMs, no para lectura humana

~32

Expertos

Multi

Iteraciones

EN

Razonamiento

Arquitectura RAG Agéntico: el orquestador analiza cada pregunta, selecciona los expertos relevantes y sintetiza sus respuestas en múltiples iteraciones

RAG Agentikoak (Retrieval-Augmented Generation agenteekin) RAG sistema tradizionalen eboluzio aurreratuena adierazten du.[5] RAG estandar batek dokumentu garrantzitsuak berreskuratu eta urrats bakarrean modeloari pasatzen dizkion bitartean, RAG Agentikoak sofistikazio-maila erradikalki handiagoa sartzen du.

Orkestatzailea

Arkitekturaren erdian arrazoiketa aurreratuko modelo bat dago orkestra-zuzendari gisa jokatzen duena. Galdera mediko bat jasotzen duenean, orkestatzaileak ez du informazioa bilatzera mugatzen: galdera aztertzen du, zein espezialitate diren garrantzitsuak identifikatzen du, eta zein aditu kontsultatu erabakitzen du.

Prozesu hau iteratiboa da. Aditu baten erantzuna nahikoa ez bada edo beste baten erantzunarekin kontraesankorra bada, orkestatzaileak honako hauek egin ditzake:

  1. Kontsulta birformulatu eta berriro galdetu
  2. Aditu osagarriak kontsultatu hasieran kontuan hartu ez zituenak
  3. Sakontzea eskatu alderdi espezifiko batean
  4. Erantzunak kontrastatu aditu anitzen artean

Kontsulta iteratibo eta agente anitzeko joera honek frogatua du sistematikoki LLMen erabilera zuzena gainditzen duela bai medikuntzan bai beste domeinu espezializatuetan.[6]

~32 aditu espezializatuak

Aditu bakoitza diziplina mediko zehatz batean espezializatutako RAG sistema bat da (kardiologia, pneumologia, farmakologia, etab.). Bere espezialitaterako optimizatutako corpusaren azpimultzo batera du sarbidea eta bere domeinuko galderak zehaztasun maximoarekin erantzuteko konfiguratua dago.

Gakoa azpidelegazio adimentsua da: adituak ez dira prompt ezberdina duten modelo sinpleak. Bakoitzak bere ezagutza-oinarri propioa du, bere testuinguru propioa, eta bere aldetik azpikontsultak beste aditu batzuei delegatu ditzake espezialitate arteko mugak zeharkatzen dituen galdera bat detektatzen duenean.

Diseinu hau diagnostiko medikoko agente anitzeko sistemei buruzko azken ikerketarekin lerrokatzen da,[7] aditu espezializatuen orkestrazioarekin[8] eta agenteen grafoen optimizazioarekin.[9]

Euskarri multimodala

Bai ALMAk bai MIRIk irudi klinikoak dituzten galderak prozesatzen dituzte (erradiografiak, elektrokardiogramak, argazki dermatologikoak, etab.). Sistema multimodalak adituek irudiak beren testuinguru espezializatuan aztertzea ahalbidetzen du: kardiologo birtual batek EKG bat txosten testual bati eskainiko liokeen xehetasun-maila berarekin aztertzen du.

LLMentzat optimizatutako corpus sintetikoa

Funtsezko berrikuntza bat corpusaren izaera da. Ez da testu-liburuak kopiatu eta modeloari pasatzea. Corpusa bereziki sintetizatu eta birformateatu da hizkuntza-modeloen ulermena maximizatzeko.[10]

Jatorrizko dokumentu medikoak — gida klinikoak, protokoloak, tratatuak — pipeline baten bidez prozesatzen dira:

  1. Klinikoki garrantzitsua den informazioa ateratzen du
  2. Giza irakurketara bideratutako erredundantzia eta formatua ezabatzen ditu
  3. Informazioa LLMek modu eraginkorragoan prozesatzen dituzten formatuetan berregituratu egiten du
  4. Espezialitateen arteko zeharkako erlazioekin aberasten du[11]

Emaitza gizaki batek irakurtzeko zaila aurkituko lukeen corpus bat da, baina LLM batek eraginkortasun maximoarekin prozesatzen duena.

Ingelesezko arrazoiketa

MIR-eko galderak gaztelaniaz egon arren eta erantzunak gaztelaniaz sortzen badira ere, barneko arrazoiketa eta orkestatzailearen eta adituen arteko komunikazio guztia ingelesez egiten da.[12]

Erabaki hau ondo dokumentatutako errealitate enpiriko batean oinarritzen da: gaur egungo LLMek, euskarri eleaniztuna eduki arren, barneko irudikapen aberatsagoa eta eraginkorragoa dute ingelesez.[13] Ingelesezko tokenek informazio semantiko gehiago kodetzen dute token bakoitzeko, arrazoiketa zehatzagoa da, eta pentsamendu-kateek akats gutxiago sortzen dituzte.

Praktikan, honek esan nahi du ALMA eta MIRIk:

  1. Galdera gaztelaniaz jasotzen dutela
  2. Barnean ingelesera itzultzen dutela arrazoiketarako
  3. Adituek ingelesez arrazoitu eta komunikatzen direla (hala behar duen terminologia medikoarentzat itzulpen-jarraibideak emanez)
  4. Orkestatzaileak azken erantzuna ingelesez sintetizatzen duela
  5. Erantzuna gaztelaniara itzultzen dela irteerarako

Pipeline honek konplexutasun-geruza bat gehitzen du, baina zehaztasuneko onurak token gehigarrien kostua neurrigabe konpentsatzen du.

Galdera Gaztelaniaz

Ingelesezko arrazoiketa-eremua

Itzulpena

Adituek EN arrazoitzen

Orkestatzaileak EN sintetizatzen

Erantzuna Gaztelaniaz

Eleaniztun prozesatzeko pipelinea: galdera ingelesera itzultzen da barneko arrazoiketarako eta erantzuna gaztelaniaz itzultzen da


7. Berrikuntza Teknikoak

Arkitektura orokorretik haratago, ALMA eta MIRIk hainbat berrikuntza tekniko biltzen dituzte beren errendimendu apartera laguntzen dutenak.

7.1. LLMentzat corpus sintetikoa

LLMekin entrenamendu eta erabilerarako datu sintetikoen sorrera eboluzio azkarreko arloa da.[10] Testuinguru medikoan, MedSyn bezalako framework-ek frogatu dute datu sintetikoek modu esanguratsuan hobetu dezaketela errendimendua zeregin klinikoetan.[11]

ALMA/MIRIren corpusaren eta datu sintetiko konbentzionalen arteko funtsezko aldea helburua da: ez da modelo bat entrenatzeko (fine-tuning) datuak sortzea, berreskurapen eta kontsultarako (RAG) optimizatutako corpus bat sortzea baizik. Honek ezagutza eguneratzea ahalbidetzen du modelo oinarrizkoaren pisuak aldatu gabe.

Guías clínicas, protocolos

Extrae

Información clínicamente relevante

Elimina

Redundancia y formato humano

Reestructura

Formatos eficientes para LLMs

Enriquece

Relaciones entre especialidades

Corpus sintético optimizado

Pipeline de procesamiento del corpus: los documentos médicos se transforman en un formato optimizado para consumo por modelos de lenguaje

7.2. Eguneraketa inkrementala RLMrekin

IA mediko edozein sistemaren erronka kritiko bat ezagutza eguneratuta mantentzea da. Gida klinikoak aldatzen dira, entsegu kliniko berriak argitaratzen dira, protokolo terapeutikoak eguneratzen dira.

ALMA eta MIRIk Hizkuntza Modelo Errekurtsiboak (RLM) oinarritutako eguneraketa inkremental sistema bat erabiltzen dute.[14] Eguneraketa bat dagoenean corpus osoa berreraiki beharrean, sistemak:

  1. Corpusaren zein zati zaharkitu diren detektatzen du
  2. Eguneratutako informazioaren bertsio sintetizatu berriak sortzen ditu
  3. Zati berriak corpusaren gainerakoarekiko koherentzia mantenduz integratzen ditu
  4. Eguneraketak kontraesan berririk sartzen ez duen egiaztatzen du

Prozesu hau denbora errealean gainbegiratzen da eta corpusa etengabe eguneratuta mantentzea ahalbidetzen du, zerbitzu-etenak gabe.

7.3. Token-cachea eta testuinguru infinitua

~32 aditu eta kontsulta-iterazio anitzekin, galdera bakoitzeko prozesatutako token kopurua izugarria izan daiteke. Kostuak kontrolpean eta abiadura maila onargarrietan mantentzeko, sistemak token-cachearen teknika aurreratuak ezartzen ditu.

KV-Cachearen optimizazioa funtsezkoa da LLM modernoen eraginkortasunerako.[15] SnapKV bezalako teknikek arreta-cachea konprimitzea ahalbidetzen dute errendimenduaren galera esanguratsurik gabe.[16] LMCache bezalako sistemek optimizazio hau urrats bat haratago eramaten dute, kontsulta anitzen artean cachea partekatzea ahalbidetuz.[17]

ALMA eta MIRIk azpidelegaziodun memoria-zuhaitza deitzen dugun teknika bat ezartzen dute: orkestatzaileak testuinguru-zuhaitz bat mantentzen du, non adar bakoitza kontsultatutako aditu bati dagokion. Aditu batek beste bat kontsultatu behar duenean, adar berri bat sortzen da gurasoaren testuinguru garrantzitsua oinordekotzan hartzen duena tokenak bikoiztu gabe. Honek adituen artean "elkarrizketak" modu eraginkorrean mantentzea ahalbidetzen du.

7.4. Ingelesezko arrazoiketa

Arkitektura-atalean aipatu bezala, barneko arrazoiketa guztia ingelesez egiten da. Azken ikerketak baieztatzen du LLM eleanitzek barnean ingelesez "pentsatzen" dutela, sarrera-hizkuntza edozein dela ere.[12] Arrazoiketa eleaniztunari buruzko beste ikerketa batzuek ere berresten dute arrazoiketa-zeregin konplexuetako errendimendua modu esanguratsuan hobetzen dela ingelesa barneko prozesamendu-hizkuntza gisa erabiltzera behartzen denean.[13]

Token-eraginkortasunaren ikuspegitik, ingelesak ordezkagarritasun semantiko handiagoa eskaintzen du token bakoitzeko: ingelesez adierazitako ideia mediko batek normalean gaztelaniaz baino token gutxiago behar ditu, eta horrek kostuak murrizten ditu eta modeloaren arreta-leihoaren barruan testuinguru gehiago prozesatzea ahalbidetzen du.


8. Datuen Subiranotasuna: Bedrock Aragoien

Informazio medikoa prozesatzen duen AA modelo baten testuinguruan — etorkizuneko hedapenetan pazienteen datu klinikoak izan ditzakeena barne — datuen subiranotasuna ez da xehetasun tekniko bat: legezko eta etikako funtsezko baldintza bat da.

ALMA eta Bedrock Aragoi

ALMAren modelo orkestatzailea Amazon Bedrock-en exekutatzen da, zehazki Aragoiko (Espainia) datacenter-ean. Konfigurazio honek bermatzen du:

  1. EBren barruko prozesatzea: inferentzia-datu guztiak Espainiako lurraldean kokatutako zerbitzarietan prozesatzen dira, Europar Batasunaren jurisdikziopean.

  2. Anthropic-ek datuetarako sarbiderik gabe: Claude Bedrock bidez exekutatzean, Amazonek datu-prozesatzaile gisa jokatzen du bezeroarekin kontratu bidez. Anthropic-ek, Claude-ren garatzaileak, ez du sarbiderik kontsultetara, testuinguruetara ezta sortutako erantzunetara ere. Hau funtsean ezberdina da Anthropic-en API zuzena erabiltzea baino.

  3. GDPR betetzea: prozesamenduak Europar Batasuneko Datuak Babesteko Erregelamendu Orokorra betetzen du, datuen minimizazio, helburu-mugapen eta tratamendu-segurtasun printzipioak barne.

  4. AI Act-ekin bateragarritasuna: arkitektura Europar Batasuneko Adimen Artifizialeko Erregelamenduko eskakizunak betetzeko diseinatuta dago, IA medikoko sistemak "arrisku handiko" gisa sailkatzen dituena eta gardentasun, dokumentazio eta giza gainbegiratze-betebehar espezifikoak ezartzen dituena.[18]

Adituak: berme-modeloak espezializatuak

Aditu-modeloak — orkestatzailea baino txikiagoak eta espezializatuagoak — segurtasun-berme berberak dituztenak exekutatzen dira. Orkestatzailearen (galdera osoa ikusten duena) eta adituen (kontsulta zatituteak eta destestuinguratuteak jasotzen dituztenak) arteko banaketak babes-geruza osagarri bat eskaintzen du: banako aditu batek ere ez du kasu baten testuinguru kliniko osora sarbiderik.

🇪🇺
UE/España — Bedrock Aragón
GDPRAI Act

Pregunta médica

Orquestador

Expertos especializados

Corpus médico

Respuesta

Residencia de datos en España

Anthropic

Sin acceso a datos de inferencia

Arquitectura de soberanía de datos: todo el procesamiento ocurre dentro de la UE, sin acceso del proveedor del modelo a los datos de inferencia

ParámetroTendencia MIR 2026Implicación
Prozesamenduaren kokapenaEspainia (EB)Aragoiko Amazonen datacenter-a. Datu guztiak Espainiako lurraldean geratzen dira.
Modelo-hornitzailearen sarbideaSarbiderik gabeAnthropic-ek ez du inferentzia-datuetarako sarbiderik Bedrock bidez erabiltzen denean.
GDPR betetzeaOsoaAmazon datu-prozesatzaile gisa, BinPar tratamenduaren arduradun gisa.
AI Act (arrisku handia)DiseinatuaArkitektura AI Act-aren gardentasun eta gainbegiratze eskakizunetarako prestatua.

ALMAren arkitekturako subiranotasun eta datu-babeserako bermeak

Osasun-sektorerako inplikazioak

Errendimendu perfektua lortzea posible dela frogatzea datu medikoak EBtik kanpo bidali gabe inplikazio sakonak ditu Europako osasun-sektorean IAren adopziorako. Historikoki, datuen subiranotasunari buruzko kezkak IA medikoko sistemen ezarpenerako Europako ospitale eta osasun-zentroetan oztopo nagusietako bat izan dira.[19]

ALMAk erakusten du errendimenduaren eta pribatutasunaren arteko dilema hau dilema faltsu bat dela: biak izatea posible da.


9. IA Medikorako Inplikazioak

ALMA eta MIRIren emaitzek aurreko artikuluetan jadanik aipatzen genituen ondorioak indartzen eta hedatzen dituzte, baina aurrekaririk gabeko indarrarekin.

RAG Agentikoa > Fine-tuning

"Katedrala eta Bazarra"-ri buruzko gure aurreko analisian, RAG bidezko pertsonalizazioak fine-tuning-arekiko funtsezko abantailak eskaintzen dituela argumentatzen genuen aplikazio medikoetarako. ALMA eta MIRI tesi horren froga enpiriko behin betikoa dira.

Medikuntza klinikoko IA agenteei buruzko azken ikerlanetan baieztatzen da sistema agentikoek sistematikoki oinarrizko modeloak gainditzen dituztela, azken hauek domeinu medikoarentzat bereziki fine-tuneatu direnean ere.[20] Arrazoia sinplea da: fine-tuning bidez modelo batek bere pisuak modu estatikoan aldatzen ditu, sistema RAG agentiko batek informazio eguneratua dinamikoki kontsultatu dezakeen bitartean.

RAG vs. Fine-Tuning ataza medikoetan. Datuak: MDPI Bioengineering 2025 (BLEU), PMC systematic review (haluzinazioek), medRxiv 2025 (agenteak).

Pertsonalizazioa pisuak aldatu gabe

ALMA eta MIRIk publikoki eskuragarri dauden modelo oinarrizko berak erabiltzen dituzte (Claude ALMA-rentzat, modelo konfidentziala MIRI-rentzat). Errendimendu-aldea ez dator modeloetako aldaketetatik, baizik eta:

  1. Corpusa — zein informazio ematen zaien
  2. Arkitektura — nola antolatzen den kontsulta
  3. Adituak — nola espezializatzen den ezagutza
  4. Iterazioa — zenbat aldiz findutzen den erantzuna

Honek esan nahi du ALMA/MIRIren abantaila erreproduzitzeko modukoa dela kalitate handiko corpus medikoa eta arkitektura agentiko bat ezartzeko gaitasun teknikoa duen edozein erakundek.

Etorkizuna: corpusaren etengabeko eguneratzea

Agian epe luzerako inplikazio garrantzitsuena ALMA eta MIRIk etengabe hobetu dezaketela da modeloak berriz entrenatu beharrik gabe. Gida kliniko berri bat argitaratzen denean, protokolo terapeutiko bat eguneratzen denean edo diagnostiko-elkarketa berri bat aurkitzen denean, nahikoa da corpusa eguneratzea. Sistemak ezagutza berria berehala biltzen du.

"Ezagutza zerbitzu gisa" eredu honek — non adimena corpusean eta arkitekturan kokatzen den, ez modeloaren pisuetan — IA medikoko sistemak nola garatzen eta hedatzen diren birdefinitu lezake hurrengo hamarkadan.


10. Ondorioak

ALMAk perfekzioa lortzeko modukoa dela frogatzen du

600 galdera. Espainiako mediku onenak hautatzeko diseinatutako hiru urteko azterketak. Zero akats. ALMAk frogatzen du, arkitektura egokiarekin, corpus zuzenarekin eta beharrezko inbertsioarekin, posible dela huts egiten ez duen IA medikoko sistema bat eraikitzea. Ez "ia inoiz". Inoiz.

MIRIk bikaintasuna eskuragarria dela frogatzen du

596/600 $2,38ko kostuan. MIRIk frogatzen du ia perfektua den zehaztasunak ez duela aurrekontu astronomikorik behar. Medikuntza-ikasle batek merkatuko edozein modelo estandarren gainetik dagoen sistema baterako sarbidea izan dezake kafe bat baino kostu txikiagoan.

Ikuspegi agentikoak edozein modelo orokor gainditzen du

Modelo orokor bakar batek ere — ez Geminik, ez GPT-5ek, ez Claude-k, ez ebaluatutako ~290etako bakar batek ere — ez du inoiz 200/200 lortu deialdi bakar batean. ALMAk hiruretan lortzen du. MIRIk berriena denean lortzen du. Adituen bidezko espezializazioak, arrazoiketa aurreratuko orkestatzaile batekin konbinatuta, "denerako modelo bakarra" ikuspegiak parekatu ezin dituen emaitzak sortzen ditu.

Datuen subiranotasuna errendimendu maximoarekin bateragarria da

ALMAk bere inferentzia guztia Espainian prozesatzen du, datuak EBtik kanpo bidali gabe, Anthropic-ek kontsultetarako sarbiderik izan gabe. Eta hala ere emaitza perfektua lortzen du. Pribatutasuna eta errendimendua ez dira gatazkan dauden helburuak.

Zer dator

Emaitza hauek RAG Agentikoan oinarritutako IA medikoko sistemen hedapen kliniko errealak egiteko bidea irekitzen dute. Ez irizpide klinikoaren ordezko gisa, baizik eta frogatutako eta egiaztagarria den fidagarritasunarekin diagnostikoaren laguntzarako sistema gisa.

Medical Benchmark-en modelo estandarrak zein modelo custom-ak ebaluatzen jarraituko dugu, artearen egoera gure plataforma bereizten duten zorroztasun eta gardentasunarekin dokumentatuz. Emaitza guztiak gure ranking plataforman daude eskuragarri.


ALMA eta MIRI benchmark-eko gainerako modeloen baldintza berberetan ebaluatu dira: prompt bera, galdera berak, timing bera. Emaitzak egiaztagarriak eta erreproduzitzeko modukoak dira. Ebaluazioak azterketa bakoitza ospatu ondoren egin diren arren, modeloek ez dute internetera sarbiderik ez eta galderen emaitza edo erantzun zuzenei buruzko informaziorik, beraz ez dago datuen kutsadura-arriskurik.

Notas y Referencias

  1. ALMAk ez ditu 200 galdera ofizialak (baliogabetzeen ondorengo baliozkoak) bakarrik asmatu, baizik eta deialdi bakoitzeko 10 erreserba-galderak (201-210) ere bai. Guztira: 210/210 x 3 urte = 630/630 erreserbak barne, 600/600 azterketako balio-galderak soilik kontuan hartuta.
  2. Long, Y., et al. "LLMs Meet Synthetic Data Generation: A Survey". ACL 2024. LLMentzat datu sintetikoen sorrera berreskurapen eta arrazoiketarako optimizatutako corpusak sortzea ahalbidetzen du. Esteka
  3. Amazon Bedrock eu-south-2 eskualdean (Aragoi, Espainia). Anthropic-ek ez du inferentzia-datuetarako sarbiderik Bedrock hedapenetan. AWS Bedrock-en datu-babeserako dokumentazioa
  4. Kalkulua: 0,995^600 ≈ 0,049, hau da, galdera bakoitzeko %99,5eko zehaztasuna duen modelo batek gutxi gorabehera %4,9ko probabilitatea du 600 galdera jarraian asmatatzeko. ALMAk galdera bakoitzeko %100eko zehaztasunarekin lortzen du.
  5. Singh, A., et al. "Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG". arXiv:2501.09136, 2025. Esteka
  6. "MA-RAG: Multi-Agent Retrieval-Augmented Generation". arXiv:2505.20096, 2025. Agente anitzeko RAG sistemek ohiko RAG sistemak gainditzen dituzte zehaztasunean eta arrazoiketa-gaitasunean. Esteka
  7. Zuo, Y., et al. "KG4Diagnosis: A Hierarchical Multi-Agent LLM Framework with Knowledge Graph Enhancement for Medical Diagnosis". arXiv:2412.16833, 2024. Esteka
  8. Zhang, C., et al. "AgentOrchestra: Orchestrating Specialized Agents for Complex Tasks". arXiv:2506.12508, 2025. Esteka
  9. Zhuge, M., et al. "GPTSwarm: Language Agents as Optimizable Graphs". ICML 2024. Esteka
  10. Long, Y., et al. "LLMs Meet Synthetic Data Generation: A Survey". ACL 2024. Esteka
  11. Kumichev, A., et al. "MedSyn: LLM-based Synthetic Medical Text Generation Framework". arXiv:2408.02056, 2024. Esteka
  12. Schut, L., Gal, Y., Farquhar, S. "Do Multilingual LLMs Think In English?". ICML 2025. Modelo eleanitzek barnean ingelesez prozesatzen dute beste hizkuntzetako sarrerekin ere. Esteka
  13. "Multilingual Reasoning: A Survey of Challenges and Approaches". 2025. Ingelesezko arrazoiketak beste hizkuntzetan baino emaitza hobeak ematen ditu, hizkuntza horietan egindako zereginen kasuan ere. Esteka
  14. Zhang, T., Kraska, T., Khattab, O. "Recursive Language Models". arXiv:2512.24601, 2025. Esteka
  15. Luohe, S., et al. "A Survey on KV-Cache Optimization for Large Language Models". arXiv:2407.18003, COLM 2024. Esteka
  16. Li, Y., et al. "SnapKV: LLM Knows What You are Looking for Before Generation". NeurIPS 2024. Esteka
  17. "LMCache: Efficient KV-Cache Management for Large Language Models". arXiv:2510.09665, 2025. Esteka
  18. Minssen, T., et al. "The EU AI Act and Its Implications for Medical Products". npj Digital Medicine, 2024. Esteka
  19. "The EU AI Act: Implications for Healthcare AI Systems". 2024. IA medikoko sistemak arrisku handiko gisa sailkatzen dira AI Act-aren arabera, adostasun-ebaluazioak eta giza gainbegiratzea eskatuz.
  20. "AI Agents in Clinical Medicine: Promise and Challenges". PMC, 2025. IA agenteek oinarrizko modeloak gainditzen dituzte zeregin klinikoetan arrazoiketa ezagutza espezializaturako sarbidearekin konbinatuz.