Hiru urtez, Medical Benchmark-ek 300 adimen artifizialeko modelo baino gehiago ebaluatu ditu MIR azterketan, Espainiako prestakuntza mediko espezializaturako sarbide-proban. Dokumentatu dugu nola modelo orokor onenek — Gemini, GPT, Claude — %100eko sabaira hurbildu diren, gero eta galdera gutxiago hutsez, gero eta diru gutxiago kostatuz, gero eta azkarrago erantzunez.
Baina beti huts egiten zuten zerbaitetan.
Gaur hesi hori hausten duten bi modeloren emaitzak aurkezten ditugu. Ez dira modelo orokorrak. Ez daude linean eskuragarri. Ezin dira API publiko batekin probatu. Modelo custom dira, Espainian eraikiak oinarrizko arkitektura ezberdina dutenak: espezialista adituekin RAG Agentikoa.
MIRI, BinPar-ek PROMIR-entzat (Editorial Medica Panamericana) garatua, 600etik 596 MIR galdera asmatu ditu, hiru urtetan 4 akats besterik gabe eta MIR 2026an 200/200eko errendimendu perfektua lortuz. Eta hori guztia guztira $2,38-ko kostuan egin du — ALMA baino 13 aldiz gutxiago eta modelo estandar merkeenekin konparagarria.
ALMA, BinPar-ek Editorial Medica Panamericana-ren eta Gida Kliniko Espainiarren edukiekin garatua, azken hiru MIR azterketetako 600 galderak asmatu ditu — erreserba-galdera guztiak barne — akats bakar bat ere gabe.[1] Historian zehar MedBench-eko AA modelo bakar batek ere ez du, eta guk dakigunez, munduko benchmark mediko bateko modelo bakar batek ere ez du inoiz hiru urteko metatutako puntuazio perfektu bat lortu.
1. Emaitzak: %100eko Horma
Has gaitezen zenbakietatik. Apaindurik gabe, hiperbolerik gabe. Datuak besterik ez.
ALMAren datuak
| Deialdia | Zuzenak | Akatsak | Garbiak | Zehaztasuna | Kostua | Denbora/galdera | Konfiantza | Reasoning Tokens |
|---|---|---|---|---|---|---|---|---|
| MIR 2024 | 200/200 | 0 | 200,00 | 100,0% | $9,99 | 54,7s | 99,9% | 71K |
| MIR 2025 | 200/200 | 0 | 200,00 | 100,0% | $11,02 | 50,8s | 99,8% | 78K |
| MIR 2026 | 200/200 | 0 | 200,00 | 100,0% | $10,56 | 54,3s | 99,8% | 66K |
| Metatua | 600/600 | 0 | 600,00 | 100,0% | $31,57 |
MIRIren datuak
| Deialdia | Zuzenak | Akatsak | Garbiak | Zehaztasuna | Kostua | Denbora/galdera | Konfiantza |
|---|---|---|---|---|---|---|---|
| MIR 2024 | 198/200 | 2 | 197,33 | 99,0% | $0,78 | 14,2s | 99,9% |
| MIR 2025 | 198/200 | 2 | 197,33 | 99,0% | $0,82 | 15,3s | 99,8% |
| MIR 2026 | 200/200 | 0 | 200,00 | 100,0% | $0,78 | 11,9s | 100,0% |
| Metatua | 596/600 | 4 | 594,66 | 99,3% | $2,38 |
Orain, jar dezagun hau testuinguruan benchmark-eko modelo estandar onenekin.
ALMA y MIRI (modelos custom con RAG Agéntico) frente a los 10 mejores modelos estándar del benchmark MIR 2026
MIR 2026an, bai ALMAk bai MIRIk 200/200 lortu dute: puntuazio perfektua. Modelo estandar bakar batek ere ez du inoiz 200/200 lortu hiru deialdietako batean ere. 2026ko emaitza estandar onena 199/200 da, hiru modeloek partekatua (Gemini 3 Flash, o3 eta GPT-5).
Aldea txikia dirudike — asmatze bakar bat — baina asmatze bakarreko alde hori, sistematikoki urtez urte errepikatua, apartekoa eta perfektua bereizten ditu.
MIR 2026ko 5 modelo estandar onenak
| Modeloa | Zuzenak | Garbiak | Kostua |
|---|---|---|---|
| Gemini 3 Flash | 199/200 | 198,67 | $0,34 |
| o3 | 199/200 | 198,67 | $1,94 |
| GPT-5 | 199/200 | 198,67 | $2,05 |
| GPT-5.1 Chat | 198/200 | 197,33 | $0,65 |
| GPT-5 Codex | 198/200 | 197,33 | $0,89 |
2. Hiru Urteren Ikuspegia
Azterketa bat zoria izan daiteke. Bi, kasualitatea. Hiru urteko emaitza koherenteak joera bat dira.
Preguntas correctas acumuladas en MIR 2024, 2025 y 2026 (máximo: 600). Solo se muestran los modelos con resultados en los 3 años.
Grafiko honek ALMAren koherentzia absolutua erakusten du: 200/200 hiru urteetan, salbuespenik gabe. Ez ditu galdera ofizial guztiak besterik asmatu, erreserba-galdera guztiak ere bai (201-210) deialdi bakoitzean. Galdera ofizialak baliogabetu eta erreserbak hartzen direnean, ALMAk guztiak zuzen ditu.
MIRIk progresio lilugarria erakusten du: 198/200 2024an, 198/200 2025ean, eta azkenik 200/200 2026an. Modeloa hobetuz joan da perfekzioa lortu arte.
Metatutako modelo estandar onena, Gemini 3 Flash, 590/600era iristen da — emaitza bikaina termino absolutuetan, baina ALMA baino 10 asmatze gutxiago.
Total de errores en MIR 2024 + 2025 + 2026 (máximo posible: 600). Menos es mejor.
Metatutako akatsen bisualizazioa agian adierazgarriena da. ALMAk barra hutsa du: zero akats hiru urtetan. MIRIk 4 besterik ez ditu metatzen. Modelo estandar onena, Gemini 3 Flash, 10 metatzen ditu. Top 5 estandarreko gainerako modeloek dozena bat akats gainditzen dute.
| Parámetro | Tendencia MIR 2026 | Implicación |
|---|---|---|
| ALMA vs estandar onena | -10 akats | ALMAk 0 akats egiten ditu modelo estandar onenaren 10en aldean (Gemini 3 Flash) 3 urtetan |
| MIRI vs estandar onena | -6 akats | MIRIk 4 akats besterik ez ditu egiten Flash-en 10en aldean, 2,3 aldiz kostu handiagoan soilik |
| MIRI vs ALMA | +4 akats | MIRIk ALMA baino 4 akats gehiago egiten ditu, baina bere kostua 13,3 aldiz txikiagoa da ($2,38 vs $31,57) |
| ALMA: saihestitako akats bakoitzeko kostua | $2,92/akats | Flash-en aldean, ALMAk $30,55 gehiago kostatzen du baina 10 akats saihesten ditu ($3,06 saihestitako akats bakoitzeko) |
3 urteko metatutako akatsen konparaketa: modelo custom-ak vs modelo estandar onena
3. MIRIren Hutsen Anatomia
MIRIk zehazki 2 galdera huts egiten ditu MIR 2024an, 2 MIR 2025ean eta 0 MIR 2026an. Azter dezagun huts bakoitza.
MIR 2024: 9. eta 13. galderak
MIR 2024an, MIRIk 9. eta 13. galderak huts egiten ditu. Biak azterketako lehen 25 galderen artean daude, bertsio guztientzat (V0-V4) komunak direnak.
MIR 2025: 181. eta 201. galderak
MIR 2025ean, MIRIk 181. eta 201. galderak huts egiten ditu. 201. galdera erreserba-galdera bat da — horrek esan nahi du, erreserba guztiak asmatu dituen ALMA ez bezala, MIRIk bat huts egiten duela.
MIR 2026: Perfekzioa
MIR 2026an, MIRIk ez du galderarik huts egiten. Ez 200 ofizialak, ez 10 erreserbakoak. Modeloa eboluzionatu egin da errendimendu perfektua lortu arte.
Hobekuntza-joera
MIRIren eboluzioak RAG Agentiko arkitekturaren oinarrizko abantailetako bat ilustratzen du: modelo oinarrizkoa berriz entrenatu gabe etengabeko hobekuntza egiteko gaitasuna. Corpusaren eta adituen konfigurazioaren iterazio bakoitzak hobekuntza inkremental neurgarriak sortzen ditu.
MIR 2024
2 erroresMIR 2025
2 erroresMIR 2026
Perfección| Deialdia | MIRI akatsak | ALMA akatsak | MIRI eboluzioa |
|---|---|---|---|
| MIR 2024 | 2 | 0 | Oinarrizko lerroa |
| MIR 2025 | 2 | 0 | Mantenimendua |
| MIR 2026 | 0 | 0 | Perfekzioa |
4. ALMA: Perfekzioaren Anatomia
ALMA BinPar-ek garatutako modeloa da, Editorial Medica Panamericana-ren — mundu hispanohitzarenean erreferentziako argitaletxe medikoa — edukiekin eta gida kliniko hautatu batzuekin. Erreferentzia kliniko tresna gisa kontzebitu da osasun profesionalentzat: jardunean dauden medikuak, prestakuntzako espezialistak eta erakunde sanitario edo osasun zerbitzu baten barruan ezagutza kliniko eguneratua kontsultatu eta balioztatu behar duten profesionalak.
Gaur egun CATSalut-eko (Kataluniako osasun zerbitzua) hamaika mila profesionalek erabiltzen dute.
Corpusa: gida klinikoak eta gomendioak
ALMAren oinarrizko abantaila bere arkitekturan eta corpusean datza. Editorial Medica Panamericanak gaztelaniazko literatur medikoaren katalogo osoenenetako bat du, besteak beste:
- Oposizioetarako prestakuntzara (tartean MIR) zuzendutako eduki espezifikoak
- Espezialitate mediko guztietako erreferentziako tratatuak
- Elkarte zientifiko nagusietako gida klinikoak
- Ebidentzia zientifiko berrienetaren arabera eguneratutako protokoloak
- Espezialistek diseinatutako eta berrikusitako prestakuntza-materiala
Corpus hau hizkuntza-modeloek kontsumitzeko prozesatu eta optimizatu da, token bakoitzeko informazio garrantzitsuaren dentsitatea maximizatzen duen corpus sintetiko espezializatu bat sortuz.[2]
Orkestatzailea: Claude Sonnet 4.5 Bedrock Aragoien
ALMAren modelo orkestatzailea Claude Sonnet 4.5 da arrazoiketa hedatuarekin, Amazon Bedrock-en Aragoiko datacenter-ean (Espainia) exekutatua. Aukera hau ez da kasualitatea: inferentzia-datu guztiak — galdera medikoak, testuinguru klinikoak, erantzunak — Europar Batasunaren barruan prozesatzen direla bermatzen du, legezko eta pribatutasun-bermerik zorrotzenekin.[3]
Metrika zehatzak
| Metrika | MIR 2024 | MIR 2025 | MIR 2026 |
|---|---|---|---|
| Zehaztasuna | 100,0% | 100,0% | 100,0% |
| Azterketa bakoitzeko kostua | $9,99 | $11,02 | $10,56 |
| Galdera bakoitzeko kostua | $0,048 | $0,052 | $0,050 |
| Galdera bakoitzeko denbora | 54,2s | 50,8s | 54,3s |
| Batez besteko konfiantza | 99,9% | 99,8% | 99,8% |
| Arrazoiketa-tokenak | 71K | 78K | 66K |
~$10,50eko batez besteko kostua azterketa bakoitzeko (gutxi gorabehera 10 euro aldaketa-tasarekin) esanguratsua da Gemini Flash ($0,34) bezalako modelo estandarrekin alderatuz, baina testuinguruan jarri behar da: ALMAk ez du batere galdera huts egiten. Hiru urtetan. Erreserbak barne. Akats baten kostua testuinguru kliniko erreal batean $10 baino infinituki handiagoa izan daiteke.
~53 segundoko batez besteko denbora galdera bakoitzeko arkitekturaren izaera iteratiboa islatzen du: orkestatzaileak hainbat aditu kontsultatzen ditu (agente birtual espezializatuak), haien erantzunak ebaluatzen ditu, argibideak eskatu ditzake eta azken erantzun bat sintetizatzen du. Galdera bakoitzak ~32 espezialisteren arteko "mediku-batzorde" baliokidea jasotzen du.
600/600: aurrekaririk gabe
Emaitza honen garrantzia ulertzeko, komenigarria da gogoratzea:
- Ebaluatutako ~290 modelo estandaretako batek ere ez du inoiz 200/200 lortu deialdi bakar batean.
- Metatutako estandar onena 590/600 da (Gemini 3 Flash) — 10 akats.
- ALMAk ez ditu 200 ofizialak besterik asmatu, baizik eta urte bakoitzeko 10 erreserbak ere bai (210/210 x 3).
5. MIRI: Zehaztasuna publiko zabalerako
MIRI BinPar-ek PROMIR-entzat garatutako modeloa da, Editorial Medica Panamericanaren MIR prestakuntzarako plataforma. ALMA ingurune kliniko batean lan egiten duten profesionalentzat kontzebitu bada, MIRI medikuntza-ikasleak, egoiliarrak, MIR oposiziogile eta profesional independienteak galderak azkar eta zehaztasunez ebazteko diseinatua dago.
Diseinu-filosofia
MIRIren arkitekturak ALMA-ren printzipio berak jarraitzen ditu — orkestatzaile zentrala + aditu espezializatuak + ezagutza-corpusa — baina optimizazio-profil ezberdina duena:
- Kostuari eta abiadurari lehentasuna, zehaztasun kritikoa sakrifikatu gabe
- Erantzun-denbora azkarrak (~13 segundo galdera bakoitzeko vs ALMA-ren ~53)
- Kostu optimizatua ($0,78-$0,82 azterketa oso bakoitzeko)
Kalitate-prezio erlazioa
Coste acumulado (3 exámenes) vs. precisión acumulada (3 años). Los modelos custom alcanzan mayor precisión a un coste competitivo.
Grafiko honek modelo bakoitzaren posizio estrategikoa erakusten du:
- ALMA (puntu urreduna, goian eskuinean): zehaztasun maximoa (%100), kostu moderatua ($31,57 metatua). Zehaztasuna gauza bakarra denean "konpromisorik gabeko" aukera da.
- MIRI (puntu teal-a, goian erdian): ia perfektua den zehaztasuna (%99,3), gutxieneko kostua ($2,38 metatua). Merkatuko kalitate-prezio erlazio oneneko aukera da.
- Gemini 3 Flash (puntu grisa, behean ezkerrean): zehaztasun bikaina (%98,3), kostu gaindiezina ($1,02 metatua). Baina ALMA baino 10 akats gehiago eta MIRI baino 6 gehiago.
6. Arkitektura: RAG Agentikoa
Nola da posible modelo custom-ek munduko modelo orokor onenak sistematikoki gainditzea? Erantzuna arkitekturan dago.
Orquestador
LLM de razonamiento avanzado
Especialidades Clínicas
Especialidades Quirúrgicas
Ciencias Básicas y Diagnósticas
Soporte y Contexto
Corpus sintético especializado
Optimizado para consumo por LLMs, no para lectura humana
~32
Expertos
Multi
Iteraciones
EN
Razonamiento
Arquitectura RAG Agéntico: el orquestador analiza cada pregunta, selecciona los expertos relevantes y sintetiza sus respuestas en múltiples iteraciones
RAG Agentikoak (Retrieval-Augmented Generation agenteekin) RAG sistema tradizionalen eboluzio aurreratuena adierazten du.[5] RAG estandar batek dokumentu garrantzitsuak berreskuratu eta urrats bakarrean modeloari pasatzen dizkion bitartean, RAG Agentikoak sofistikazio-maila erradikalki handiagoa sartzen du.
Orkestatzailea
Arkitekturaren erdian arrazoiketa aurreratuko modelo bat dago orkestra-zuzendari gisa jokatzen duena. Galdera mediko bat jasotzen duenean, orkestatzaileak ez du informazioa bilatzera mugatzen: galdera aztertzen du, zein espezialitate diren garrantzitsuak identifikatzen du, eta zein aditu kontsultatu erabakitzen du.
Prozesu hau iteratiboa da. Aditu baten erantzuna nahikoa ez bada edo beste baten erantzunarekin kontraesankorra bada, orkestatzaileak honako hauek egin ditzake:
- Kontsulta birformulatu eta berriro galdetu
- Aditu osagarriak kontsultatu hasieran kontuan hartu ez zituenak
- Sakontzea eskatu alderdi espezifiko batean
- Erantzunak kontrastatu aditu anitzen artean
Kontsulta iteratibo eta agente anitzeko joera honek frogatua du sistematikoki LLMen erabilera zuzena gainditzen duela bai medikuntzan bai beste domeinu espezializatuetan.[6]
~32 aditu espezializatuak
Aditu bakoitza diziplina mediko zehatz batean espezializatutako RAG sistema bat da (kardiologia, pneumologia, farmakologia, etab.). Bere espezialitaterako optimizatutako corpusaren azpimultzo batera du sarbidea eta bere domeinuko galderak zehaztasun maximoarekin erantzuteko konfiguratua dago.
Gakoa azpidelegazio adimentsua da: adituak ez dira prompt ezberdina duten modelo sinpleak. Bakoitzak bere ezagutza-oinarri propioa du, bere testuinguru propioa, eta bere aldetik azpikontsultak beste aditu batzuei delegatu ditzake espezialitate arteko mugak zeharkatzen dituen galdera bat detektatzen duenean.
Diseinu hau diagnostiko medikoko agente anitzeko sistemei buruzko azken ikerketarekin lerrokatzen da,[7] aditu espezializatuen orkestrazioarekin[8] eta agenteen grafoen optimizazioarekin.[9]
Euskarri multimodala
Bai ALMAk bai MIRIk irudi klinikoak dituzten galderak prozesatzen dituzte (erradiografiak, elektrokardiogramak, argazki dermatologikoak, etab.). Sistema multimodalak adituek irudiak beren testuinguru espezializatuan aztertzea ahalbidetzen du: kardiologo birtual batek EKG bat txosten testual bati eskainiko liokeen xehetasun-maila berarekin aztertzen du.
LLMentzat optimizatutako corpus sintetikoa
Funtsezko berrikuntza bat corpusaren izaera da. Ez da testu-liburuak kopiatu eta modeloari pasatzea. Corpusa bereziki sintetizatu eta birformateatu da hizkuntza-modeloen ulermena maximizatzeko.[10]
Jatorrizko dokumentu medikoak — gida klinikoak, protokoloak, tratatuak — pipeline baten bidez prozesatzen dira:
- Klinikoki garrantzitsua den informazioa ateratzen du
- Giza irakurketara bideratutako erredundantzia eta formatua ezabatzen ditu
- Informazioa LLMek modu eraginkorragoan prozesatzen dituzten formatuetan berregituratu egiten du
- Espezialitateen arteko zeharkako erlazioekin aberasten du[11]
Emaitza gizaki batek irakurtzeko zaila aurkituko lukeen corpus bat da, baina LLM batek eraginkortasun maximoarekin prozesatzen duena.
Ingelesezko arrazoiketa
MIR-eko galderak gaztelaniaz egon arren eta erantzunak gaztelaniaz sortzen badira ere, barneko arrazoiketa eta orkestatzailearen eta adituen arteko komunikazio guztia ingelesez egiten da.[12]
Erabaki hau ondo dokumentatutako errealitate enpiriko batean oinarritzen da: gaur egungo LLMek, euskarri eleaniztuna eduki arren, barneko irudikapen aberatsagoa eta eraginkorragoa dute ingelesez.[13] Ingelesezko tokenek informazio semantiko gehiago kodetzen dute token bakoitzeko, arrazoiketa zehatzagoa da, eta pentsamendu-kateek akats gutxiago sortzen dituzte.
Praktikan, honek esan nahi du ALMA eta MIRIk:
- Galdera gaztelaniaz jasotzen dutela
- Barnean ingelesera itzultzen dutela arrazoiketarako
- Adituek ingelesez arrazoitu eta komunikatzen direla (hala behar duen terminologia medikoarentzat itzulpen-jarraibideak emanez)
- Orkestatzaileak azken erantzuna ingelesez sintetizatzen duela
- Erantzuna gaztelaniara itzultzen dela irteerarako
Pipeline honek konplexutasun-geruza bat gehitzen du, baina zehaztasuneko onurak token gehigarrien kostua neurrigabe konpentsatzen du.
Galdera Gaztelaniaz
Ingelesezko arrazoiketa-eremua
Itzulpena
Adituek EN arrazoitzen
Orkestatzaileak EN sintetizatzen
Erantzuna Gaztelaniaz
Eleaniztun prozesatzeko pipelinea: galdera ingelesera itzultzen da barneko arrazoiketarako eta erantzuna gaztelaniaz itzultzen da
7. Berrikuntza Teknikoak
Arkitektura orokorretik haratago, ALMA eta MIRIk hainbat berrikuntza tekniko biltzen dituzte beren errendimendu apartera laguntzen dutenak.
7.1. LLMentzat corpus sintetikoa
LLMekin entrenamendu eta erabilerarako datu sintetikoen sorrera eboluzio azkarreko arloa da.[10] Testuinguru medikoan, MedSyn bezalako framework-ek frogatu dute datu sintetikoek modu esanguratsuan hobetu dezaketela errendimendua zeregin klinikoetan.[11]
ALMA/MIRIren corpusaren eta datu sintetiko konbentzionalen arteko funtsezko aldea helburua da: ez da modelo bat entrenatzeko (fine-tuning) datuak sortzea, berreskurapen eta kontsultarako (RAG) optimizatutako corpus bat sortzea baizik. Honek ezagutza eguneratzea ahalbidetzen du modelo oinarrizkoaren pisuak aldatu gabe.
Guías clínicas, protocolos
Extrae
Información clínicamente relevante
Elimina
Redundancia y formato humano
Reestructura
Formatos eficientes para LLMs
Enriquece
Relaciones entre especialidades
Corpus sintético optimizado
Pipeline de procesamiento del corpus: los documentos médicos se transforman en un formato optimizado para consumo por modelos de lenguaje
7.2. Eguneraketa inkrementala RLMrekin
IA mediko edozein sistemaren erronka kritiko bat ezagutza eguneratuta mantentzea da. Gida klinikoak aldatzen dira, entsegu kliniko berriak argitaratzen dira, protokolo terapeutikoak eguneratzen dira.
ALMA eta MIRIk Hizkuntza Modelo Errekurtsiboak (RLM) oinarritutako eguneraketa inkremental sistema bat erabiltzen dute.[14] Eguneraketa bat dagoenean corpus osoa berreraiki beharrean, sistemak:
- Corpusaren zein zati zaharkitu diren detektatzen du
- Eguneratutako informazioaren bertsio sintetizatu berriak sortzen ditu
- Zati berriak corpusaren gainerakoarekiko koherentzia mantenduz integratzen ditu
- Eguneraketak kontraesan berririk sartzen ez duen egiaztatzen du
Prozesu hau denbora errealean gainbegiratzen da eta corpusa etengabe eguneratuta mantentzea ahalbidetzen du, zerbitzu-etenak gabe.
7.3. Token-cachea eta testuinguru infinitua
~32 aditu eta kontsulta-iterazio anitzekin, galdera bakoitzeko prozesatutako token kopurua izugarria izan daiteke. Kostuak kontrolpean eta abiadura maila onargarrietan mantentzeko, sistemak token-cachearen teknika aurreratuak ezartzen ditu.
KV-Cachearen optimizazioa funtsezkoa da LLM modernoen eraginkortasunerako.[15] SnapKV bezalako teknikek arreta-cachea konprimitzea ahalbidetzen dute errendimenduaren galera esanguratsurik gabe.[16] LMCache bezalako sistemek optimizazio hau urrats bat haratago eramaten dute, kontsulta anitzen artean cachea partekatzea ahalbidetuz.[17]
ALMA eta MIRIk azpidelegaziodun memoria-zuhaitza deitzen dugun teknika bat ezartzen dute: orkestatzaileak testuinguru-zuhaitz bat mantentzen du, non adar bakoitza kontsultatutako aditu bati dagokion. Aditu batek beste bat kontsultatu behar duenean, adar berri bat sortzen da gurasoaren testuinguru garrantzitsua oinordekotzan hartzen duena tokenak bikoiztu gabe. Honek adituen artean "elkarrizketak" modu eraginkorrean mantentzea ahalbidetzen du.
7.4. Ingelesezko arrazoiketa
Arkitektura-atalean aipatu bezala, barneko arrazoiketa guztia ingelesez egiten da. Azken ikerketak baieztatzen du LLM eleanitzek barnean ingelesez "pentsatzen" dutela, sarrera-hizkuntza edozein dela ere.[12] Arrazoiketa eleaniztunari buruzko beste ikerketa batzuek ere berresten dute arrazoiketa-zeregin konplexuetako errendimendua modu esanguratsuan hobetzen dela ingelesa barneko prozesamendu-hizkuntza gisa erabiltzera behartzen denean.[13]
Token-eraginkortasunaren ikuspegitik, ingelesak ordezkagarritasun semantiko handiagoa eskaintzen du token bakoitzeko: ingelesez adierazitako ideia mediko batek normalean gaztelaniaz baino token gutxiago behar ditu, eta horrek kostuak murrizten ditu eta modeloaren arreta-leihoaren barruan testuinguru gehiago prozesatzea ahalbidetzen du.
8. Datuen Subiranotasuna: Bedrock Aragoien
Informazio medikoa prozesatzen duen AA modelo baten testuinguruan — etorkizuneko hedapenetan pazienteen datu klinikoak izan ditzakeena barne — datuen subiranotasuna ez da xehetasun tekniko bat: legezko eta etikako funtsezko baldintza bat da.
ALMA eta Bedrock Aragoi
ALMAren modelo orkestatzailea Amazon Bedrock-en exekutatzen da, zehazki Aragoiko (Espainia) datacenter-ean. Konfigurazio honek bermatzen du:
-
EBren barruko prozesatzea: inferentzia-datu guztiak Espainiako lurraldean kokatutako zerbitzarietan prozesatzen dira, Europar Batasunaren jurisdikziopean.
-
Anthropic-ek datuetarako sarbiderik gabe: Claude Bedrock bidez exekutatzean, Amazonek datu-prozesatzaile gisa jokatzen du bezeroarekin kontratu bidez. Anthropic-ek, Claude-ren garatzaileak, ez du sarbiderik kontsultetara, testuinguruetara ezta sortutako erantzunetara ere. Hau funtsean ezberdina da Anthropic-en API zuzena erabiltzea baino.
-
GDPR betetzea: prozesamenduak Europar Batasuneko Datuak Babesteko Erregelamendu Orokorra betetzen du, datuen minimizazio, helburu-mugapen eta tratamendu-segurtasun printzipioak barne.
-
AI Act-ekin bateragarritasuna: arkitektura Europar Batasuneko Adimen Artifizialeko Erregelamenduko eskakizunak betetzeko diseinatuta dago, IA medikoko sistemak "arrisku handiko" gisa sailkatzen dituena eta gardentasun, dokumentazio eta giza gainbegiratze-betebehar espezifikoak ezartzen dituena.[18]
Adituak: berme-modeloak espezializatuak
Aditu-modeloak — orkestatzailea baino txikiagoak eta espezializatuagoak — segurtasun-berme berberak dituztenak exekutatzen dira. Orkestatzailearen (galdera osoa ikusten duena) eta adituen (kontsulta zatituteak eta destestuinguratuteak jasotzen dituztenak) arteko banaketak babes-geruza osagarri bat eskaintzen du: banako aditu batek ere ez du kasu baten testuinguru kliniko osora sarbiderik.
UE/España — Bedrock Aragón
Pregunta médica
Orquestador
Expertos especializados
Corpus médico
Respuesta
Anthropic
Sin acceso a datos de inferencia
Arquitectura de soberanía de datos: todo el procesamiento ocurre dentro de la UE, sin acceso del proveedor del modelo a los datos de inferencia
| Parámetro | Tendencia MIR 2026 | Implicación |
|---|---|---|
| Prozesamenduaren kokapena | Espainia (EB) | Aragoiko Amazonen datacenter-a. Datu guztiak Espainiako lurraldean geratzen dira. |
| Modelo-hornitzailearen sarbidea | Sarbiderik gabe | Anthropic-ek ez du inferentzia-datuetarako sarbiderik Bedrock bidez erabiltzen denean. |
| GDPR betetzea | Osoa | Amazon datu-prozesatzaile gisa, BinPar tratamenduaren arduradun gisa. |
| AI Act (arrisku handia) | Diseinatua | Arkitektura AI Act-aren gardentasun eta gainbegiratze eskakizunetarako prestatua. |
ALMAren arkitekturako subiranotasun eta datu-babeserako bermeak
Osasun-sektorerako inplikazioak
Errendimendu perfektua lortzea posible dela frogatzea datu medikoak EBtik kanpo bidali gabe inplikazio sakonak ditu Europako osasun-sektorean IAren adopziorako. Historikoki, datuen subiranotasunari buruzko kezkak IA medikoko sistemen ezarpenerako Europako ospitale eta osasun-zentroetan oztopo nagusietako bat izan dira.[19]
ALMAk erakusten du errendimenduaren eta pribatutasunaren arteko dilema hau dilema faltsu bat dela: biak izatea posible da.
9. IA Medikorako Inplikazioak
ALMA eta MIRIren emaitzek aurreko artikuluetan jadanik aipatzen genituen ondorioak indartzen eta hedatzen dituzte, baina aurrekaririk gabeko indarrarekin.
RAG Agentikoa > Fine-tuning
"Katedrala eta Bazarra"-ri buruzko gure aurreko analisian, RAG bidezko pertsonalizazioak fine-tuning-arekiko funtsezko abantailak eskaintzen dituela argumentatzen genuen aplikazio medikoetarako. ALMA eta MIRI tesi horren froga enpiriko behin betikoa dira.
Medikuntza klinikoko IA agenteei buruzko azken ikerlanetan baieztatzen da sistema agentikoek sistematikoki oinarrizko modeloak gainditzen dituztela, azken hauek domeinu medikoarentzat bereziki fine-tuneatu direnean ere.[20] Arrazoia sinplea da: fine-tuning bidez modelo batek bere pisuak modu estatikoan aldatzen ditu, sistema RAG agentiko batek informazio eguneratua dinamikoki kontsultatu dezakeen bitartean.
RAG vs. Fine-Tuning ataza medikoetan. Datuak: MDPI Bioengineering 2025 (BLEU), PMC systematic review (haluzinazioek), medRxiv 2025 (agenteak).
Pertsonalizazioa pisuak aldatu gabe
ALMA eta MIRIk publikoki eskuragarri dauden modelo oinarrizko berak erabiltzen dituzte (Claude ALMA-rentzat, modelo konfidentziala MIRI-rentzat). Errendimendu-aldea ez dator modeloetako aldaketetatik, baizik eta:
- Corpusa — zein informazio ematen zaien
- Arkitektura — nola antolatzen den kontsulta
- Adituak — nola espezializatzen den ezagutza
- Iterazioa — zenbat aldiz findutzen den erantzuna
Honek esan nahi du ALMA/MIRIren abantaila erreproduzitzeko modukoa dela kalitate handiko corpus medikoa eta arkitektura agentiko bat ezartzeko gaitasun teknikoa duen edozein erakundek.
Etorkizuna: corpusaren etengabeko eguneratzea
Agian epe luzerako inplikazio garrantzitsuena ALMA eta MIRIk etengabe hobetu dezaketela da modeloak berriz entrenatu beharrik gabe. Gida kliniko berri bat argitaratzen denean, protokolo terapeutiko bat eguneratzen denean edo diagnostiko-elkarketa berri bat aurkitzen denean, nahikoa da corpusa eguneratzea. Sistemak ezagutza berria berehala biltzen du.
"Ezagutza zerbitzu gisa" eredu honek — non adimena corpusean eta arkitekturan kokatzen den, ez modeloaren pisuetan — IA medikoko sistemak nola garatzen eta hedatzen diren birdefinitu lezake hurrengo hamarkadan.
10. Ondorioak
ALMAk perfekzioa lortzeko modukoa dela frogatzen du
600 galdera. Espainiako mediku onenak hautatzeko diseinatutako hiru urteko azterketak. Zero akats. ALMAk frogatzen du, arkitektura egokiarekin, corpus zuzenarekin eta beharrezko inbertsioarekin, posible dela huts egiten ez duen IA medikoko sistema bat eraikitzea. Ez "ia inoiz". Inoiz.
MIRIk bikaintasuna eskuragarria dela frogatzen du
596/600 $2,38ko kostuan. MIRIk frogatzen du ia perfektua den zehaztasunak ez duela aurrekontu astronomikorik behar. Medikuntza-ikasle batek merkatuko edozein modelo estandarren gainetik dagoen sistema baterako sarbidea izan dezake kafe bat baino kostu txikiagoan.
Ikuspegi agentikoak edozein modelo orokor gainditzen du
Modelo orokor bakar batek ere — ez Geminik, ez GPT-5ek, ez Claude-k, ez ebaluatutako ~290etako bakar batek ere — ez du inoiz 200/200 lortu deialdi bakar batean. ALMAk hiruretan lortzen du. MIRIk berriena denean lortzen du. Adituen bidezko espezializazioak, arrazoiketa aurreratuko orkestatzaile batekin konbinatuta, "denerako modelo bakarra" ikuspegiak parekatu ezin dituen emaitzak sortzen ditu.
Datuen subiranotasuna errendimendu maximoarekin bateragarria da
ALMAk bere inferentzia guztia Espainian prozesatzen du, datuak EBtik kanpo bidali gabe, Anthropic-ek kontsultetarako sarbiderik izan gabe. Eta hala ere emaitza perfektua lortzen du. Pribatutasuna eta errendimendua ez dira gatazkan dauden helburuak.
Zer dator
Emaitza hauek RAG Agentikoan oinarritutako IA medikoko sistemen hedapen kliniko errealak egiteko bidea irekitzen dute. Ez irizpide klinikoaren ordezko gisa, baizik eta frogatutako eta egiaztagarria den fidagarritasunarekin diagnostikoaren laguntzarako sistema gisa.
Medical Benchmark-en modelo estandarrak zein modelo custom-ak ebaluatzen jarraituko dugu, artearen egoera gure plataforma bereizten duten zorroztasun eta gardentasunarekin dokumentatuz. Emaitza guztiak gure ranking plataforman daude eskuragarri.
ALMA eta MIRI benchmark-eko gainerako modeloen baldintza berberetan ebaluatu dira: prompt bera, galdera berak, timing bera. Emaitzak egiaztagarriak eta erreproduzitzeko modukoak dira. Ebaluazioak azterketa bakoitza ospatu ondoren egin diren arren, modeloek ez dute internetera sarbiderik ez eta galderen emaitza edo erantzun zuzenei buruzko informaziorik, beraz ez dago datuen kutsadura-arriskurik.
Notas y Referencias
- ALMAk ez ditu 200 galdera ofizialak (baliogabetzeen ondorengo baliozkoak) bakarrik asmatu, baizik eta deialdi bakoitzeko 10 erreserba-galderak (201-210) ere bai. Guztira: 210/210 x 3 urte = 630/630 erreserbak barne, 600/600 azterketako balio-galderak soilik kontuan hartuta.
- Long, Y., et al. "LLMs Meet Synthetic Data Generation: A Survey". ACL 2024. LLMentzat datu sintetikoen sorrera berreskurapen eta arrazoiketarako optimizatutako corpusak sortzea ahalbidetzen du. Esteka
- Amazon Bedrock eu-south-2 eskualdean (Aragoi, Espainia). Anthropic-ek ez du inferentzia-datuetarako sarbiderik Bedrock hedapenetan. AWS Bedrock-en datu-babeserako dokumentazioa
- Kalkulua: 0,995^600 ≈ 0,049, hau da, galdera bakoitzeko %99,5eko zehaztasuna duen modelo batek gutxi gorabehera %4,9ko probabilitatea du 600 galdera jarraian asmatatzeko. ALMAk galdera bakoitzeko %100eko zehaztasunarekin lortzen du.
- Singh, A., et al. "Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG". arXiv:2501.09136, 2025. Esteka
- "MA-RAG: Multi-Agent Retrieval-Augmented Generation". arXiv:2505.20096, 2025. Agente anitzeko RAG sistemek ohiko RAG sistemak gainditzen dituzte zehaztasunean eta arrazoiketa-gaitasunean. Esteka
- Zuo, Y., et al. "KG4Diagnosis: A Hierarchical Multi-Agent LLM Framework with Knowledge Graph Enhancement for Medical Diagnosis". arXiv:2412.16833, 2024. Esteka
- Zhang, C., et al. "AgentOrchestra: Orchestrating Specialized Agents for Complex Tasks". arXiv:2506.12508, 2025. Esteka
- Zhuge, M., et al. "GPTSwarm: Language Agents as Optimizable Graphs". ICML 2024. Esteka
- Long, Y., et al. "LLMs Meet Synthetic Data Generation: A Survey". ACL 2024. Esteka
- Kumichev, A., et al. "MedSyn: LLM-based Synthetic Medical Text Generation Framework". arXiv:2408.02056, 2024. Esteka
- Schut, L., Gal, Y., Farquhar, S. "Do Multilingual LLMs Think In English?". ICML 2025. Modelo eleanitzek barnean ingelesez prozesatzen dute beste hizkuntzetako sarrerekin ere. Esteka
- "Multilingual Reasoning: A Survey of Challenges and Approaches". 2025. Ingelesezko arrazoiketak beste hizkuntzetan baino emaitza hobeak ematen ditu, hizkuntza horietan egindako zereginen kasuan ere. Esteka
- Zhang, T., Kraska, T., Khattab, O. "Recursive Language Models". arXiv:2512.24601, 2025. Esteka
- Luohe, S., et al. "A Survey on KV-Cache Optimization for Large Language Models". arXiv:2407.18003, COLM 2024. Esteka
- Li, Y., et al. "SnapKV: LLM Knows What You are Looking for Before Generation". NeurIPS 2024. Esteka
- "LMCache: Efficient KV-Cache Management for Large Language Models". arXiv:2510.09665, 2025. Esteka
- Minssen, T., et al. "The EU AI Act and Its Implications for Medical Products". npj Digital Medicine, 2024. Esteka
- "The EU AI Act: Implications for Healthcare AI Systems". 2024. IA medikoko sistemak arrisku handiko gisa sailkatzen dira AI Act-aren arabera, adostasun-ebaluazioak eta giza gainbegiratzea eskatuz.
- "AI Agents in Clinical Medicine: Promise and Challenges". PMC, 2025. IA agenteek oinarrizko modeloak gainditzen dituzte zeregin klinikoetan arrazoiketa ezagutza espezializaturako sarbidearekin konbinatuz.