MedicalBenchmark
Tornar al blog

ALMA i MIRI obtenen la nota màxima possible en l'examen MIR 2026 amb un 100% d'encert

Dos models d'IA medica desenvolupats a Espanya aconseguixen resultats sense precedents. ALMA encerta les 600 preguntes dels tres ultims MIR sense un sol error — un 100% absolut que cap altre model ha aconseguit. MIRI alcanca un 99,3% amb un cost 13 vegades inferior i responent molt mes rapid.

No son models generalistes: son arquitectures RAG Agentiques amb experts especialitzats, construides per BinPar i Editorial Medica Panamericana, que demostren que el futur de la IA medica no esta en models mes grans, sino en models mes intel·ligents.

Equip MedBenchFebruary 11, 202627 min de lectura
MIR 2026ALMAMIRIRAG AgènticIA MèdicaBinParEditorial Médica Panamericana

Durant tres anys, Medical Benchmark ha avaluat més de 300 models d'intel·ligència artificial en l'examen MIR, la prova d'accés a la formació mèdica especialitzada a Espanya. Hem documentat com els millors models generalistes -- Gemini, GPT, Claude -- han anat acostant-se al sostre del 100%, fallant cada vegada menys preguntes, costant cada vegada menys diners, responent cada vegada més ràpid.

Però sempre fallaven alguna cosa.

Hui presentem els resultats de dos models que trenquen eixa barrera. No són models generalistes. No estan disponibles online. No es poden provar amb una API pública. Són models custom, construïts a Espanya amb una arquitectura radicalment diferent: el RAG Agèntic amb experts especialitzats.

MIRI, desenvolupat per BinPar per a PROMIR (D'Editorial Médica Panamericana), ha encertat 596 de 600 preguntes MIR, amb només 4 errors en tres anys i un rendiment perfecte de 200/200 en el MIR 2026. I ho ha fet a un cost de $2,38 en total -- 13 vegades menys que ALMA i comparable als models estàndard més econòmics.

ALMA, desenvolupat per BinPar amb continguts d'Editorial Médica Panamericana i Guies Clíniques Espanyoles, ha encertat les 600 preguntes dels tres últims exàmens MIR -- a més de totes les preguntes de reserva -- sense un sol error.[1] Cap model d'IA en la història de MedBench, i que nosaltres sapiem, cap model en cap benchmark mèdic del món, ha aconseguit mai una puntuació perfecta acumulada al llarg de tres anys.


1. Els Resultats: El Mur del 100%

Comencem pels números. Sense adornaments, sense hipèrboles. Només dades.

Les dades d'ALMA

ConvocatòriaCorrectesErrorsNetesPrecisióCostTemps/preguntaConfiançaReasoning Tokens
MIR 2024200/2000200,00100,0%$9,9954,7s99,9%71K
MIR 2025200/2000200,00100,0%$11,0250,8s99,8%78K
MIR 2026200/2000200,00100,0%$10,5654,3s99,8%66K
Acumulat600/6000600,00100,0%$31,57

Les dades de MIRI

ConvocatòriaCorrectesErrorsNetesPrecisióCostTemps/preguntaConfiança
MIR 2024198/2002197,3399,0%$0,7814,2s99,9%
MIR 2025198/2002197,3399,0%$0,8215,3s99,8%
MIR 2026200/2000200,00100,0%$0,7811,9s100,0%
Acumulat596/6004594,6699,3%$2,38

Ara, posem-ho en context amb els millors models estàndard del benchmark.

Custom (RAG Agéntico)
Modelos estándar

ALMA y MIRI (modelos custom con RAG Agéntico) frente a los 10 mejores modelos estándar del benchmark MIR 2026

En el MIR 2026, tant ALMA com MIRI obtenen 200/200: puntuació perfecta. Cap model estàndard ha aconseguit mai 200/200 en cap de les tres convocatòries. El millor resultat estàndard en 2026 és 199/200, compartit per tres models (Gemini 3 Flash, o3 i GPT-5).

La diferència pot paréixer mínima -- un sol encert -- però eixa diferència d'un encert, repetida sistemàticament any rere any, separa l'extraordinari del perfecte.

Els 5 millors models estàndard en MIR 2026

ModelCorrectesNetesCost
Gemini 3 Flash199/200198,67$0,34
o3199/200198,67$1,94
GPT-5199/200198,67$2,05
GPT-5.1 Chat198/200197,33$0,65
GPT-5 Codex198/200197,33$0,89

2. La Perspectiva de Tres Anys

Un examen pot ser sort. Dos, coincidència. Tres anys de resultats consistents són un patró.

Custom (RAG Agéntico)
Modelos estándar

Preguntas correctas acumuladas en MIR 2024, 2025 y 2026 (máximo: 600). Solo se muestran los modelos con resultados en los 3 años.

El que este gràfic mostra és la consistència absoluta d'ALMA: 200/200 en els tres anys, sense excepció. No només encerta totes les preguntes oficials, sinó també totes les preguntes de reserva (201-210) en cada convocatòria. Quan s'anul·len preguntes oficials i es prenen reserves, ALMA les té totes correctes.

MIRI mostra una progressió fascinant: 198/200 en 2024, 198/200 en 2025, i finalment 200/200 en 2026. El model ha anat millorant fins a alcancar la perfecció.

El millor model estàndard acumulat, Gemini 3 Flash, alcança 590/600 -- un resultat extraordinari en termes absoluts, però 10 encerts per davall d'ALMA.

0 errores
Custom
Estándar

Total de errores en MIR 2024 + 2025 + 2026 (máximo posible: 600). Menos es mejor.

La visualització d'errors acumulats és potser la més eloqüent. ALMA presenta una barra buida: zero errors en tres anys. MIRI acumula només 4. El millor model estàndard, Gemini 3 Flash, acumula 10. Els demés models del top 5 estàndard superen la dotzena d'errors.

ParámetroTendencia MIR 2026Implicación
ALMA vs millor estàndard-10 errorsALMA comet 0 errors front als 10 del millor model estàndard (Gemini 3 Flash) en 3 anys
MIRI vs millor estàndard-6 errorsMIRI comet només 4 errors front als 10 de Flash, a un cost solament 2,3 vegades superior
MIRI vs ALMA+4 errorsMIRI comet 4 errors més que ALMA, però el seu cost és 13,3 vegades inferior ($2,38 vs $31,57)
ALMA: cost per error evitat$2,92/errorRespecte a Flash, ALMA costa $30,55 més però evita 10 errors ($3,06 per error evitat)

Comparativa d'errors acumulats en 3 anys: models custom vs millor model estàndard


3. Anatomia dels Errors de MIRI

MIRI falla exactament 2 preguntes en el MIR 2024, 2 en el MIR 2025 i 0 en el MIR 2026. Analitzem cada error.

MIR 2024: Preguntes 9 i 13

En el MIR 2024, MIRI falla les preguntes 9 i 13. Ambdues es troben entre les primeres 25 preguntes de l'examen, que són comunes a totes les versions (V0-V4).

MIR 2025: Preguntes 181 i 201

En el MIR 2025, MIRI falla les preguntes 181 i 201. La pregunta 201 és una pregunta de reserva -- el que significa que, a diferència d'ALMA que encerta totes les reserves, MIRI falla una.

MIR 2026: Perfecció

En el MIR 2026, MIRI no falla cap pregunta. Ni les 200 oficials, ni les 10 de reserva. El model ha evolucionat fins a alcancar el rendiment perfecte.

Patró de millora

L'evolució de MIRI il·lustra una de les avantatges fonamentals de l'arquitectura RAG Agèntic: la capacitat de millora contínua sense reentrenament del model base. Cada iteració del corpus i de la configuració d'experts produïx millores incrementals mesurables.

MIR 2024

2 errores

MIR 2025

2 errores

MIR 2026

Perfección
ConvocatòriaErrors MIRIErrors ALMAEvolució MIRI
MIR 202420Línia base
MIR 202520Manteniment
MIR 202600Perfecció

4. ALMA: Anatomia de la Perfecció

ALMA és el model desenvolupat per BinPar amb els continguts d'Editorial Médica Panamericana, l'editorial mèdica de referència en el món hispanoparlant, i una selecció de guies clíniques. Està concebut com a ferramenta de referència clínica per a professionals de la salut: metges en exercici, especialistes en formació i professionals que necessiten consultar i validar coneixement clínic actualitzat dins d'una organització sanitària o servici de salut.

En l'actualitat és empleat per desenes de milers de professionals de CATSalut (el servici català de salut).

El corpus: guies clíniques i recomanacions

L'avantatge fonamental d'ALMA residix tant en la seua arquitectura com en el seu corpus. Editorial Médica Panamericana posseïx un dels catàlegs més complets de literatura mèdica en castellà, incloent:

  • Continguts específics dissenyats per a la preparació d'oposicions (entre elles el MIR)
  • Tractats de referència en totes les especialitats mèdiques
  • Guies clíniques de les principals societats científiques
  • Protocols actualitzats segons l'evidència científica més recent
  • Material formatiu dissenyat i revisat per especialistes

Este corpus s'ha processat i optimitzat per a consum per models de llenguatge, creant un corpus sintètic especialitzat que maximitza la densitat d'informació rellevant per token.[2]

L'orquestrador: Claude Sonnet 4.5 en Bedrock Aragó

El model orquestrador d'ALMA és Claude Sonnet 4.5 amb raonament estés, executat en Amazon Bedrock en el datacenter d'Aragó (Espanya). Esta elecció no és casual: garantix que totes les dades d'inferència -- les preguntes mèdiques, els contextos clínics, les respostes -- es processen dins de la Unió Europea, amb les garanties legals i de privacitat més estrictes.[3]

Mètriques detallades

MètricaMIR 2024MIR 2025MIR 2026
Precisió100,0%100,0%100,0%
Cost per examen$9,99$11,02$10,56
Cost per pregunta$0,048$0,052$0,050
Temps per pregunta54,2s50,8s54,3s
Confiança mitjana99,9%99,8%99,8%
Tokens de raonament71K78K66K

El cost mitjà de ~$10,50 per examen (aproximadament 10 EUR al canvi) és significatiu en comparació amb models estàndard com Gemini Flash ($0,34), però cal contextualitzar-ho: ALMA no falla cap pregunta. En tres anys. Incloent reserves. El cost d'un error en un context clínic real pot ser infinitament superior a $10.

El temps mitjà de ~53 segons per pregunta reflectix la naturalesa iterativa de l'arquitectura: l'orquestrador consulta múltiples experts (agents virtuals especialitzats), avalua les seues respostes, pot sol·licitar aclariments i sintetitza una resposta final. Cada pregunta rep l'equivalent a una "junta mèdica" entre ~32 especialistes.

600/600: sense precedents

Per a comprendre la magnitud d'este resultat, convé recordar que:

  1. Cap model estàndard dels ~290 avaluats ha aconseguit mai 200/200 en una sola convocatòria.
  2. El millor acumulat estàndard és 590/600 (Gemini 3 Flash) -- 10 errors.
  3. ALMA no només encerta les 200 oficials, sinó també les 10 reserves de cada any (210/210 x 3).

5. MIRI: Precisió per al gran públic

MIRI és el model desenvolupat per BinPar per a PROMIR, la plataforma de preparació MIR d'Editorial Médica Panamericana. Si ALMA està concebut per a professionals treballant en un entorn clínic, MIRI està dissenyat per a estudiants de medicina, residents, opositors MIR i professionals independents que necessiten resoldre dubtes de forma ràpida i precisa.

Filosofia de disseny

L'arquitectura de MIRI seguix els mateixos principis que ALMA -- orquestrador central + experts especialitzats + corpus de coneixement -- però amb un perfil d'optimització diferent:

  • Prioritat al cost i velocitat, sense sacrificar precisió crítica
  • Temps de resposta ràpids (~13 segons per pregunta vs ~53 d'ALMA)
  • Cost optimitzat ($0,78-$0,82 per examen complet)

La relació qualitat-preu

ALMA
MIRI
Estándar

Coste acumulado (3 exámenes) vs. precisión acumulada (3 años). Los modelos custom alcanzan mayor precisión a un coste competitivo.

Este gràfic revela la posició estratègica de cada model:

  • ALMA (punt daurat, dalt a la dreta): màxima precisió (100%), cost moderat ($31,57 acumulat). És l'opció "sense compromís" on la precisió és l'únic que importa.
  • MIRI (punt teal, dalt al centre): precisió quasi perfecta (99,3%), cost mínim ($2,38 acumulat). És l'opció de millor relació qualitat-preu del mercat.
  • Gemini 3 Flash (punt gris, baix a l'esquerra): excel·lent precisió (98,3%), cost imbatible ($1,02 acumulat). Però 10 errors més que ALMA i 6 més que MIRI.

6. Arquitectura: El RAG Agèntic

Com és possible que models custom superen consistentment els millors models generalistes del món? La resposta està en l'arquitectura.

Orquestador

LLM de razonamiento avanzado

Analiza la preguntaSelecciona expertosSintetiza respuesta
Consulta iterativa
Especialidades Clínicas
CardiologíaNeumologíaNeurologíaNefrologíaEndocrinologíaReumatologíaHematologíaOncología
Especialidades Quirúrgicas
Cirugía GeneralTraumatologíaUrologíaORLOftalmologíaDermatologíaGinecologíaObstetricia
Ciencias Básicas y Diagnósticas
FarmacologíaMicrobiologíaAnatomía PatológicaRadiologíaBioestadísticaMedicina PreventivaPediatríaPsiquiatría
Soporte y Contexto
Legislación SanitariaGestión ClínicaÉtica MédicaUrgenciasMedicina InternaGeriatríaPaliativosM. Familiar
Corpus sintético especializado

Optimizado para consumo por LLMs, no para lectura humana

~32

Expertos

Multi

Iteraciones

EN

Razonamiento

Arquitectura RAG Agéntico: el orquestador analiza cada pregunta, selecciona los expertos relevantes y sintetiza sus respuestas en múltiples iteraciones

El RAG Agèntic (Retrieval-Augmented Generation amb agents) representa l'evolució més avançada dels sistemes RAG tradicionals.[5] Mentre que un RAG estàndard recupera documents rellevants i els passa al model en un sol pas, el RAG Agèntic introduïx un nivell de sofisticació radicalment superior.

L'orquestrador

En el centre de l'arquitectura se situa un model de raonament avançat que actua com a director d'orquestra. Quan rep una pregunta mèdica, l'orquestrador no es limita a buscar informació: analitza la pregunta, identifica quines especialitats són rellevants, i decidix quins experts consultar.

Este procés és iteratiu. Si la resposta d'un expert és insuficient o contradictòria amb la d'un altre, l'orquestrador pot:

  1. Reformular la consulta i preguntar de nou
  2. Consultar experts addicionals que no va considerar inicialment
  3. Sol·licitar aprofundiment en un aspecte específic
  4. Contrastar respostes entre múltiples experts

Este patró de consulta iterativa i multi-agent ha demostrat superar consistentment l'ús directe de LLMs tant en medicina com en altres dominis especialitzats.[6]

Els ~32 experts especialitzats

Cada expert és un sistema RAG especialitzat en una disciplina mèdica concreta (cardiologia, pneumologia, farmacologia, etc.). Té accés a un subconjunt del corpus optimitzat per a la seua especialitat i està configurat per a respondre preguntes dins del seu domini amb màxima precisió.

La clau és la subdelegació intel·ligent: els experts no són simples models amb un prompt diferent. Cada u té la seua pròpia base de coneixement, el seu propi context, i pot al seu torn delegar subconsultes a altres experts quan detecta que una pregunta creua fronteres entre especialitats.

Este disseny s'alinea amb investigacions recents sobre sistemes multi-agent per a diagnòstic mèdic,[7] orquestració d'agents especialitzats[8] i optimització de grafs d'agents.[9]

Suport multimodal

Tant ALMA com MIRI processen preguntes amb imatges clíniques (radiografies, electrocardiogrames, fotografies dermatològiques, etc.). El sistema multimodal permet que els experts analitzen les imatges dins del seu context especialitzat: un cardiòleg virtual analitza un ECG amb el mateix nivell de detall que dedicaria a un informe textual.

Corpus sintètic optimitzat per a LLMs

Una innovació crucial és la naturalesa del corpus. No es tracta de copiar llibres de text i passar-los al model. El corpus ha segut sintetitzat i reformatat específicament per a maximitzar la comprensió per part de models de llenguatge.[10]

Els documents mèdics originals -- guies clíniques, protocols, tractats -- es processen per mitjà d'un pipeline que:

  1. Extrau la informació clínicament rellevant
  2. Elimina la redundància i el format orientat a lectura humana
  3. Reestructura la informació en formats que els LLMs processen de manera més eficient
  4. Enriquix amb relacions creuades entre especialitats[11]

El resultat és un corpus que un humà trobaria difícil de llegir, però que un LLM processa amb màxima eficiència.

Raonament en anglés

Encara que les preguntes del MIR estan en castellà i les respostes es generen en castellà, tot el raonament intern i la comunicació entre l'orquestrador i els experts es realitza en anglés.[12]

Esta decisió es basa en una realitat empírica ben documentada: els LLMs actuals, independentment del seu suport multilingüe, tenen una representació interna més rica i eficient en anglés.[13] Els tokens en anglés codifiquen més informació semàntica per token, el raonament és més precís, i les cadenes de pensament produïxen menys errors.

En la pràctica, açò significa que ALMA i MIRI:

  1. Reben la pregunta en castellà
  2. La traduïxen internament a l'anglés per al raonament
  3. Els experts raonen i es comuniquen en anglés (donant directrius de traducció per a la terminologia mèdica que ho requerix)
  4. L'orquestrador sintetitza la resposta final en anglés
  5. La resposta es traduïx al castellà per a l'eixida

Este pipeline afig una capa de complexitat, però el benefici en precisió compensa amb escreix el cost addicional de tokens.

Pregunta en Castellà

Zona de raonament en anglés

Traducció

Experts raonen EN

Orquestrador sintetitza EN

Resposta en Castellà

Pipeline de processament multilingüe: la pregunta es traduïx a l'anglés per al raonament intern i la resposta es retorna en castellà


7. Innovacions Tècniques

Més enllà de l'arquitectura general, ALMA i MIRI incorporen diverses innovacions tècniques que contribuïxen al seu rendiment excepcional.

7.1. Corpus sintètic per a LLMs

La generació de dades sintètiques per a entrenament i ús amb LLMs és un camp en ràpida evolució.[10] En el context mèdic, frameworks com MedSyn han demostrat que les dades sintètiques poden millorar significativament el rendiment en tasques clíniques.[11]

La diferència fonamental entre el corpus d'ALMA/MIRI i les dades sintètiques convencionals és l'objectiu: no es tracta de generar dades per a entrenar (fine-tuning) un model, sinó de crear un corpus optimitzat per a recuperació i consulta (RAG). Açò permet actualitzar el coneixement sense modificar els pesos del model base.

Guías clínicas, protocolos

Extrae

Información clínicamente relevante

Elimina

Redundancia y formato humano

Reestructura

Formatos eficientes para LLMs

Enriquece

Relaciones entre especialidades

Corpus sintético optimizado

Pipeline de procesamiento del corpus: los documentos médicos se transforman en un formato optimizado para consumo por modelos de lenguaje

7.2. Actualització incremental amb RLM

Un dels desafiaments crítics de qualsevol sistema d'IA mèdica és mantindre el coneixement actualitzat. Les guies clíniques canvien, es publiquen nous assajos clínics, s'actualitzen protocols terapèutics.

ALMA i MIRI utilitzen un sistema d'actualització incremental basat en Models de Llenguatge Recursius (RLM).[14] En lloc de reconstruir el corpus complet quan hi ha una actualització, el sistema:

  1. Detecta quins fragments del corpus han quedat obsolets
  2. Genera noves versions sintetitzades de la informació actualitzada
  3. Integra els nous fragments mantenint la coherència amb la resta del corpus
  4. Verifica que l'actualització no introduïx contradiccions

Este procés se supervisa en temps real i permet que el corpus es mantinga actualitzat de forma contínua, sense interrupcions de servici.

7.3. Cacheig de tokens i context infinit

Amb ~32 experts i múltiples iteracions de consulta, la quantitat de tokens processats per pregunta pot ser enorme. Per a mantindre els costos baix control i la velocitat en nivells acceptables, el sistema implementa tècniques avançades de cacheig de tokens.

L'optimització del KV-Cache és fonamental per a l'eficiència dels LLMs moderns.[15] Tècniques com SnapKV permeten comprimir el cache d'atenció sense pèrdua significativa de rendiment.[16] Sistemes com LMCache porten esta optimització un pas més enllà, permetent compartir cache entre múltiples consultes.[17]

ALMA i MIRI implementen una tècnica que denominem arbre de memòria amb subdelegació: l'orquestrador manté un arbre de context on cada branca correspon a un expert consultat. Quan un expert necessita consultar un altre, es crea una nova branca que hereta el context rellevant del pare sense duplicar tokens. Açò permet mantindre "converses" entre experts de forma eficient.

7.4. Raonament en anglés

Com hem mencionat en la secció d'arquitectura, tot el raonament intern es realitza en anglés. La investigació recent confirma que els LLMs multilingües tendixen a "pensar" en anglés internament, independentment de l'idioma d'entrada.[12] Altres estudis sobre raonament multilingüe corroboren que el rendiment en tasques de raonament complex millora significativament quan es força l'ús de l'anglés com a llengua de processament intern.[13]

Des d'una perspectiva d'eficiència de tokens, l'anglés oferix major representativitat semàntica per token: una mateixa idea mèdica expressada en anglés requerix típicament menys tokens que en castellà, la qual cosa reduïx costos i permet processar més context dins de la finestra d'atenció del model.


8. Sobirania de Dades: Bedrock en Aragó

En el context d'un model d'IA que processa informació mèdica -- potencialment incloent dades clíniques de pacients en desplegaments futurs -- la sobirania de les dades no és un detall tècnic: és un requisit legal i ètic fonamental.

ALMA i Bedrock Aragó

El model orquestrador d'ALMA s'executa en Amazon Bedrock, específicament en el datacenter d'Aragó (Espanya). Esta configuració garantix:

  1. Processament dins de la UE: totes les dades d'inferència es processen en servidors ubicats en territori espanyol, dins de la jurisdicció de la Unió Europea.

  2. Sense accés d'Anthropic a les dades: en executar Claude a través de Bedrock, Amazon actua com a processador de dades baix contracte amb el client. Anthropic, el desenvolupador de Claude, no té accés a les consultes, els contextos ni les respostes generades. Açò és fonamentalment diferent a usar l'API directa d'Anthropic.

  3. Compliment GDPR: el processament complix amb el Reglament General de Protecció de Dades de la UE, incloent els principis de minimització de dades, limitació de finalitat i seguretat del tractament.

  4. Compatibilitat amb l'AI Act: l'arquitectura està dissenyada per a complir amb els requisits del Reglament Europeu d'Intel·ligència Artificial, que classifica els sistemes d'IA mèdica com a "alt risc" i imposa obligacions específiques de transparència, documentació i supervisió humana.[18]

Els experts: models especialitzats amb garanties

Els models experts -- més xicotets i especialitzats que l'orquestrador -- s'executen amb les mateixes garanties de seguretat. La separació entre l'orquestrador (que veu la pregunta completa) i els experts (que reben consultes fragmentades i descontextualitzades) proporciona una capa addicional de protecció: cap expert individual té accés al context clínic complet d'un cas.

🇪🇺
UE/España — Bedrock Aragón
GDPRAI Act

Pregunta médica

Orquestador

Expertos especializados

Corpus médico

Respuesta

Residencia de datos en España

Anthropic

Sin acceso a datos de inferencia

Arquitectura de soberanía de datos: todo el procesamiento ocurre dentro de la UE, sin acceso del proveedor del modelo a los datos de inferencia

ParámetroTendencia MIR 2026Implicación
Ubicació del processamentEspaña (UE)Datacenter d'Amazon en Aragó. Totes les dades romanen en territori espanyol.
Accés del proveïdor del modelSense accésAnthropic no accedix a dades d'inferència quan s'usa a través de Bedrock.
Compliment GDPRCompletAmazon com a processador de dades, BinPar com a responsable del tractament.
AI Act (alt risc)DissenyatArquitectura preparada per als requisits de transparència i supervisió de l'AI Act.

Garanties de sobirania i protecció de dades en l'arquitectura ALMA

Implicacions per al sector sanitari

La demostració que és possible alcancar el rendiment perfecte sense enviar dades mèdiques fora de la UE té implicacions profundes per a l'adopció d'IA en el sector sanitari europeu. Històricament, les preocupacions sobre sobirania de dades han segut un dels principals frens a la implementació de sistemes d'IA mèdica en hospitals i centres de salut europeus.[19]

ALMA demostra que este dilema entre rendiment i privacitat és un fals dilema: és possible tindre ambdós.


9. Implicacions per a la IA Mèdica

Els resultats d'ALMA i MIRI reforcen i estenen conclusions que ja apuntàvem en articles anteriors, però amb una contundència sense precedents.

RAG Agèntic > Fine-tuning

En la nostra anàlisi anterior sobre "La Catedral i el Bazar", argumentàvem que la personalització per mitjà de RAG oferix avantatges fonamentals sobre el fine-tuning per a aplicacions mèdiques. ALMA i MIRI són la demostració empírica definitiva d'esta tesi.

Els estudis recents sobre agents d'IA en medicina clínica confirmen que els sistemes agèntics superen consistentment els models base, inclús quan estos últims han segut fine-tunejats específicament per al domini mèdic.[20] La raó és simple: un model fine-tunejat modifica els seus pesos de forma estàtica, mentre que un sistema RAG agèntic pot consultar informació actualitzada dinàmicament.

RAG vs. Fine-Tuning en tasques mèdiques. Dades de: MDPI Bioengineering 2025 (BLEU), PMC systematic review (al·lucinacions), medRxiv 2025 (agents).

La personalització sense modificar pesos

ALMA i MIRI utilitzen els mateixos models base que estan disponibles públicament (Claude per a ALMA, model confidencial per a MIRI). La diferència de rendiment no prové de modificacions en els models, sinó de:

  1. El corpus -- quina informació se'ls proporciona
  2. L'arquitectura -- com s'organitza la consulta
  3. Els experts -- com s'especialitza el coneixement
  4. La iteració -- quantes vegades es refina la resposta

Açò significa que l'avantatge d'ALMA/MIRI és reproduïble per qualsevol organització que tinga accés a corpus mèdic de qualitat i la capacitat tècnica d'implementar una arquitectura agèntica.

El futur: actualització contínua del corpus

Potser la implicació més rellevant a llarg termini és que ALMA i MIRI poden millorar contínuament sense necessitat de reentrenar models. Quan es publica una nova guia clínica, s'actualitza un protocol terapèutic o es descobrix una nova associació diagnòstica, només cal actualitzar el corpus. El sistema incorpora el nou coneixement immediatament.

Este model de "coneixement com a servici" -- on la intel·ligència residix en el corpus i l'arquitectura, no en els pesos del model -- podria redefinir com es desenvolupen i despleguen sistemes d'IA mèdica en la pròxima dècada.


10. Conclusions

ALMA demostra que la perfecció és alcançable

600 preguntes. Tres anys d'exàmens dissenyats per a seleccionar els millors metges d'Espanya. Zero errors. ALMA demostra que, amb l'arquitectura correcta, el corpus adequat i la inversió necessària, és possible construir un sistema d'IA mèdica que no falle. No "quasi mai". Mai.

MIRI demostra que l'excel·lència és accessible

596/600 a un cost de $2,38. MIRI demostra que la precisió quasi perfecta no requerix pressupostos astronòmics. Un estudiant de medicina pot accedir a un sistema que supera qualsevol model estàndard del mercat per un cost inferior al d'un cafè.

L'enfocament agèntic supera qualsevol model generalista

Cap model generalista -- ni Gemini, ni GPT-5, ni Claude, ni cap dels ~290 avaluats -- ha aconseguit mai 200/200 en una sola convocatòria. ALMA ho aconseguix en les tres. MIRI ho aconseguix en la més recent. L'especialització per mitjà d'experts, combinada amb un orquestrador de raonament avançat, produïx resultats que l'enfocament "un model per a tot" no pot igualar.

La sobirania de dades és compatible amb el màxim rendiment

ALMA processa tota la seua inferència a Espanya, sense enviar dades fora de la UE, sense que Anthropic accedisca a les consultes. I encara així obté el resultat perfecte. La privacitat i el rendiment no són objectius en conflicte.

El que ve

Estos resultats obrin la porta a desplegaments clínics reals de sistemes d'IA mèdica basats en RAG Agèntic. No com a substituts del juí clínic, sinó com a sistemes de suport al diagnòstic amb una fiabilitat demostrada i verificable.

En Medical Benchmark continuarem avaluant tant models estàndard com models custom, documentant l'estat de l'art amb el rigor i la transparència que caracteritzen la nostra plataforma. Tots els resultats estan disponibles en la nostra plataforma de rankings.


ALMA i MIRI han segut avaluats baix les mateixes condicions que els demés models del benchmark: mateix prompt, mateixes preguntes, mateix timing. Els resultats són verificables i reproduïbles. Encara que les avaluacions s'han realitzat amb posterioritat a la celebració de cada examen, els models no disposen d'accés a internet ni d'informació alguna sobre els resultats o les respostes correctes de les preguntes, per la qual cosa no existix possibilitat de contaminació de dades.

Notas y Referencias

  1. ALMA encerta no només les 200 preguntes oficials (vàlides després d'annul·lacions), sinó també les 10 preguntes de reserva (201-210) de cada convocatòria. Total: 210/210 x 3 anys = 630/630 incloent reserves, 600/600 considerant només les preguntes vàlides de l'examen.
  2. Long, Y., et al. "LLMs Meet Synthetic Data Generation: A Survey". ACL 2024. La generació de dades sintètiques per a LLMs permet crear corpus optimitzats per a recuperació i raonament. Enllaç
  3. Amazon Bedrock en la regió eu-south-2 (Aragó, Espanya). Anthropic no accedix a dades d'inferència en desplegaments Bedrock. Documentació de protecció de dades d'AWS Bedrock
  4. Càlcul: 0,995^600 ≈ 0,049, és a dir, un model amb 99,5% de precisió per pregunta té aproximadament un 4,9% de probabilitat d'encertar 600 preguntes consecutives. ALMA ho aconseguix amb un 100% de precisió per pregunta.
  5. Singh, A., et al. "Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG". arXiv:2501.09136, 2025. Enllaç
  6. "MA-RAG: Multi-Agent Retrieval-Augmented Generation". arXiv:2505.20096, 2025. Els sistemes multi-agent RAG superen els RAG tradicionals en precisió i capacitat de raonament. Enllaç
  7. Zuo, Y., et al. "KG4Diagnosis: A Hierarchical Multi-Agent LLM Framework with Knowledge Graph Enhancement for Medical Diagnosis". arXiv:2412.16833, 2024. Enllaç
  8. Zhang, C., et al. "AgentOrchestra: Orchestrating Specialized Agents for Complex Tasks". arXiv:2506.12508, 2025. Enllaç
  9. Zhuge, M., et al. "GPTSwarm: Language Agents as Optimizable Graphs". ICML 2024. Enllaç
  10. Long, Y., et al. "LLMs Meet Synthetic Data Generation: A Survey". ACL 2024. Enllaç
  11. Kumichev, A., et al. "MedSyn: LLM-based Synthetic Medical Text Generation Framework". arXiv:2408.02056, 2024. Enllaç
  12. Schut, L., Gal, Y., Farquhar, S. "Do Multilingual LLMs Think In English?". ICML 2025. Els models multilingües processen internament en anglés inclús amb entrades en altres idiomes. Enllaç
  13. "Multilingual Reasoning: A Survey of Challenges and Approaches". 2025. El raonament en anglés produïx millors resultats que en altres idiomes, inclús per a tasques en eixos idiomes. Enllaç
  14. Zhang, T., Kraska, T., Khattab, O. "Recursive Language Models". arXiv:2512.24601, 2025. Enllaç
  15. Luohe, S., et al. "A Survey on KV-Cache Optimization for Large Language Models". arXiv:2407.18003, COLM 2024. Enllaç
  16. Li, Y., et al. "SnapKV: LLM Knows What You are Looking for Before Generation". NeurIPS 2024. Enllaç
  17. "LMCache: Efficient KV-Cache Management for Large Language Models". arXiv:2510.09665, 2025. Enllaç
  18. Minssen, T., et al. "The EU AI Act and Its Implications for Medical Products". npj Digital Medicine, 2024. Enllaç
  19. "The EU AI Act: Implications for Healthcare AI Systems". 2024. Els sistemes d'IA mèdica es classifiquen com a alt risc baix l'AI Act, requerint avaluacions de conformitat i supervisió humana.
  20. "AI Agents in Clinical Medicine: Promise and Challenges". PMC, 2025. Els agents d'IA superen els models base en tasques clíniques en combinar raonament amb accés a coneixement especialitzat.