ALMA i MIRI obtenen sa nota màxima possible a s'examen MIR 2026 amb un 100% d'encert

Durant tres anys, Medical Benchmark ha avaluat més de 300 models d'intel·ligència artificial en s'examen MIR, sa prova d'accés a sa formació mèdica especialitzada a Espanya. Hem documentat com es millors models generalistes — Gemini, GPT, Claude — han anat acostant-se an es sostre des 100%, fallant cada vegada menys preguntes, costant cada vegada menys dobbers, responent cada vegada més ràpid.

Però sempre fallaven qualque cosa.

Avui presentam es resultats de dos models que rompen aquesta barrera. No són models generalistes. No estan disponibles online. No es poden provar amb una API pública. Són models custom, construïts a Espanya amb una arquitectura radicalment diferent: es RAG Agèntic amb experts especialitzats.

MIRI, desenvolupat per BinPar per a PROMIR (D'Editorial Mèdica Panamericana), ha encertat 596 de 600 preguntes MIR, amb només 4 errors en tres anys i un rendiment perfecte de 200/200 en es MIR 2026. I ho ha fet a un cost de $2,38 en total — 13 vegades menys que ALMA i comparable an es models estàndard més econòmics.

ALMA, desenvolupat per BinPar amb continguts d'Editorial Mèdica Panamericana i Guies Clíniques Espanyoles, ha encertat ses 600 preguntes des tres darrers exàmens MIR — a més de totes ses preguntes de reserva — sense un sol error.^[1] Cap model d'IA en sa història de MedBench, i que nosaltres sapiguem, cap model en cap benchmark mèdic des món, ha aconseguit mai una puntuació perfecta acumulada al llarg de tres anys.

1. Es Resultats: Es Mur des 100%

Comencem pes números. Sense adornaments, sense hipèrboles. Només dades.

Ses dades d'ALMA

Convocatòria	Correctes	Netes	Precisió	Cost	Temps/pregunta	Confiança	Reasoning Tokens
MIR 2024	200/200	200,00	100,0%	$9,99	54,7s	99,9%	71K
MIR 2025	200/200	200,00	100,0%	$11,02	50,8s	99,8%	78K
MIR 2026	200/200	200,00	100,0%	$10,56	54,3s	99,8%	66K
Acumulat	600/600	600,00	100,0%	$31,57

Ses dades de MIRI

Convocatòria	Correctes	Errors	Netes	Precisió	Cost	Temps/pregunta	Confiança
MIR 2024	198/200	2	197,33	99,0%	$0,78	14,2s	99,9%
MIR 2025	198/200	2	197,33	99,0%	$0,82	15,3s	99,8%
MIR 2026	200/200	0	200,00	100,0%	$0,78	11,9s	100,0%
Acumulat	596/600	4	594,66	99,3%	$2,38

Ara, posem això en context amb es millors models estàndard des benchmark.

Custom (RAG Agéntico)

Modelos estándar

ALMA y MIRI (modelos custom con RAG Agéntico) frente a los 10 mejores modelos estándar del benchmark MIR 2026

En es MIR 2026, tant ALMA com MIRI obtenen 200/200: puntuació perfecta. Cap model estàndard ha aconseguit mai 200/200 en cap de ses tres convocatòries. Es millor resultat estàndard en 2026 és 199/200, compartit per tres models (Gemini 3 Flash, o3 i GPT-5).

Sa diferència pot parèixer mínima — un sol encert — però aquesta diferència d'un encert, repetida sistemàticament any rere any, separa s'extraordinari des perfecte.

Es 5 millors models estàndard en es MIR 2026

Model	Correctes	Netes	Cost
Gemini 3 Flash	199/200	198,67	$0,34
o3	199/200	198,67	$1,94
GPT-5	199/200	198,67	$2,05
GPT-5.1 Chat	198/200	197,33	$0,65
GPT-5 Codex	198/200	197,33	$0,89

2. Sa Perspectiva de Tres Anys

Un examen pot ser sort. Dos, coincidència. Tres anys de resultats consistents són un patró.

Custom (RAG Agéntico)

Modelos estándar

Preguntas correctas acumuladas en MIR 2024, 2025 y 2026 (máximo: 600). Solo se muestran los modelos con resultados en los 3 años.

Allò que aquest gràfic mostra és sa consistència absoluta d'ALMA: 200/200 en es tres anys, sense excepció. No només encerta totes ses preguntes oficials, sinó també totes ses preguntes de reserva (201-210) a cada convocatòria. Quan s'anulen preguntes oficials i es prenen reserves, ALMA les té totes correctes.

MIRI mostra una progressió fascinant: 198/200 en 2024, 198/200 en 2025, i finalment 200/200 en 2026. Es model ha anat millorant fins a assolir sa perfecció.

Es millor model estàndard acumulat, Gemini 3 Flash, assoleix 590/600 — un resultat extraordinari en termes absoluts, però 10 encerts per davall d'ALMA.

0 errores

Custom

Estándar

Total de errores en MIR 2024 + 2025 + 2026 (máximo posible: 600). Menos es mejor.

Sa visualització d'errors acumulats és potser sa més eloqüent. ALMA presenta una barra buida: zero errors en tres anys. MIRI acumula només 4. Es millor model estàndard, Gemini 3 Flash, acumula 10. Es altres models des top 5 estàndard superen sa dotzena d'errors.

Parámetro	Tendencia MIR 2026	Implicación
ALMA vs millor estàndard	-10 errors	ALMA comet 0 errors enfront des 10 des millor model estàndard (Gemini 3 Flash) en 3 anys
MIRI vs millor estàndard	-6 errors	MIRI comet només 4 errors enfront des 10 de Flash, a un cost solament 2,3 vegades superior
MIRI vs ALMA	+4 errors	MIRI comet 4 errors més que ALMA, però es seu cost és 13,3 vegades inferior ($2,38 vs $31,57)
ALMA: cost per error evitat	$2,92/error	Respecte a Flash, ALMA costa $30,55 més però evita 10 errors ($3,06 per error evitat)

Comparativa d'errors acumulats en 3 anys: models custom vs millor model estàndard

3. Anatomia des Errors de MIRI

MIRI falla exactament 2 preguntes en es MIR 2024, 2 en es MIR 2025 i 0 en es MIR 2026. Analitzem cada error.

MIR 2024: Preguntes 9 i 13

En es MIR 2024, MIRI falla ses preguntes 9 i 13. Ambdues es troben entre ses primeres 25 preguntes de s'examen, que són comunes a totes ses versions (V0-V4).

MIR 2025: Preguntes 181 i 201

En es MIR 2025, MIRI falla ses preguntes 181 i 201. Sa pregunta 201 és una pregunta de reserva — cosa que significa que, a diferència d'ALMA que encerta totes ses reserves, MIRI en falla una.

MIR 2026: Perfecció

En es MIR 2026, MIRI no falla cap pregunta. Ni ses 200 oficials, ni ses 10 de reserva. Es model ha evolucionat fins a assolir es rendiment perfecte.

Patró de millora

S'evolució de MIRI il·lustra una de ses avantatges fonamentals de s'arquitectura RAG Agèntic: sa capacitat de millora contínua sense reentrenament des model base. Cada iteració des corpus i de sa configuració d'experts produeix millores incrementals mesurables.

MIR 2024

2 errores

MIR 2025

2 errores

MIR 2026

Perfección

Convocatòria	Errors MIRI	Evolució MIRI
MIR 2024	2	Línia base
MIR 2025	2	Manteniment
MIR 2026	0	Perfecció

4. ALMA: Anatomia de sa Perfecció

ALMA és es model desenvolupat per BinPar amb es continguts d'Editorial Mèdica Panamericana, s'editorial mèdica de referència en es món hispanoparlant, i una selecció de guies clíniques. Està concebut com a eina de referència clínica per a professionals de sa salut: metges en exercici, especialistes en formació i professionals que necessiten consultar i validar coneixement clínic actualitzat dins una organització sanitària o servei de salut.

En s'actualitat és emprat per desenes de milers de professionals de CATSalut (es servei català de salut).

Es corpus: guies clíniques i recomanacions

S'avantatge fonamental d'ALMA resideix tant en sa seva arquitectura com en es seu corpus. Editorial Mèdica Panamericana posseeix un des catàlegs més complets de literatura mèdica en castellà, incloent-hi:

Continguts específics dissenyats per a sa preparació d'oposicions (entre elles es MIR)
Tractats de referència en totes ses especialitats mèdiques
Guies clíniques de ses principals societats científiques
Protocols actualitzats segons s'evidència científica més recent
Material formatiu dissenyat i revisat per especialistes

Aquest corpus s'ha processat i optimitzat per a consum per models de llenguatge, creant un corpus sintètic especialitzat que maximitza sa densitat d'informació rellevant per token.^[2]

S'orquestrador: Claude Sonnet 4.5 a Bedrock Aragó

Es model orquestrador d'ALMA és Claude Sonnet 4.5 amb raonament estès, executat a Amazon Bedrock en es datacenter d'Aragó (Espanya). Aquesta elecció no és casual: garanteix que totes ses dades d'inferència — ses preguntes mèdiques, es contextos clínics, ses respostes — es processen dins sa Unió Europea, amb ses garanties legals i de privacitat més estrictes.^[3]

Mètriques detallades

Mètrica	MIR 2024	MIR 2025	MIR 2026
Precisió	100,0%	100,0%	100,0%
Cost per examen	$9,99	$11,02	$10,56
Cost per pregunta	$0,048	$0,052	$0,050
Temps per pregunta	54,2s	50,8s	54,3s
Confiança mitjana	99,9%	99,8%	99,8%
Tokens de raonament	71K	78K	66K

Es cost mitjà de ~$10,50 per examen (aproximadament 10 EUR al canvi) és significatiu en comparació amb models estàndard com Gemini Flash ($0,34), però s'ha de contextualitzar: ALMA no falla cap pregunta. En tres anys. Incloent-hi reserves. Es cost d'un error en un context clínic real pot ser infinitament superior a $10.

Es temps mitjà de ~53 segons per pregunta reflecteix sa natura iterativa de s'arquitectura: s'orquestrador consulta múltiples experts (agents virtuals especialitzats), avalua ses seves respostes, pot sol·licitar aclariments i sintetitza una resposta final. Cada pregunta rep s'equivalent a una "junta mèdica" entre ~32 especialistes.

600/600: sense precedents

Per comprendre sa magnitud d'aquest resultat, convé recordar que:

Cap model estàndard des ~290 avaluats ha aconseguit mai 200/200 en una sola convocatòria.
Es millor acumulat estàndard és 590/600 (Gemini 3 Flash) — 10 errors.
ALMA no només encerta ses 200 oficials, sinó també ses 10 reserves de cada any (210/210 x 3).

5. MIRI: Precisió per an es gran públic

MIRI és es model desenvolupat per BinPar per a PROMIR, sa plataforma de preparació MIR d'Editorial Mèdica Panamericana. Si ALMA està concebut per a professionals que treballen en un entorn clínic, MIRI està dissenyat per a estudiants de medicina, residents, opositors MIR i professionals independents que necessiten resoldre dubtes de forma ràpida i precisa.

Filosofia de disseny

S'arquitectura de MIRI segueix es mateixos principis que ALMA — orquestrador central + experts especialitzats + corpus de coneixement — però amb un perfil d'optimització diferent:

Prioritat an es cost i sa velocitat, sense sacrificar precisió crítica
Temps de resposta ràpids (~13 segons per pregunta vs ~53 d'ALMA)
Cost optimitzat ($0,78-$0,82 per examen complet)

Sa relació qualitat-preu

ALMA

MIRI

Estándar

Coste acumulado (3 exámenes) vs. precisión acumulada (3 años). Los modelos custom alcanzan mayor precisión a un coste competitivo.

Aquest gràfic revela sa posició estratègica de cada model:

ALMA (punt daurat, a dalt a sa dreta): màxima precisió (100%), cost moderat ($31,57 acumulat). És s'opció "sense compromís" on sa precisió és s'únic que importa.
MIRI (punt teal, a dalt an es centre): precisió quasi perfecta (99,3%), cost mínim ($2,38 acumulat). És s'opció de millor relació qualitat-preu des mercat.
Gemini 3 Flash (punt gris, a baix a s'esquerra): excel·lent precisió (98,3%), cost imbatible ($1,02 acumulat). Però 10 errors més que ALMA i 6 més que MIRI.

6. Arquitectura: Es RAG Agèntic

Com és possible que models custom superin consistentment es millors models generalistes des món? Sa resposta està en s'arquitectura.

Orquestador

LLM de razonamiento avanzado

Analiza la preguntaSelecciona expertosSintetiza respuesta

Consulta iterativa

Especialidades Clínicas

CardiologíaNeumologíaNeurologíaNefrologíaEndocrinologíaReumatologíaHematologíaOncología

Especialidades Quirúrgicas

Cirugía GeneralTraumatologíaUrologíaORLOftalmologíaDermatologíaGinecologíaObstetricia

Ciencias Básicas y Diagnósticas

FarmacologíaMicrobiologíaAnatomía PatológicaRadiologíaBioestadísticaMedicina PreventivaPediatríaPsiquiatría

Soporte y Contexto

Legislación SanitariaGestión ClínicaÉtica MédicaUrgenciasMedicina InternaGeriatríaPaliativosM. Familiar

Corpus sintético especializado

Optimizado para consumo por LLMs, no para lectura humana

~32

Expertos

Multi

Iteraciones

Razonamiento

Arquitectura RAG Agéntico: el orquestador analiza cada pregunta, selecciona los expertos relevantes y sintetiza sus respuestas en múltiples iteraciones

Es RAG Agèntic (Retrieval-Augmented Generation amb agents) representa s'evolució més avançada des sistemes RAG tradicionals.^[5] Mentre que un RAG estàndard recupera documents rellevants i els passa an es model en un sol pas, es RAG Agèntic introdueix un nivell de sofisticació radicalment superior.

S'orquestrador

En es centre de s'arquitectura se situa un model de raonament avançat que actua com a director d'orquestra. Quan rep una pregunta mèdica, s'orquestrador no es limita a cercar informació: analitza sa pregunta, identifica quines especialitats són rellevants, i decideix quins experts consultar.

Aquest procés és iteratiu. Si sa resposta d'un expert és insuficient o contradictòria amb sa d'un altre, s'orquestrador pot:

Reformular sa consulta i demanar de bell nou
Consultar experts addicionals que no considerà inicialment
Sol·licitar aprofundiment en un aspecte específic
Contrastar respostes entre múltiples experts

Aquest patró de consulta iterativa i multi-agent ha demostrat superar consistentment s'ús directe de LLMs tant en medicina com en altres dominis especialitzats.^[6]

Es ~32 experts especialitzats

Cada expert és un sistema RAG especialitzat en una disciplina mèdica concreta (cardiologia, pneumologia, farmacologia, etc.). Té accés a un subconjunt des corpus optimitzat per a sa seva especialitat i està configurat per respondre preguntes dins es seu domini amb màxima precisió.

Sa clau és sa subdelegació intel·ligent: es experts no són simples models amb un prompt diferent. Cadascun té sa seva pròpia base de coneixement, es seu propi context, i pot al seu torn delegar subconsultes a altres experts quan detecta que una pregunta creua fronteres entre especialitats.

Aquest disseny s'alinea amb investigacions recents sobre sistemes multi-agent per a diagnòstic mèdic,^[7] orquestració d'agents especialitzats^[8] i optimització de grafs d'agents.^[9]

Suport multimodal

Tant ALMA com MIRI processen preguntes amb imatges clíniques (radiografies, electrocardiogrames, fotografies dermatològiques, etc.). Es sistema multimodal permet que es experts analitzin ses imatges dins es seu context especialitzat: un cardiòleg virtual analitza un ECG amb es mateix nivell de detall que dedicaria a un informe textual.

Corpus sintètic optimitzat per a LLMs

Una innovació crucial és sa natura des corpus. No es tracta de copiar llibres de text i passar-los an es model. Es corpus ha estat sintetitzat i reformatat específicament per maximitzar sa comprensió per part de models de llenguatge.^[10]

Es documents mèdics originals — guies clíniques, protocols, tractats — es processen mitjançant un pipeline que:

Extreu sa informació clínicament rellevant
Elimina sa redundància i es format orientat a lectura humana
Reestructura sa informació en formats que es LLMs processen de manera més eficient
Enriqueix amb relacions creuades entre especialitats^[11]

Es resultat és un corpus que un humà trobaria difícil de llegir, però que un LLM processa amb màxima eficiència.

Raonament en anglès

Encara que ses preguntes des MIR estan en castellà i ses respostes es generen en castellà, tot es raonament intern i sa comunicació entre s'orquestrador i es experts es realitza en anglès.^[12]

Aquesta decisió es basa en una realitat empírica ben documentada: es LLMs actuals, independentment des seu suport multilingüe, tenen una representació interna més rica i eficient en anglès.^[13] Es tokens en anglès codifiquen més informació semàntica per token, es raonament és més precís, i ses cadenes de pensament produeixen menys errors.

A sa pràctica, això significa que ALMA i MIRI:

Reben sa pregunta en castellà
La tradueixen internament a s'anglès per an es raonament
Es experts raonen i es comuniquen en anglès (donant directrius de traducció per a sa terminologia mèdica que ho requereix)
S'orquestrador sintetitza sa resposta final en anglès
Sa resposta es tradueix an es castellà per a sa sortida

Aquest pipeline afegeix una capa de complexitat, però es benefici en precisió compensa amb escreix es cost addicional de tokens.

Pregunta en Castellà

Zona de raonament en anglès

Traducció

Experts raonen EN

Orquestrador sintetitza EN

Resposta en Castellà

Pipeline de processament multilingüe: sa pregunta es tradueix a s'anglès per an es raonament intern i sa resposta es retorna en castellà

7. Innovacions Tècniques

Més enllà de s'arquitectura general, ALMA i MIRI incorporen diverses innovacions tècniques que contribueixen an es seu rendiment excepcional.

7.1. Corpus sintètic per a LLMs

Sa generació de dades sintètiques per a entrenament i ús amb LLMs és un camp en ràpida evolució.^[10] En es context mèdic, frameworks com MedSyn han demostrat que ses dades sintètiques poden millorar significativament es rendiment en tasques clíniques.^[11]

Sa diferència fonamental entre es corpus d'ALMA/MIRI i ses dades sintètiques convencionals és s'objectiu: no es tracta de generar dades per entrenar (fine-tuning) un model, sinó de crear un corpus optimitzat per a recuperació i consulta (RAG). Això permet actualitzar es coneixement sense modificar es pesos des model base.

Guías clínicas, protocolos

Extrae

Información clínicamente relevante

Elimina

Redundancia y formato humano

Reestructura

Formatos eficientes para LLMs

Enriquece

Relaciones entre especialidades

Corpus sintético optimizado

Pipeline de procesamiento del corpus: los documentos médicos se transforman en un formato optimizado para consumo por modelos de lenguaje

7.2. Actualització incremental amb RLM

Un des reptes crítics de qualsevol sistema d'IA mèdica és mantenir es coneixement actualitzat. Ses guies clíniques canvien, es publiquen nous assajos clínics, s'actualitzen protocols terapèutics.

ALMA i MIRI utilitzen un sistema d'actualització incremental basat en Models de Llenguatge Recursius (RLM).^[14] En lloc de reconstruir es corpus complet quan hi ha una actualització, es sistema:

Detecta quins fragments des corpus han quedat obsolets
Genera noves versions sintetitzades de sa informació actualitzada
Integra es nous fragments mantenint sa coherència amb sa resta des corpus
Verifica que s'actualització no introdueix contradiccions

Aquest procés es supervisa en temps real i permet que es corpus es mantengui actualitzat de forma contínua, sense interrupcions de servei.

7.3. Cacheig de tokens i context infinit

Amb ~32 experts i múltiples iteracions de consulta, sa quantitat de tokens processats per pregunta pot ser enorme. Per mantenir es costs sota control i sa velocitat en nivells acceptables, es sistema implementa tècniques avançades de cacheig de tokens.

S'optimització des KV-Cache és fonamental per a s'eficiència des LLMs moderns.^[15] Tècniques com SnapKV permeten comprimir es cache d'atenció sense pèrdua significativa de rendiment.^[16] Sistemes com LMCache duen aquesta optimització un pas més enllà, permetent compartir cache entre múltiples consultes.^[17]

ALMA i MIRI implementen una tècnica que denominam arbre de memòria amb subdelegació: s'orquestrador manté un arbre de context on cada branca correspon a un expert consultat. Quan un expert necessita consultar-ne un altre, es crea una nova branca que hereta es context rellevant des pare sense duplicar tokens. Això permet mantenir "converses" entre experts de forma eficient.

7.4. Raonament en anglès

Com hem esmentat a sa secció d'arquitectura, tot es raonament intern es realitza en anglès. Sa investigació recent confirma que es LLMs multilingües tendeixen a "pensar" en anglès internament, independentment de s'idioma d'entrada.^[12] Altres estudis sobre raonament multilingüe corroboren que es rendiment en tasques de raonament complex millora significativament quan es força s'ús de s'anglès com a llengua de processament intern.^[13]

Des d'una perspectiva d'eficiència de tokens, s'anglès ofereix major representativitat semàntica per token: una mateixa idea mèdica expressada en anglès requereix típicament menys tokens que en castellà, cosa que redueix costs i permet processar més context dins sa finestra d'atenció des model.

8. Sobirania de Dades: Bedrock a Aragó

En es context d'un model d'IA que processa informació mèdica — potencialment incloent-hi dades clíniques de pacients en desplegaments futurs — sa sobirania de ses dades no és un detall tècnic: és un requisit legal i ètic fonamental.

ALMA i Bedrock Aragó

Es model orquestrador d'ALMA s'executa a Amazon Bedrock, específicament en es datacenter d'Aragó (Espanya). Aquesta configuració garanteix:

Processament dins sa UE: totes ses dades d'inferència es processen en servidors ubicats en territori espanyol, dins sa jurisdicció de sa Unió Europea.
Sense accés d'Anthropic a ses dades: en executar Claude a través de Bedrock, Amazon actua com a processador de dades baix contracte amb es client. Anthropic, es desenvolupador de Claude, no té accés a ses consultes, es contextos ni ses respostes generades. Això és fonamentalment diferent d'usar s'API directa d'Anthropic.
Compliment GDPR: es processament compleix amb es Reglament General de Protecció de Dades de sa UE, incloent-hi es principis de minimització de dades, limitació de finalitat i seguretat des tractament.
Compatibilitat amb s'AI Act: s'arquitectura està dissenyada per complir amb es requisits des Reglament Europeu d'Intel·ligència Artificial, que classifica es sistemes d'IA mèdica com a "alt risc" i imposa obligacions específiques de transparència, documentació i supervisió humana.^[18]

Es experts: models especialitzats amb garanties

Es models experts — més petits i especialitzats que s'orquestrador — s'executen amb ses mateixes garanties de seguretat. Sa separació entre s'orquestrador (que veu sa pregunta completa) i es experts (que reben consultes fragmentades i descontextualitzades) proporciona una capa addicional de protecció: cap expert individual té accés an es context clínic complet d'un cas.

🇪🇺

UE/España — Bedrock Aragón

GDPRAI Act

Pregunta médica

Orquestador

Expertos especializados

Corpus médico

Respuesta

Residencia de datos en España

Anthropic

Sin acceso a datos de inferencia

Arquitectura de soberanía de datos: todo el procesamiento ocurre dentro de la UE, sin acceso del proveedor del modelo a los datos de inferencia

Parámetro	Tendencia MIR 2026	Implicación
Ubicació des processament	España (UE)	Datacenter d'Amazon a Aragó. Totes ses dades romanen en territori espanyol.
Accés des proveïdor des model	Sense accés	Anthropic no accedeix a dades d'inferència quan s'usa a través de Bedrock.
Compliment GDPR	Complet	Amazon com a processador de dades, BinPar com a responsable des tractament.
AI Act (alt risc)	Dissenyat	Arquitectura preparada per an es requisits de transparència i supervisió de s'AI Act.

Garanties de sobirania i protecció de dades en s'arquitectura ALMA

Implicacions per an es sector sanitari

Sa demostració que és possible assolir es rendiment perfecte sense enviar dades mèdiques fora de sa UE té implicacions profundes per a s'adopció d'IA en es sector sanitari europeu. Històricament, ses preocupacions sobre sobirania de dades han estat un des principals frens a sa implementació de sistemes d'IA mèdica en hospitals i centres de salut europeus.^[19]

ALMA demostra que aquest dilema entre rendiment i privacitat és un fals dilema: és possible tenir ambdós.

9. Implicacions per a sa IA Mèdica

Es resultats d'ALMA i MIRI reforcen i estenen conclusions que ja apuntàvem en articles anteriors, però amb una contundència sense precedents.

RAG Agèntic > Fine-tuning

En sa nostra anàlisi anterior sobre "Sa Catedral i es Bazar", argumentàvem que sa personalització mitjançant RAG ofereix avantatges fonamentals sobre es fine-tuning per a aplicacions mèdiques. ALMA i MIRI són sa demostració empírica definitiva d'aquesta tesi.

Es estudis recents sobre agents d'IA en medicina clínica confirmen que es sistemes agèntics superen consistentment es models base, fins i tot quan aquests darrers han estat fine-tunejats específicament per an es domini mèdic.^[20] Sa raó és senzilla: un model fine-tunejat modifica es seus pesos de forma estàtica, mentre que un sistema RAG agèntic pot consultar informació actualitzada dinàmicament.

RAG vs. Fine-Tuning en tasques mèdiques. Dades de: MDPI Bioengineering 2025 (BLEU), PMC systematic review (al·lucinacions), medRxiv 2025 (agents).

Sa personalització sense modificar pesos

ALMA i MIRI utilitzen es mateixos models base que estan disponibles públicament (Claude per a ALMA, model confidencial per a MIRI). Sa diferència de rendiment no prové de modificacions en es models, sinó de:

Es corpus — quina informació se'ls proporciona
S'arquitectura — com s'organitza sa consulta
Es experts — com s'especialitza es coneixement
Sa iteració — quantes vegades es refina sa resposta

Això significa que s'avantatge d'ALMA/MIRI és reproduïble per qualsevol organització que tengui accés a corpus mèdic de qualitat i sa capacitat tècnica d'implementar una arquitectura agèntica.

Es futur: actualització contínua des corpus

Potser sa implicació més rellevant a llarg termini és que ALMA i MIRI poden millorar contínuament sense necessitat de reentrenar models. Quan es publica una nova guia clínica, s'actualitza un protocol terapèutic o es descobreix una nova associació diagnòstica, basta amb actualitzar es corpus. Es sistema incorpora es nou coneixement immediatament.

Aquest model de "coneixement com a servei" — on sa intel·ligència resideix en es corpus i s'arquitectura, no en es pesos des model — podria redefinir com es desenvolupen i despleguen sistemes d'IA mèdica en sa pròxima dècada.

10. Conclusions

ALMA demostra que sa perfecció és assolible

600 preguntes. Tres anys d'exàmens dissenyats per seleccionar es millors metges d'Espanya. Zero errors. ALMA demostra que, amb s'arquitectura correcta, es corpus adequat i sa inversió necessària, és possible construir un sistema d'IA mèdica que no falli. No "quasi mai". Mai.

MIRI demostra que s'excel·lència és accessible

596/600 a un cost de $2,38. MIRI demostra que sa precisió quasi perfecta no requereix pressuposts astronòmics. Un estudiant de medicina pot accedir a un sistema que supera qualsevol model estàndard des mercat per un cost inferior an es d'un cafè.

S'enfocament agèntic supera qualsevol model generalista

Cap model generalista — ni Gemini, ni GPT-5, ni Claude, ni cap des ~290 avaluats — ha aconseguit mai 200/200 en una sola convocatòria. ALMA ho aconsegueix a ses tres. MIRI ho aconsegueix a sa més recent. S'especialització mitjançant experts, combinada amb un orquestrador de raonament avançat, produeix resultats que s'enfocament "un model per a tot" no pot igualar.

Sa sobirania de dades és compatible amb es màxim rendiment

ALMA processa tota sa seva inferència a Espanya, sense enviar dades fora de sa UE, sense que Anthropic accedeixi a ses consultes. I tot i així obté es resultat perfecte. Sa privacitat i es rendiment no són objectius en conflicte.

Allò que ve

Aquests resultats obren sa porta a desplegaments clínics reals de sistemes d'IA mèdica basats en RAG Agèntic. No com a substituts des judici clínic, sinó com a sistemes de suport an es diagnòstic amb una fiabilitat demostrada i verificable.

A Medical Benchmark seguirem avaluant tant models estàndard com models custom, documentant s'estat de s'art amb es rigor i sa transparència que caracteritzen sa nostra plataforma. Tots es resultats estan disponibles a sa nostra plataforma de rànquings.

ALMA i MIRI han estat avaluats baix ses mateixes condicions que es altres models des benchmark: mateix prompt, mateixes preguntes, mateix timing. Es resultats són verificables i reproduïbles. Encara que ses avaluacions s'han realitzat amb posterioritat a sa celebració de cada examen, es models no disposen d'accés a internet ni d'informació alguna sobre es resultats o ses respostes correctes de ses preguntes, per la qual cosa no existeix possibilitat de contaminació de dades.

Notas y Referencias

ALMA encerta no només ses 200 preguntes oficials (vàlides després d'anulacions), sinó també ses 10 preguntes de reserva (201-210) de cada convocatòria. Total: 210/210 x 3 anys = 630/630 incloent-hi reserves, 600/600 considerant només ses preguntes vàlides de s'examen.
Long, Y., et al. "LLMs Meet Synthetic Data Generation: A Survey". ACL 2024. Sa generació de dades sintètiques per a LLMs permet crear corpus optimitzats per a recuperació i raonament. Enllaç
Amazon Bedrock a sa regió eu-south-2 (Aragó, Espanya). Anthropic no accedeix a dades d'inferència en desplegaments Bedrock. Documentació de protecció de dades d'AWS Bedrock
Càlcul: 0,995^600 ≈ 0,049, és a dir, un model amb 99,5% de precisió per pregunta té aproximadament un 4,9% de probabilitat d'encertar 600 preguntes consecutives. ALMA ho aconsegueix amb un 100% de precisió per pregunta.
Singh, A., et al. "Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG". arXiv:2501.09136, 2025. Enllaç
"MA-RAG: Multi-Agent Retrieval-Augmented Generation". arXiv:2505.20096, 2025. Es sistemes multi-agent RAG superen es RAG tradicionals en precisió i capacitat de raonament. Enllaç
Zuo, Y., et al. "KG4Diagnosis: A Hierarchical Multi-Agent LLM Framework with Knowledge Graph Enhancement for Medical Diagnosis". arXiv:2412.16833, 2024. Enllaç
Zhang, C., et al. "AgentOrchestra: Orchestrating Specialized Agents for Complex Tasks". arXiv:2506.12508, 2025. Enllaç
Zhuge, M., et al. "GPTSwarm: Language Agents as Optimizable Graphs". ICML 2024. Enllaç
Long, Y., et al. "LLMs Meet Synthetic Data Generation: A Survey". ACL 2024. Enllaç
Kumichev, A., et al. "MedSyn: LLM-based Synthetic Medical Text Generation Framework". arXiv:2408.02056, 2024. Enllaç
Schut, L., Gal, Y., Farquhar, S. "Do Multilingual LLMs Think In English?". ICML 2025. Es models multilingües processen internament en anglès fins i tot amb entrades en altres idiomes. Enllaç
"Multilingual Reasoning: A Survey of Challenges and Approaches". 2025. Es raonament en anglès produeix millors resultats que en altres idiomes, fins i tot per a tasques en aquests idiomes. Enllaç
Zhang, T., Kraska, T., Khattab, O. "Recursive Language Models". arXiv:2512.24601, 2025. Enllaç
Luohe, S., et al. "A Survey on KV-Cache Optimization for Large Language Models". arXiv:2407.18003, COLM 2024. Enllaç
Li, Y., et al. "SnapKV: LLM Knows What You are Looking for Before Generation". NeurIPS 2024. Enllaç
"LMCache: Efficient KV-Cache Management for Large Language Models". arXiv:2510.09665, 2025. Enllaç
Minssen, T., et al. "The EU AI Act and Its Implications for Medical Products". npj Digital Medicine, 2024. Enllaç
"The EU AI Act: Implications for Healthcare AI Systems". 2024. Es sistemes d'IA mèdica es classifiquen com a alt risc baix s'AI Act, requerint avaluacions de conformitat i supervisió humana.
"AI Agents in Clinical Medicine: Promise and Challenges". PMC, 2025. Es agents d'IA superen es models base en tasques clíniques en combinar raonament amb accés a coneixement especialitzat.