ALMA e MIRI obteñen a nota máxima posible no exame MIR 2026 cun 100% de acerto

Durante tres anos, Medical Benchmark avaliou mais de 300 modelos de intelixencia artificial no exame MIR, a proba de acceso a formación médica especializada en España. Documentamos como os mellores modelos xeneralistas -- Gemini, GPT, Claude -- foron achegándose ao teito do 100%, fallando cada vez menos preguntas, custando cada vez menos diñeiro, respondendo cada vez mais rápido.

Pero sempre fallaban algo.

Hoxe presentamos os resultados de dous modelos que rompen esa barreira. Non son modelos xeneralistas. Non están dispoñibles en liña. Non se poden probar cunha API pública. Son modelos custom, construídos en España cunha arquitectura radicalmente diferente: o RAG Axéntico con expertos especializados.

MIRI, desenvolvido por BinPar para PROMIR (De Editorial Médica Panamericana), acertou 596 de 600 preguntas MIR, con só 4 erros en tres anos e un rendemento perfecto de 200/200 no MIR 2026. E fíxoo a un custo de $2,38 en total -- 13 veces menos que ALMA e comparable aos modelos estándar mais económicos.

ALMA, desenvolvido por BinPar con contidos de Editorial Médica Panamericana e Guías Clínicas Españolas, acertou as 600 preguntas dos tres últimos exames MIR -- ademais de todas as preguntas de reserva -- sen un só erro.^[1] Ningún modelo de IA na historia de MedBench, e que nos saibamos, ningún modelo en ningún benchmark médico do mundo, logrou xamais unha puntuación perfecta acumulada ao longo de tres anos.

1. Os Resultados: O Muro do 100%

Comecemos polos números. Sen adornos, sen hipérboles. Só datos.

Os datos de ALMA

Convocatoria	Correctas	Netas	Precisión	Custo	Tempo/pregunta	Confianza	Reasoning Tokens
MIR 2024	200/200	200,00	100,0%	$9,99	54,7s	99,9%	71K
MIR 2025	200/200	200,00	100,0%	$11,02	50,8s	99,8%	78K
MIR 2026	200/200	200,00	100,0%	$10,56	54,3s	99,8%	66K
Acumulado	600/600	600,00	100,0%	$31,57

Os datos de MIRI

Convocatoria	Correctas	Erros	Netas	Precisión	Custo	Tempo/pregunta	Confianza
MIR 2024	198/200	2	197,33	99,0%	$0,78	14,2s	99,9%
MIR 2025	198/200	2	197,33	99,0%	$0,82	15,3s	99,8%
MIR 2026	200/200	0	200,00	100,0%	$0,78	11,9s	100,0%
Acumulado	596/600	4	594,66	99,3%	$2,38

Agora, poñamos isto en contexto cos mellores modelos estándar do benchmark.

Custom (RAG Agéntico)

Modelos estándar

ALMA y MIRI (modelos custom con RAG Agéntico) frente a los 10 mejores modelos estándar del benchmark MIR 2026

No MIR 2026, tanto ALMA como MIRI obteñen 200/200: puntuación perfecta. Ningún modelo estándar logrou xamais 200/200 en ningunha das tres convocatorias. O mellor resultado estándar en 2026 é 199/200, compartido por tres modelos (Gemini 3 Flash, o3 e GPT-5).

A diferenza pode parecer mínima -- un só acerto -- pero esa diferenza dun acerto, repetida sistematicamente ano tras ano, separa o extraordinario do perfecto.

Os 5 mellores modelos estándar no MIR 2026

Modelo	Correctas	Netas	Custo
Gemini 3 Flash	199/200	198,67	$0,34
o3	199/200	198,67	$1,94
GPT-5	199/200	198,67	$2,05
GPT-5.1 Chat	198/200	197,33	$0,65
GPT-5 Codex	198/200	197,33	$0,89

2. A Perspectiva de Tres Anos

Un exame pode ser sorte. Dous, coincidencia. Tres anos de resultados consistentes son un patrón.

Custom (RAG Agéntico)

Modelos estándar

Preguntas correctas acumuladas en MIR 2024, 2025 y 2026 (máximo: 600). Solo se muestran los modelos con resultados en los 3 años.

O que este gráfico mostra é a consistencia absoluta de ALMA: 200/200 nos tres anos, sen excepción. Non só acerta todas as preguntas oficiais, senón tamén todas as preguntas de reserva (201-210) en cada convocatoria. Cando se anulan preguntas oficiais e se toman reservas, ALMA tenas todas correctas.

MIRI mostra unha progresión fascinante: 198/200 en 2024, 198/200 en 2025, e finalmente 200/200 en 2026. O modelo foi mellorando ata acadar a perfección.

O mellor modelo estándar acumulado, Gemini 3 Flash, acada 590/600 -- un resultado extraordinario en termos absolutos, pero 10 acertos por debaixo de ALMA.

0 errores

Custom

Estándar

Total de errores en MIR 2024 + 2025 + 2026 (máximo posible: 600). Menos es mejor.

A visualización de erros acumulados é quizais a mais elocuente. ALMA presenta unha barra baleira: cero erros en tres anos. MIRI acumula só 4. O mellor modelo estándar, Gemini 3 Flash, acumula 10. Os demais modelos do top 5 estándar superan a ducia de erros.

Parámetro	Tendencia MIR 2026	Implicación
ALMA vs mellor estándar	-10 erros	ALMA comete 0 erros fronte aos 10 do mellor modelo estándar (Gemini 3 Flash) en 3 anos
MIRI vs mellor estándar	-6 erros	MIRI comete só 4 erros fronte aos 10 de Flash, a un custo soamente 2,3 veces superior
MIRI vs ALMA	+4 erros	MIRI comete 4 erros mais que ALMA, pero o seu custo é 13,3 veces inferior ($2,38 vs $31,57)
ALMA: custo por erro evitado	$2,92/erro	Respecto a Flash, ALMA custa $30,55 mais pero evita 10 erros ($3,06 por erro evitado)

Comparativa de erros acumulados en 3 anos: modelos custom vs mellor modelo estándar

3. Anatomía dos Fallos de MIRI

MIRI falla exactamente 2 preguntas no MIR 2024, 2 no MIR 2025 e 0 no MIR 2026. Analicemos cada fallo.

MIR 2024: Preguntas 9 e 13

No MIR 2024, MIRI falla as preguntas 9 e 13. Ambas se encontran entre as primeiras 25 preguntas do exame, que son comúns a todas as versións (V0-V4).

MIR 2025: Preguntas 181 e 201

No MIR 2025, MIRI falla as preguntas 181 e 201. A pregunta 201 é unha pregunta de reserva -- o que significa que, a diferenza de ALMA que acerta todas as reservas, MIRI falla unha.

MIR 2026: Perfección

No MIR 2026, MIRI non falla ningunha pregunta. Nin as 200 oficiais, nin as 10 de reserva. O modelo evolucionou ata acadar o rendemento perfecto.

Patrón de mellora

A evolución de MIRI ilustra unha das vantaxes fundamentais da arquitectura RAG Axéntico: a capacidade de mellora continua sen readestramento do modelo base. Cada iteración do corpus e da configuración de expertos produce melloras incrementais medibles.

MIR 2024

2 errores

MIR 2025

2 errores

MIR 2026

Perfección

Convocatoria	Erros MIRI	Evolución MIRI
MIR 2024	2	Liña base
MIR 2025	2	Mantemento
MIR 2026	0	Perfección

4. ALMA: Anatomía da Perfección

ALMA é o modelo desenvolvido por BinPar cos contidos de Editorial Médica Panamericana, a editorial médica de referencia no mundo hispanofalante, e unha selección de guías clínicas. Está concibido como ferramenta de referencia clínica para profesionais da saúde: médicos en exercicio, especialistas en formación e profesionais que necesitan consultar e validar coñecemento clínico actualizado dentro dunha organización sanitaria ou servizo de saúde.

Na actualidade é empregado por decenas de miles de profesionais de CATSalut (o servizo catalán de saúde).

O corpus: guías clínicas e recomendacións

A vantaxe fundamental de ALMA reside tanto na súa arquitectura como no seu corpus. Editorial Médica Panamericana posúe un dos catálogos mais completos de literatura médica en castelán, incluíndo:

Contidos específicos deseñados para a preparación de oposicións (entre elas o MIR)
Tratados de referencia en todas as especialidades médicas
Guías clínicas das principais sociedades científicas
Protocolos actualizados segundo a evidencia científica mais recente
Material formativo deseñado e revisado por especialistas

Este corpus procesouse e optimizouse para consumo por modelos de linguaxe, creando un corpus sintético especializado que maximiza a densidade de información relevante por token.^[2]

O orquestador: Claude Sonnet 4.5 en Bedrock Aragón

O modelo orquestador de ALMA é Claude Sonnet 4.5 con razoamento estendido, executado en Amazon Bedrock no datacenter de Aragón (España). Esta elección non é casual: garante que todos os datos de inferencia -- as preguntas médicas, os contextos clínicos, as respostas -- se procesan dentro da Unión Europea, coas garantías legais e de privacidade mais estritas.^[3]

Métricas detalladas

Métrica	MIR 2024	MIR 2025	MIR 2026
Precisión	100,0%	100,0%	100,0%
Custo por exame	$9,99	$11,02	$10,56
Custo por pregunta	$0,048	$0,052	$0,050
Tempo por pregunta	54,2s	50,8s	54,3s
Confianza media	99,9%	99,8%	99,8%
Tokens de razoamento	71K	78K	66K

O custo medio de ~$10,50 por exame (aproximadamente 10 EUR ao cambio) é significativo en comparación con modelos estándar como Gemini Flash ($0,34), pero hai que contextualizalo: ALMA non falla ningunha pregunta. En tres anos. Incluíndo reservas. O custo dun erro nun contexto clínico real pode ser infinitamente superior a $10.

O tempo medio de ~53 segundos por pregunta reflicte a natureza iterativa da arquitectura: o orquestador consulta múltiples expertos (axentes virtuais especializados), avalía as súas respostas, pode solicitar clarificacións e sintetiza unha resposta final. Cada pregunta recibe o equivalente a unha "xunta médica" entre ~32 especialistas.

600/600: sen precedentes

Para comprender a magnitude deste resultado, convén lembrar que:

Ningún modelo estándar dos ~290 avaliados logrou xamais 200/200 nunha soa convocatoria.
O mellor acumulado estándar é 590/600 (Gemini 3 Flash) -- 10 erros.
ALMA non só acerta as 200 oficiais, senón tamén as 10 reservas de cada ano (210/210 x 3).

5. MIRI: Precisión para o gran público

MIRI é o modelo desenvolvido por BinPar para PROMIR, a plataforma de preparación MIR de Editorial Médica Panamericana. Se ALMA está concibido para profesionais traballando nun contorno clínico, MIRI está deseñado para estudantes de medicina, residentes, opositores MIR e profesionais independentes que necesitan resolver dúbidas de forma rápida e precisa.

Filosofía de deseño

A arquitectura de MIRI segue os mesmos principios que ALMA -- orquestador central + expertos especializados + corpus de coñecemento -- pero cun perfil de optimización diferente:

Prioridade ao custo e velocidade, sen sacrificar precisión crítica
Tempos de resposta rápidos (~13 segundos por pregunta vs ~53 de ALMA)
Custo optimizado ($0,78-$0,82 por exame completo)

A relación calidade-prezo

ALMA

MIRI

Estándar

Coste acumulado (3 exámenes) vs. precisión acumulada (3 años). Los modelos custom alcanzan mayor precisión a un coste competitivo.

Este gráfico revela a posición estratéxica de cada modelo:

ALMA (punto dourado, arriba á dereita): máxima precisión (100%), custo moderado ($31,57 acumulado). É a opción "sen compromiso" onde a precisión é o único que importa.
MIRI (punto teal, arriba ao centro): precisión case perfecta (99,3%), custo mínimo ($2,38 acumulado). É a opción de mellor relación calidade-prezo do mercado.
Gemini 3 Flash (punto gris, abaixo á esquerda): excelente precisión (98,3%), custo imbatible ($1,02 acumulado). Pero 10 erros mais que ALMA e 6 mais que MIRI.

6. Arquitectura: O RAG Axéntico

Como é posible que modelos custom superen consistentemente aos mellores modelos xeneralistas do mundo? A resposta está na arquitectura.

Orquestador

LLM de razonamiento avanzado

Analiza la preguntaSelecciona expertosSintetiza respuesta

Consulta iterativa

Especialidades Clínicas

CardiologíaNeumologíaNeurologíaNefrologíaEndocrinologíaReumatologíaHematologíaOncología

Especialidades Quirúrgicas

Cirugía GeneralTraumatologíaUrologíaORLOftalmologíaDermatologíaGinecologíaObstetricia

Ciencias Básicas y Diagnósticas

FarmacologíaMicrobiologíaAnatomía PatológicaRadiologíaBioestadísticaMedicina PreventivaPediatríaPsiquiatría

Soporte y Contexto

Legislación SanitariaGestión ClínicaÉtica MédicaUrgenciasMedicina InternaGeriatríaPaliativosM. Familiar

Corpus sintético especializado

Optimizado para consumo por LLMs, no para lectura humana

~32

Expertos

Multi

Iteraciones

Razonamiento

Arquitectura RAG Agéntico: el orquestador analiza cada pregunta, selecciona los expertos relevantes y sintetiza sus respuestas en múltiples iteraciones

O RAG Axéntico (Retrieval-Augmented Generation con axentes) representa a evolución mais avanzada dos sistemas RAG tradicionais.^[5] Mentres que un RAG estándar recupera documentos relevantes e pásaos ao modelo nun só paso, o RAG Axéntico introduce un nivel de sofisticación radicalmente superior.

O orquestador

No centro da arquitectura sitúase un modelo de razoamento avanzado que actúa como director de orquestra. Cando recibe unha pregunta médica, o orquestador non se limita a buscar información: analiza a pregunta, identifica que especialidades son relevantes, e decide que expertos consultar.

Este proceso é iterativo. Se a resposta dun experto é insuficiente ou contradictoria coa doutro, o orquestador pode:

Reformular a consulta e preguntar de novo
Consultar expertos adicionais que non considerou inicialmente
Solicitar profundización nun aspecto específico
Contrastar respostas entre múltiples expertos

Este patrón de consulta iterativa e multi-axente demostrou superar consistentemente ao uso directo de LLMs tanto en medicina como noutros dominios especializados.^[6]

Os ~32 expertos especializados

Cada experto é un sistema RAG especializado nunha disciplina médica concreta (cardioloxía, neumoloxía, farmacoloxía, etc.). Ten acceso a un subconxunto do corpus optimizado para a súa especialidade e está configurado para responder preguntas dentro do seu dominio con máxima precisión.

A clave é a subdelegación intelixente: os expertos non son simples modelos cun prompt diferente. Cada un ten a súa propia base de coñecemento, o seu propio contexto, e pode á súa vez delegar subconsultas a outros expertos cando detecta que unha pregunta cruza fronteiras entre especialidades.

Este deseño alíñase con investigacións recentes sobre sistemas multi-axente para diagnóstico médico,^[7] orquestración de axentes especializados^[8] e optimización de grafos de axentes.^[9]

Soporte multimodal

Tanto ALMA como MIRI procesan preguntas con imaxes clínicas (radiografías, electrocardiogramas, fotografías dermatolóxicas, etc.). O sistema multimodal permite que os expertos analicen as imaxes dentro do seu contexto especializado: un cardiólogo virtual analiza un ECG co mesmo nivel de detalle que dedicaría a un informe textual.

Corpus sintético optimizado para LLMs

Unha innovación crucial é a natureza do corpus. Non se trata de copiar libros de texto e pasalos ao modelo. O corpus foi sintetizado e reformateado especificamente para maximizar a comprensión por parte de modelos de linguaxe.^[10]

Os documentos médicos orixinais -- guías clínicas, protocolos, tratados -- procésanse mediante un pipeline que:

Extrae a información clinicamente relevante
Elimina a redundancia e o formato orientado a lectura humana
Reestrutura a información en formatos que os LLMs procesan de maneira mais eficiente
Enriquece con relacións cruzadas entre especialidades^[11]

O resultado é un corpus que un humano atoparía difícil de ler, pero que un LLM procesa con máxima eficiencia.

Razoamento en inglés

Aínda que as preguntas do MIR están en castelán e as respostas se xeran en castelán, todo o razoamento interno e a comunicación entre o orquestador e os expertos realízase en inglés.^[12]

Esta decisión baséase nunha realidade empírica ben documentada: os LLMs actuais, independentemente do seu soporte multilingüe, teñen unha representación interna mais rica e eficiente en inglés.^[13] Os tokens en inglés codifican mais información semántica por token, o razoamento é mais preciso, e as cadeas de pensamento producen menos erros.

Na práctica, isto significa que ALMA e MIRI:

Reciben a pregunta en castelán
Tradúcena internamente ao inglés para o razoamento
Os expertos razonan e comunícanse en inglés (dando directrices de tradución para a terminoloxía médica que o require)
O orquestador sintetiza a resposta final en inglés
A resposta tradúcese ao castelán para a saída

Este pipeline engade unha capa de complexidade, pero o beneficio en precisión compensa con creces o custo adicional de tokens.

Pregunta en Castelán

Zona de razoamento en inglés

Tradución

Expertos razonan EN

Orquestrador sintetiza EN

Resposta en Castelán

Pipeline de procesamento multilingüe: a pregunta tradúcese ao inglés para o razoamento interno e a resposta devólvese en castelán

7. Innovacións Técnicas

Mais alá da arquitectura xeral, ALMA e MIRI incorporan varias innovacións técnicas que contribúen ao seu rendemento excepcional.

7.1. Corpus sintético para LLMs

A xeración de datos sintéticos para adestramento e uso con LLMs é un campo en rápida evolución.^[10] No contexto médico, frameworks como MedSyn demostraron que os datos sintéticos poden mellorar significativamente o rendemento en tarefas clínicas.^[11]

A diferenza fundamental entre o corpus de ALMA/MIRI e os datos sintéticos convencionais é o obxectivo: non se trata de xerar datos para adestrar (fine-tuning) un modelo, senón de crear un corpus optimizado para recuperación e consulta (RAG). Isto permite actualizar o coñecemento sen modificar os pesos do modelo base.

Guías clínicas, protocolos

Extrae

Información clínicamente relevante

Elimina

Redundancia y formato humano

Reestructura

Formatos eficientes para LLMs

Enriquece

Relaciones entre especialidades

Corpus sintético optimizado

Pipeline de procesamiento del corpus: los documentos médicos se transforman en un formato optimizado para consumo por modelos de lenguaje

7.2. Actualización incremental con RLM

Un dos desafíos críticos de calquera sistema de IA médica é manter o coñecemento actualizado. As guías clínicas cambian, publícanse novos ensaios clínicos, actualízanse protocolos terapéuticos.

ALMA e MIRI utilizan un sistema de actualización incremental baseado en Modelos de Linguaxe Recursivos (RLM).^[14] En lugar de reconstruír o corpus completo cando hai unha actualización, o sistema:

Detecta que fragmentos do corpus quedaron obsoletos
Xera novas versións sintetizadas da información actualizada
Integra os novos fragmentos mantendo a coherencia co resto do corpus
Verifica que a actualización non introduce contradicións

Este proceso supervísase en tempo real e permite que o corpus se manteña actualizado de forma continua, sen interrupcións de servizo.

7.3. Cacheado de tokens e contexto infinito

Con ~32 expertos e múltiples iteracións de consulta, a cantidade de tokens procesados por pregunta pode ser enorme. Para manter os custos baixo control e a velocidade en niveis aceptables, o sistema implementa técnicas avanzadas de cacheado de tokens.

A optimización do KV-Cache é fundamental para a eficiencia dos LLMs modernos.^[15] Técnicas como SnapKV permiten comprimir o cache de atención sen perda significativa de rendemento.^[16] Sistemas como LMCache levan esta optimización un paso mais alá, permitindo compartir cache entre múltiples consultas.^[17]

ALMA e MIRI implementan unha técnica que denominamos árbore de memoria con subdelegación: o orquestador mantén unha árbore de contexto onde cada rama corresponde a un experto consultado. Cando un experto necesita consultar a outro, créase unha nova rama que herda o contexto relevante do pai sen duplicar tokens. Isto permite manter "conversas" entre expertos de forma eficiente.

7.4. Razoamento en inglés

Como mencionamos na sección de arquitectura, todo o razoamento interno realízase en inglés. A investigación recente confirma que os LLMs multilingües tenden a "pensar" en inglés internamente, independentemente do idioma de entrada.^[12] Outros estudos sobre razoamento multilingüe corroboran que o rendemento en tarefas de razoamento complexo mellora significativamente cando se forza o uso de inglés como lingua de procesamento interno.^[13]

Desde unha perspectiva de eficiencia de tokens, o inglés ofrece maior representatividade semántica por token: unha mesma idea médica expresada en inglés require tipicamente menos tokens que en castelán, o que reduce custos e permite procesar mais contexto dentro da ventá de atención do modelo.

8. Soberanía de Datos: Bedrock en Aragón

No contexto dun modelo de IA que procesa información médica -- potencialmente incluíndo datos clínicos de pacientes en despregamentos futuros -- a soberanía dos datos non é un detalle técnico: é un requisito legal e ético fundamental.

ALMA e Bedrock Aragón

O modelo orquestador de ALMA execútase en Amazon Bedrock, especificamente no datacenter de Aragón (España). Esta configuración garante:

Procesamento dentro da UE: todos os datos de inferencia procésanse en servidores situados en territorio español, dentro da xurisdición da Unión Europea.
Sen acceso de Anthropic aos datos: ao executar Claude a través de Bedrock, Amazon actúa como procesador de datos baixo contrato co cliente. Anthropic, o desenvolvedor de Claude, non ten acceso ás consultas, os contextos nin as respostas xeradas. Isto é fundamentalmente diferente a usar a API directa de Anthropic.
Cumprimento GDPR: o procesamento cumpre co Regulamento Xeral de Protección de Datos da UE, incluíndo os principios de minimización de datos, limitación de finalidade e seguridade do tratamento.
Compatibilidade co AI Act: a arquitectura está deseñada para cumprir cos requisitos do Regulamento Europeo de Intelixencia Artificial, que clasifica os sistemas de IA médica como "alto risco" e impón obrigas específicas de transparencia, documentación e supervisión humana.^[18]

Os expertos: modelos especializados con garantías

Os modelos expertos -- mais pequenos e especializados que o orquestador -- execútanse coas mesmas garantías de seguridade. A separación entre o orquestador (que ve a pregunta completa) e os expertos (que reciben consultas fragmentadas e descontextualizadas) proporciona unha capa adicional de protección: ningún experto individual ten acceso ao contexto clínico completo dun caso.

🇪🇺

UE/España — Bedrock Aragón

GDPRAI Act

Pregunta médica

Orquestador

Expertos especializados

Corpus médico

Respuesta

Residencia de datos en España

Anthropic

Sin acceso a datos de inferencia

Arquitectura de soberanía de datos: todo el procesamiento ocurre dentro de la UE, sin acceso del proveedor del modelo a los datos de inferencia

Parámetro	Tendencia MIR 2026	Implicación
Ubicación do procesamento	España (UE)	Datacenter de Amazon en Aragón. Todos os datos permanecen en territorio español.
Acceso do provedor do modelo	Sen acceso	Anthropic non accede a datos de inferencia cando se usa a través de Bedrock.
Cumprimento GDPR	Completo	Amazon como procesador de datos, BinPar como responsable do tratamento.
AI Act (alto risco)	Deseñado	Arquitectura preparada para os requisitos de transparencia e supervisión do AI Act.

Garantías de soberanía e protección de datos na arquitectura ALMA

Implicacións para o sector sanitario

A demostración de que é posible acadar o rendemento perfecto sen enviar datos médicos fóra da UE ten implicacións profundas para a adopción de IA no sector sanitario europeo. Historicamente, as preocupacións sobre soberanía de datos foron un dos principais freos á implementación de sistemas de IA médica en hospitais e centros de saúde europeos.^[19]

ALMA demostra que este dilema entre rendemento e privacidade é un falso dilema: é posible ter ambos.

9. Implicacións para a IA Médica

Os resultados de ALMA e MIRI reforzan e estenden conclusións que xa apuntabamos en artigos anteriores, pero cunha contundencia sen precedentes.

RAG Axéntico > Fine-tuning

Na nosa análise anterior sobre "A Catedral e o Bazar", argumentabamos que a personalización mediante RAG ofrece vantaxes fundamentais sobre o fine-tuning para aplicacións médicas. ALMA e MIRI son a demostración empírica definitiva desta tese.

Os estudos recentes sobre axentes de IA en medicina clínica confirman que os sistemas axénticos superan consistentemente aos modelos base, incluso cando estes últimos foron fine-tuneados especificamente para o dominio médico.^[20] A razón é simple: un modelo fine-tuneado modifica os seus pesos de forma estática, mentres que un sistema RAG axéntico pode consultar información actualizada dinamicamente.

RAG vs. Fine-Tuning en tarefas médicas. Datos de: MDPI Bioengineering 2025 (BLEU), PMC systematic review (alucinacións), medRxiv 2025 (axentes).

A personalización sen modificar pesos

ALMA e MIRI utilizan os mesmos modelos base que están dispoñibles publicamente (Claude para ALMA, modelo confidencial para MIRI). A diferenza de rendemento non provén de modificacións nos modelos, senón de:

O corpus -- que información se lles proporciona
A arquitectura -- como se organiza a consulta
Os expertos -- como se especializa o coñecemento
A iteración -- cantas veces se refina a resposta

Isto significa que a vantaxe de ALMA/MIRI é reproducible por calquera organización que teña acceso a corpus médico de calidade e a capacidade técnica de implementar unha arquitectura axéntica.

O futuro: actualización continua do corpus

Quizais a implicación mais relevante a longo prazo é que ALMA e MIRI poden mellorar continuamente sen necesidade de readestrar modelos. Cando se publica unha nova guía clínica, se actualiza un protocolo terapéutico ou se descobre unha nova asociación diagnóstica, abonda con actualizar o corpus. O sistema incorpora o novo coñecemento inmediatamente.

Este modelo de "coñecemento como servizo" -- onde a intelixencia reside no corpus e na arquitectura, non nos pesos do modelo -- podería redefinir como se desenvolven e despregan sistemas de IA médica na próxima década.

10. Conclusións

ALMA demostra que a perfección é alcanzable

600 preguntas. Tres anos de exames deseñados para seleccionar aos mellores médicos de España. Cero erros. ALMA demostra que, coa arquitectura correcta, o corpus adecuado e o investimento necesario, é posible construír un sistema de IA médica que non falle. Non "case nunca". Nunca.

MIRI demostra que a excelencia é accesible

596/600 a un custo de $2,38. MIRI demostra que a precisión case perfecta non require orzamentos astronómicos. Un estudante de medicina pode acceder a un sistema que supera a calquera modelo estándar do mercado por un custo inferior ao dun café.

O enfoque axéntico supera a calquera modelo xeneralista

Ningún modelo xeneralista -- nin Gemini, nin GPT-5, nin Claude, nin ningún dos ~290 avaliados -- logrou xamais 200/200 nunha soa convocatoria. ALMA lográo nas tres. MIRI lográo na mais recente. A especialización mediante expertos, combinada cun orquestador de razoamento avanzado, produce resultados que o enfoque "un modelo para todo" non pode igualar.

A soberanía de datos é compatible co máximo rendemento

ALMA procesa toda a súa inferencia en España, sen enviar datos fóra da UE, sen que Anthropic acceda ás consultas. E aínda así obtén o resultado perfecto. A privacidade e o rendemento non son obxectivos en conflito.

O que vén

Estes resultados abren a porta a despregamentos clínicos reais de sistemas de IA médica baseados en RAG Axéntico. Non como substitutos do xuízo clínico, senón como sistemas de apoio ao diagnóstico cunha fiabilidade demostrada e verificable.

En Medical Benchmark seguiremos avaliando tanto modelos estándar como modelos custom, documentando o estado da arte co rigor e a transparencia que caracterizan a nosa plataforma. Todos os resultados están dispoñibles na nosa plataforma de rankings.

ALMA e MIRI foron avaliados baixo as mesmas condicións que os demais modelos do benchmark: mesmo prompt, mesmas preguntas, mesmo timing. Os resultados son verificables e reproducibles. Aínda que as avaliacións se realizaron con posterioridade á celebración de cada exame, os modelos non dispoñen de acceso a internet nin de información algunha sobre os resultados ou as respostas correctas das preguntas, polo que non existe posibilidade de contaminación de datos.

Notas y Referencias

ALMA acerta non só as 200 preguntas oficiais (válidas tras anulacións), senón tamén as 10 preguntas de reserva (201-210) de cada convocatoria. Total: 210/210 x 3 anos = 630/630 incluíndo reservas, 600/600 considerando só as preguntas válidas do exame.
Long, Y., et al. "LLMs Meet Synthetic Data Generation: A Survey". ACL 2024. A xeración de datos sintéticos para LLMs permite crear corpus optimizados para recuperación e razoamento. Ligazón
Amazon Bedrock na rexión eu-south-2 (Aragón, España). Anthropic non accede a datos de inferencia en despregamentos Bedrock. Documentación de protección de datos de AWS Bedrock
Cálculo: 0,995^600 ≈ 0,049, é dicir, un modelo cun 99,5% de precisión por pregunta ten aproximadamente un 4,9% de probabilidade de acertar 600 preguntas consecutivas. ALMA lográo cun 100% de precisión por pregunta.
Singh, A., et al. "Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG". arXiv:2501.09136, 2025. Ligazón
"MA-RAG: Multi-Agent Retrieval-Augmented Generation". arXiv:2505.20096, 2025. Os sistemas multi-axente RAG superan aos RAG tradicionais en precisión e capacidade de razoamento. Ligazón
Zuo, Y., et al. "KG4Diagnosis: A Hierarchical Multi-Agent LLM Framework with Knowledge Graph Enhancement for Medical Diagnosis". arXiv:2412.16833, 2024. Ligazón
Zhang, C., et al. "AgentOrchestra: Orchestrating Specialized Agents for Complex Tasks". arXiv:2506.12508, 2025. Ligazón
Zhuge, M., et al. "GPTSwarm: Language Agents as Optimizable Graphs". ICML 2024. Ligazón
Long, Y., et al. "LLMs Meet Synthetic Data Generation: A Survey". ACL 2024. Ligazón
Kumichev, A., et al. "MedSyn: LLM-based Synthetic Medical Text Generation Framework". arXiv:2408.02056, 2024. Ligazón
Schut, L., Gal, Y., Farquhar, S. "Do Multilingual LLMs Think In English?". ICML 2025. Os modelos multilingües procesan internamente en inglés incluso con entradas noutros idiomas. Ligazón
"Multilingual Reasoning: A Survey of Challenges and Approaches". 2025. O razoamento en inglés produce mellores resultados que noutros idiomas, incluso para tarefas neses idiomas. Ligazón
Zhang, T., Kraska, T., Khattab, O. "Recursive Language Models". arXiv:2512.24601, 2025. Ligazón
Luohe, S., et al. "A Survey on KV-Cache Optimization for Large Language Models". arXiv:2407.18003, COLM 2024. Ligazón
Li, Y., et al. "SnapKV: LLM Knows What You are Looking for Before Generation". NeurIPS 2024. Ligazón
"LMCache: Efficient KV-Cache Management for Large Language Models". arXiv:2510.09665, 2025. Ligazón
Minssen, T., et al. "The EU AI Act and Its Implications for Medical Products". npj Digital Medicine, 2024. Ligazón
"The EU AI Act: Implications for Healthcare AI Systems". 2024. Os sistemas de IA médica clasifícanse como alto risco baixo o AI Act, requirindo avaliacións de conformidade e supervisión humana.
"AI Agents in Clinical Medicine: Promise and Challenges". PMC, 2025. Os axentes de IA superan aos modelos base en tarefas clínicas ao combinar razoamento con acceso a coñecemento especializado.