MedicalBenchmark
Volver al blog

ALMA y MIRI obtienen la nota máxima posible en el examen MIR 2026 con un 100% de acierto

Dos modelos de IA médica desarrollados en España logran resultados sin precedentes. ALMA acierta las 600 preguntas de los tres últimos MIR sin un solo error — un 100% absoluto que ningún otro modelo ha conseguido. MIRI alcanza un 99,3% con un coste 13 veces inferior y respondiendo mucho más rápido.

No son modelos generalistas: son arquitecturas RAG Agénticas con expertos especializados, construidas por BinPar y Editorial Médica Panamericana, que demuestran que el futuro de la IA médica no está en modelos más grandes, sino en modelos más inteligentes.

Equipo MedBench11 de febrero de 202627 min de lectura
MIR 2026ALMAMIRIRAG AgénticoIA MédicaBinParEditorial Médica Panamericana

Durante tres años, Medical Benchmark ha evaluado más de 300 modelos de inteligencia artificial en el examen MIR, la prueba de acceso a la formación médica especializada en España. Hemos documentado cómo los mejores modelos generalistas — Gemini, GPT, Claude — han ido acercándose al techo del 100%, fallando cada vez menos preguntas, costando cada vez menos dinero, respondiendo cada vez más rápido.

Pero siempre fallaban algo.

Hoy presentamos los resultados de dos modelos que rompen esa barrera. No son modelos generalistas. No están disponibles online. No se pueden probar con una API pública. Son modelos custom, construidos en España con una arquitectura radicalmente diferente: el RAG Agéntico con expertos especializados.

MIRI, desarrollado por BinPar para PROMIR (De Editorial Médica Panamericana), ha acertado 596 de 600 preguntas MIR, con solo 4 errores en tres años y un rendimiento perfecto de 200/200 en el MIR 2026. Y lo ha hecho a un coste de $2,38 en total — 13 veces menos que ALMA y comparable a los modelos estándar más económicos.

ALMA, desarrollado por BinPar con contenidos de Editorial Médica Panamericana y Guías Clínicas Españolas, ha acertado las 600 preguntas de los tres últimos exámenes MIR — además de todas las preguntas de reserva — sin un solo error.[1] Ningún modelo de IA en la historia de MedBench, y que nosotros sepamos, ningún modelo en ningún benchmark médico del mundo, ha logrado jamás una puntuación perfecta acumulada a lo largo de tres años.


1. Los Resultados: El Muro del 100%

Empecemos por los números. Sin adornos, sin hipérboles. Solo datos.

Los datos de ALMA

ConvocatoriaCorrectasErroresNetasPrecisiónCosteTiempo/preguntaConfianzaReasoning Tokens
MIR 2024200/2000200,00100,0%$9,9954,7s99,9%71K
MIR 2025200/2000200,00100,0%$11,0250,8s99,8%78K
MIR 2026200/2000200,00100,0%$10,5654,3s99,8%66K
Acumulado600/6000600,00100,0%$31,57

Los datos de MIRI

ConvocatoriaCorrectasErroresNetasPrecisiónCosteTiempo/preguntaConfianza
MIR 2024198/2002197,3399,0%$0,7814,2s99,9%
MIR 2025198/2002197,3399,0%$0,8215,3s99,8%
MIR 2026200/2000200,00100,0%$0,7811,9s100,0%
Acumulado596/6004594,6699,3%$2,38

Ahora, pongamos esto en contexto con los mejores modelos estándar del benchmark.

Custom (RAG Agéntico)
Modelos estándar

ALMA y MIRI (modelos custom con RAG Agéntico) frente a los 10 mejores modelos estándar del benchmark MIR 2026

En el MIR 2026, tanto ALMA como MIRI obtienen 200/200: puntuación perfecta. Ningún modelo estándar ha logrado jamás 200/200 en ninguna de las tres convocatorias. El mejor resultado estándar en 2026 es 199/200, compartido por tres modelos (Gemini 3 Flash, o3 y GPT-5).

La diferencia puede parecer mínima — un solo acierto — pero esa diferencia de un acierto, repetida sistemáticamente año tras año, separa lo extraordinario de lo perfecto.

Los 5 mejores modelos estándar en MIR 2026

ModeloCorrectasNetasCoste
Gemini 3 Flash199/200198,67$0,34
o3199/200198,67$1,94
GPT-5199/200198,67$2,05
GPT-5.1 Chat198/200197,33$0,65
GPT-5 Codex198/200197,33$0,89

2. La Perspectiva de Tres Años

Un examen puede ser suerte. Dos, coincidencia. Tres años de resultados consistentes son un patrón.

Custom (RAG Agéntico)
Modelos estándar

Preguntas correctas acumuladas en MIR 2024, 2025 y 2026 (máximo: 600). Solo se muestran los modelos con resultados en los 3 años.

Lo que este gráfico muestra es la consistencia absoluta de ALMA: 200/200 en los tres años, sin excepción. No solo acierta todas las preguntas oficiales, sino también todas las preguntas de reserva (201-210) en cada convocatoria. Cuando se anulan preguntas oficiales y se toman reservas, ALMA las tiene todas correctas.

MIRI muestra una progresión fascinante: 198/200 en 2024, 198/200 en 2025, y finalmente 200/200 en 2026. El modelo ha ido mejorando hasta alcanzar la perfección.

El mejor modelo estándar acumulado, Gemini 3 Flash, alcanza 590/600 — un resultado extraordinario en términos absolutos, pero 10 aciertos por debajo de ALMA.

0 errores
Custom
Estándar

Total de errores en MIR 2024 + 2025 + 2026 (máximo posible: 600). Menos es mejor.

La visualización de errores acumulados es quizás la más elocuente. ALMA presenta una barra vacía: cero errores en tres años. MIRI acumula solo 4. El mejor modelo estándar, Gemini 3 Flash, acumula 10. Los demás modelos del top 5 estándar superan la docena de errores.

ParámetroTendencia MIR 2026Implicación
ALMA vs mejor estándar-10 erroresALMA comete 0 errores frente a los 10 del mejor modelo estándar (Gemini 3 Flash) en 3 años
MIRI vs mejor estándar-6 erroresMIRI comete solo 4 errores frente a los 10 de Flash, a un coste solamente 2,3 veces superior
MIRI vs ALMA+4 erroresMIRI comete 4 errores más que ALMA, pero su coste es 13,3 veces inferior ($2,38 vs $31,57)
ALMA: coste por error evitado$2,92/errorRespecto a Flash, ALMA cuesta $30,55 más pero evita 10 errores ($3,06 por error evitado)

Comparativa de errores acumulados en 3 años: modelos custom vs mejor modelo estándar


3. Anatomía de los Fallos de MIRI

MIRI falla exactamente 2 preguntas en el MIR 2024, 2 en el MIR 2025 y 0 en el MIR 2026. Analicemos cada fallo.

MIR 2024: Preguntas 9 y 13

En el MIR 2024, MIRI falla las preguntas 9 y 13. Ambas se encuentran entre las primeras 25 preguntas del examen, que son comunes a todas las versiones (V0-V4).

MIR 2025: Preguntas 181 y 201

En el MIR 2025, MIRI falla las preguntas 181 y 201. La pregunta 201 es una pregunta de reserva — lo que significa que, a diferencia de ALMA que acierta todas las reservas, MIRI falla una.

MIR 2026: Perfección

En el MIR 2026, MIRI no falla ninguna pregunta. Ni las 200 oficiales, ni las 10 de reserva. El modelo ha evolucionado hasta alcanzar el rendimiento perfecto.

Patrón de mejora

La evolución de MIRI ilustra una de las ventajas fundamentales de la arquitectura RAG Agéntico: la capacidad de mejora continua sin reentrenamiento del modelo base. Cada iteración del corpus y de la configuración de expertos produce mejoras incrementales medibles.

MIR 2024

2 errores

MIR 2025

2 errores

MIR 2026

Perfección
ConvocatoriaErrores MIRIErrores ALMAEvolución MIRI
MIR 202420Línea base
MIR 202520Mantenimiento
MIR 202600Perfección

4. ALMA: Anatomía de la Perfección

ALMA es el modelo desarrollado por BinPar con los contenidos de Editorial Médica Panamericana, la editorial médica de referencia en el mundo hispanohablante, y una selección de guías clínicas. Está concebido como herramienta de referencia clínica para profesionales de la salud: médicos en ejercicio, especialistas en formación y profesionales que necesitan consultar y validar conocimiento clínico actualizado dentro de una organización sanitaria o servicio de salud.

En la actualidad es empleado por decenas de miles de profesionales de CATSalut (el servicio catalán de salud).

El corpus: guías clínicas y recomendaciones

La ventaja fundamental de ALMA reside tanto en su arquitectura como en su corpus. Editorial Médica Panamericana posee uno de los catálogos más completos de literatura médica en castellano, incluyendo:

  • Contenidos específicos diseñados para la preparación de oposiciones (entre ellas el MIR)
  • Tratados de referencia en todas las especialidades médicas
  • Guías clínicas de las principales sociedades científicas
  • Protocolos actualizados según la evidencia científica más reciente
  • Material formativo diseñado y revisado por especialistas

Este corpus se ha procesado y optimizado para consumo por modelos de lenguaje, creando un corpus sintético especializado que maximiza la densidad de información relevante por token.[2]

El orquestador: Claude Sonnet 4.5 en Bedrock Aragón

El modelo orquestador de ALMA es Claude Sonnet 4.5 con razonamiento extendido, ejecutado en Amazon Bedrock en el datacenter de Aragón (España). Esta elección no es casual: garantiza que todos los datos de inferencia — las preguntas médicas, los contextos clínicos, las respuestas — se procesan dentro de la Unión Europea, con las garantías legales y de privacidad más estrictas.[3]

Métricas detalladas

MétricaMIR 2024MIR 2025MIR 2026
Precisión100,0%100,0%100,0%
Coste por examen$9,99$11,02$10,56
Coste por pregunta$0,048$0,052$0,050
Tiempo por pregunta54,2s50,8s54,3s
Confianza media99,9%99,8%99,8%
Tokens de razonamiento71K78K66K

El coste medio de ~$10,50 por examen (aproximadamente 10 € al cambio) es significativo en comparación con modelos estándar como Gemini Flash ($0,34), pero hay que contextualizarlo: ALMA no falla ninguna pregunta. En tres años. Incluyendo reservas. El coste de un error en un contexto clínico real puede ser infinitamente superior a $10.

El tiempo medio de ~53 segundos por pregunta refleja la naturaleza iterativa de la arquitectura: el orquestador consulta múltiples expertos (agentes virtuales especializados), evalúa sus respuestas, puede solicitar clarificaciones y sintetiza una respuesta final. Cada pregunta recibe el equivalente a una "junta médica" entre ~32 especialistas.

600/600: sin precedentes

Para comprender la magnitud de este resultado, conviene recordar que:

  1. Ningún modelo estándar de los ~290 evaluados ha logrado jamás 200/200 en una sola convocatoria.
  2. El mejor acumulado estándar es 590/600 (Gemini 3 Flash) — 10 errores.
  3. ALMA no solo acierta las 200 oficiales, sino también las 10 reservas de cada año (210/210 × 3).

5. MIRI: Precisión para el gran público

MIRI es el modelo desarrollado por BinPar para PROMIR, la plataforma de preparación MIR de Editorial Médica Panamericana. Si ALMA está concebido para profesionales trabajando en un entorno clínico, MIRI está diseñado para estudiantes de medicina, residentes, opositores MIR y profesionales independientes que necesitan resolver dudas de forma rápida y precisa.

Filosofía de diseño

La arquitectura de MIRI sigue los mismos principios que ALMA — orquestador central + expertos especializados + corpus de conocimiento — pero con un perfil de optimización diferente:

  • Prioridad al coste y velocidad, sin sacrificar precisión crítica
  • Tiempos de respuesta rápidos (~13 segundos por pregunta vs ~53 de ALMA)
  • Coste optimizado ($0,78-$0,82 por examen completo)

La relación calidad-precio

ALMA
MIRI
Estándar

Coste acumulado (3 exámenes) vs. precisión acumulada (3 años). Los modelos custom alcanzan mayor precisión a un coste competitivo.

Este gráfico revela la posición estratégica de cada modelo:

  • ALMA (punto dorado, arriba a la derecha): máxima precisión (100%), coste moderado ($31,57 acumulado). Es la opción "sin compromiso" donde la precisión es lo único que importa.
  • MIRI (punto teal, arriba al centro): precisión casi perfecta (99,3%), coste mínimo ($2,38 acumulado). Es la opción de mejor relación calidad-precio del mercado.
  • Gemini 3 Flash (punto gris, abajo a la izquierda): excelente precisión (98,3%), coste imbatible ($1,02 acumulado). Pero 10 errores más que ALMA y 6 más que MIRI.

6. Arquitectura: El RAG Agéntico

¿Cómo es posible que modelos custom superen consistentemente a los mejores modelos generalistas del mundo? La respuesta está en la arquitectura.

Orquestador

LLM de razonamiento avanzado

Analiza la preguntaSelecciona expertosSintetiza respuesta
Consulta iterativa
Especialidades Clínicas
CardiologíaNeumologíaNeurologíaNefrologíaEndocrinologíaReumatologíaHematologíaOncología
Especialidades Quirúrgicas
Cirugía GeneralTraumatologíaUrologíaORLOftalmologíaDermatologíaGinecologíaObstetricia
Ciencias Básicas y Diagnósticas
FarmacologíaMicrobiologíaAnatomía PatológicaRadiologíaBioestadísticaMedicina PreventivaPediatríaPsiquiatría
Soporte y Contexto
Legislación SanitariaGestión ClínicaÉtica MédicaUrgenciasMedicina InternaGeriatríaPaliativosM. Familiar
Corpus sintético especializado

Optimizado para consumo por LLMs, no para lectura humana

~32

Expertos

Multi

Iteraciones

EN

Razonamiento

Arquitectura RAG Agéntico: el orquestador analiza cada pregunta, selecciona los expertos relevantes y sintetiza sus respuestas en múltiples iteraciones

El RAG Agéntico (Retrieval-Augmented Generation con agentes) representa la evolución más avanzada de los sistemas RAG tradicionales.[5] Mientras que un RAG estándar recupera documentos relevantes y los pasa al modelo en un solo paso, el RAG Agéntico introduce un nivel de sofisticación radicalmente superior.

El orquestador

En el centro de la arquitectura se sitúa un modelo de razonamiento avanzado que actúa como director de orquesta. Cuando recibe una pregunta médica, el orquestador no se limita a buscar información: analiza la pregunta, identifica qué especialidades son relevantes, y decide qué expertos consultar.

Este proceso es iterativo. Si la respuesta de un experto es insuficiente o contradictoria con la de otro, el orquestador puede:

  1. Reformular la consulta y preguntar de nuevo
  2. Consultar expertos adicionales que no consideró inicialmente
  3. Solicitar profundización en un aspecto específico
  4. Contrastar respuestas entre múltiples expertos

Este patrón de consulta iterativa y multi-agente ha demostrado superar consistentemente al uso directo de LLMs tanto en medicina como en otros dominios especializados.[6]

Los ~32 expertos especializados

Cada experto es un sistema RAG especializado en una disciplina médica concreta (cardiología, neumología, farmacología, etc.). Tiene acceso a un subconjunto del corpus optimizado para su especialidad y está configurado para responder preguntas dentro de su dominio con máxima precisión.

La clave es la subdelegación inteligente: los expertos no son simples modelos con un prompt diferente. Cada uno tiene su propia base de conocimiento, su propio contexto, y puede a su vez delegar subconsultas a otros expertos cuando detecta que una pregunta cruza fronteras entre especialidades.

Este diseño se alinea con investigaciones recientes sobre sistemas multi-agente para diagnóstico médico,[7] orquestación de agentes especializados[8] y optimización de grafos de agentes.[9]

Soporte multimodal

Tanto ALMA como MIRI procesan preguntas con imágenes clínicas (radiografías, electrocardiogramas, fotografías dermatológicas, etc.). El sistema multimodal permite que los expertos analicen las imágenes dentro de su contexto especializado: un cardiólogo virtual analiza un ECG con el mismo nivel de detalle que dedicaría a un informe textual.

Corpus sintético optimizado para LLMs

Una innovación crucial es la naturaleza del corpus. No se trata de copiar libros de texto y pasarlos al modelo. El corpus ha sido sintetizado y reformateado específicamente para maximizar la comprensión por parte de modelos de lenguaje.[10]

Los documentos médicos originales — guías clínicas, protocolos, tratados — se procesan mediante un pipeline que:

  1. Extrae la información clínicamente relevante
  2. Elimina la redundancia y el formato orientado a lectura humana
  3. Reestructura la información en formatos que los LLMs procesan de manera más eficiente
  4. Enriquece con relaciones cruzadas entre especialidades[11]

El resultado es un corpus que un humano encontraría difícil de leer, pero que un LLM procesa con máxima eficiencia.

Razonamiento en inglés

Aunque las preguntas del MIR están en castellano y las respuestas se generan en castellano, todo el razonamiento interno y la comunicación entre el orquestador y los expertos se realiza en inglés.[12]

Esta decisión se basa en una realidad empírica bien documentada: los LLMs actuales, independientemente de su soporte multilingüe, tienen una representación interna más rica y eficiente en inglés.[13] Los tokens en inglés codifican más información semántica por token, el razonamiento es más preciso, y las cadenas de pensamiento producen menos errores.

En la práctica, esto significa que ALMA y MIRI:

  1. Reciben la pregunta en castellano
  2. La traducen internamente al inglés para el razonamiento
  3. Los expertos razonan y se comunican en inglés (dando directrices de traducción para la terminología médica que lo requiere)
  4. El orquestador sintetiza la respuesta final en inglés
  5. La respuesta se traduce al castellano para la salida

Este pipeline añade una capa de complejidad, pero el beneficio en precisión compensa con creces el coste adicional de tokens.

Pregunta en Castellano

Zona de razonamiento en inglés

Traducción

Expertos razonan EN

Orquestador sintetiza EN

Respuesta en Castellano

Pipeline de procesamiento multilingüe: la pregunta se traduce al inglés para el razonamiento interno y la respuesta se devuelve en castellano


7. Innovaciones Técnicas

Más allá de la arquitectura general, ALMA y MIRI incorporan varias innovaciones técnicas que contribuyen a su rendimiento excepcional.

7.1. Corpus sintético para LLMs

La generación de datos sintéticos para entrenamiento y uso con LLMs es un campo en rápida evolución.[10] En el contexto médico, frameworks como MedSyn han demostrado que los datos sintéticos pueden mejorar significativamente el rendimiento en tareas clínicas.[11]

La diferencia fundamental entre el corpus de ALMA/MIRI y los datos sintéticos convencionales es el objetivo: no se trata de generar datos para entrenar (fine-tuning) un modelo, sino de crear un corpus optimizado para recuperación y consulta (RAG). Esto permite actualizar el conocimiento sin modificar los pesos del modelo base.

Guías clínicas, protocolos

Extrae

Información clínicamente relevante

Elimina

Redundancia y formato humano

Reestructura

Formatos eficientes para LLMs

Enriquece

Relaciones entre especialidades

Corpus sintético optimizado

Pipeline de procesamiento del corpus: los documentos médicos se transforman en un formato optimizado para consumo por modelos de lenguaje

7.2. Actualización incremental con RLM

Uno de los desafíos críticos de cualquier sistema de IA médica es mantener el conocimiento actualizado. Las guías clínicas cambian, se publican nuevos ensayos clínicos, se actualizan protocolos terapéuticos.

ALMA y MIRI utilizan un sistema de actualización incremental basado en Modelos de Lenguaje Recursivos (RLM).[14] En lugar de reconstruir el corpus completo cuando hay una actualización, el sistema:

  1. Detecta qué fragmentos del corpus han quedado obsoletos
  2. Genera nuevas versiones sintetizadas de la información actualizada
  3. Integra los nuevos fragmentos manteniendo la coherencia con el resto del corpus
  4. Verifica que la actualización no introduce contradicciones

Este proceso se supervisa en tiempo real y permite que el corpus se mantenga actualizado de forma continua, sin interrupciones de servicio.

7.3. Cacheado de tokens y contexto infinito

Con ~32 expertos y múltiples iteraciones de consulta, la cantidad de tokens procesados por pregunta puede ser enorme. Para mantener los costes bajo control y la velocidad en niveles aceptables, el sistema implementa técnicas avanzadas de cacheado de tokens.

La optimización del KV-Cache es fundamental para la eficiencia de los LLMs modernos.[15] Técnicas como SnapKV permiten comprimir el cache de atención sin pérdida significativa de rendimiento.[16] Sistemas como LMCache llevan esta optimización un paso más allá, permitiendo compartir cache entre múltiples consultas.[17]

ALMA y MIRI implementan una técnica que denominamos árbol de memoria con subdelegación: el orquestador mantiene un árbol de contexto donde cada rama corresponde a un experto consultado. Cuando un experto necesita consultar a otro, se crea una nueva rama que hereda el contexto relevante del padre sin duplicar tokens. Esto permite mantener "conversaciones" entre expertos de forma eficiente.

7.4. Razonamiento en inglés

Como mencionamos en la sección de arquitectura, todo el razonamiento interno se realiza en inglés. La investigación reciente confirma que los LLMs multilingües tienden a "pensar" en inglés internamente, independientemente del idioma de entrada.[12] Otros estudios sobre razonamiento multilingüe corroboran que el rendimiento en tareas de razonamiento complejo mejora significativamente cuando se fuerza el uso de inglés como lengua de procesamiento interno.[13]

Desde una perspectiva de eficiencia de tokens, el inglés ofrece mayor representatividad semántica por token: una misma idea médica expresada en inglés requiere típicamente menos tokens que en castellano, lo que reduce costes y permite procesar más contexto dentro de la ventana de atención del modelo.


8. Soberanía de Datos: Bedrock en Aragón

En el contexto de un modelo de IA que procesa información médica — potencialmente incluyendo datos clínicos de pacientes en despliegues futuros — la soberanía de los datos no es un detalle técnico: es un requisito legal y ético fundamental.

ALMA y Bedrock Aragón

El modelo orquestador de ALMA se ejecuta en Amazon Bedrock, específicamente en el datacenter de Aragón (España). Esta configuración garantiza:

  1. Procesamiento dentro de la UE: todos los datos de inferencia se procesan en servidores ubicados en territorio español, dentro de la jurisdicción de la Unión Europea.

  2. Sin acceso de Anthropic a los datos: al ejecutar Claude a través de Bedrock, Amazon actúa como procesador de datos bajo contrato con el cliente. Anthropic, el desarrollador de Claude, no tiene acceso a las consultas, los contextos ni las respuestas generadas. Esto es fundamentalmente diferente a usar la API directa de Anthropic.

  3. Cumplimiento GDPR: el procesamiento cumple con el Reglamento General de Protección de Datos de la UE, incluyendo los principios de minimización de datos, limitación de finalidad y seguridad del tratamiento.

  4. Compatibilidad con el AI Act: la arquitectura está diseñada para cumplir con los requisitos del Reglamento Europeo de Inteligencia Artificial, que clasifica los sistemas de IA médica como "alto riesgo" e impone obligaciones específicas de transparencia, documentación y supervisión humana.[18]

Los expertos: modelos especializados con garantías

Los modelos expertos — más pequeños y especializados que el orquestador — se ejecutan con las mismas garantías de seguridad. La separación entre el orquestador (que ve la pregunta completa) y los expertos (que reciben consultas fragmentadas y descontextualizadas) proporciona una capa adicional de protección: ningún experto individual tiene acceso al contexto clínico completo de un caso.

🇪🇺
UE/España — Bedrock Aragón
GDPRAI Act

Pregunta médica

Orquestador

Expertos especializados

Corpus médico

Respuesta

Residencia de datos en España

Anthropic

Sin acceso a datos de inferencia

Arquitectura de soberanía de datos: todo el procesamiento ocurre dentro de la UE, sin acceso del proveedor del modelo a los datos de inferencia

ParámetroTendencia MIR 2026Implicación
Ubicación del procesamientoEspaña (UE)Datacenter de Amazon en Aragón. Todos los datos permanecen en territorio español.
Acceso del proveedor del modeloSin accesoAnthropic no accede a datos de inferencia cuando se usa a través de Bedrock.
Cumplimiento GDPRCompletoAmazon como procesador de datos, BinPar como responsable del tratamiento.
AI Act (alto riesgo)DiseñadoArquitectura preparada para los requisitos de transparencia y supervisión del AI Act.

Garantías de soberanía y protección de datos en la arquitectura ALMA

Implicaciones para el sector sanitario

La demostración de que es posible alcanzar el rendimiento perfecto sin enviar datos médicos fuera de la UE tiene implicaciones profundas para la adopción de IA en el sector sanitario europeo. Históricamente, las preocupaciones sobre soberanía de datos han sido uno de los principales frenos a la implementación de sistemas de IA médica en hospitales y centros de salud europeos.[19]

ALMA demuestra que este dilema entre rendimiento y privacidad es un falso dilema: es posible tener ambos.


9. Implicaciones para la IA Médica

Los resultados de ALMA y MIRI refuerzan y extienden conclusiones que ya apuntábamos en artículos anteriores, pero con una contundencia sin precedentes.

RAG Agéntico > Fine-tuning

En nuestro análisis anterior sobre "La Catedral y el Bazar", argumentábamos que la personalización mediante RAG ofrece ventajas fundamentales sobre el fine-tuning para aplicaciones médicas. ALMA y MIRI son la demostración empírica definitiva de esta tesis.

Los estudios recientes sobre agentes de IA en medicina clínica confirman que los sistemas agénticos superan consistentemente a los modelos base, incluso cuando estos últimos han sido fine-tuneados específicamente para el dominio médico.[20] La razón es simple: un modelo fine-tuneado modifica sus pesos de forma estática, mientras que un sistema RAG agéntico puede consultar información actualizada dinámicamente.

RAG vs. Fine-Tuning en tareas médicas. Datos de: MDPI Bioengineering 2025 (BLEU), PMC systematic review (alucinaciones), medRxiv 2025 (agentes).

La personalización sin modificar pesos

ALMA y MIRI utilizan los mismos modelos base que están disponibles públicamente (Claude para ALMA, modelo confidencial para MIRI). La diferencia de rendimiento no proviene de modificaciones en los modelos, sino de:

  1. El corpus — qué información se les proporciona
  2. La arquitectura — cómo se organiza la consulta
  3. Los expertos — cómo se especializa el conocimiento
  4. La iteración — cuántas veces se refina la respuesta

Esto significa que la ventaja de ALMA/MIRI es reproducible por cualquier organización que tenga acceso a corpus médico de calidad y la capacidad técnica de implementar una arquitectura agéntica.

El futuro: actualización continua del corpus

Quizás la implicación más relevante a largo plazo es que ALMA y MIRI pueden mejorar continuamente sin necesidad de reentrenar modelos. Cuando se publica una nueva guía clínica, se actualiza un protocolo terapéutico o se descubre una nueva asociación diagnóstica, basta con actualizar el corpus. El sistema incorpora el nuevo conocimiento inmediatamente.

Este modelo de "conocimiento como servicio" — donde la inteligencia reside en el corpus y la arquitectura, no en los pesos del modelo — podría redefinir cómo se desarrollan y despliegan sistemas de IA médica en la próxima década.


10. Conclusiones

ALMA demuestra que la perfección es alcanzable

600 preguntas. Tres años de exámenes diseñados para seleccionar a los mejores médicos de España. Cero errores. ALMA demuestra que, con la arquitectura correcta, el corpus adecuado y la inversión necesaria, es posible construir un sistema de IA médica que no falle. No "casi nunca". Nunca.

MIRI demuestra que la excelencia es accesible

596/600 a un coste de $2,38. MIRI demuestra que la precisión casi perfecta no requiere presupuestos astronómicos. Un estudiante de medicina puede acceder a un sistema que supera a cualquier modelo estándar del mercado por un coste inferior al de un café.

El enfoque agéntico supera a cualquier modelo generalista

Ningún modelo generalista — ni Gemini, ni GPT-5, ni Claude, ni ninguno de los ~290 evaluados — ha logrado jamás 200/200 en una sola convocatoria. ALMA lo logra en las tres. MIRI lo logra en la más reciente. La especialización mediante expertos, combinada con un orquestador de razonamiento avanzado, produce resultados que el enfoque "un modelo para todo" no puede igualar.

La soberanía de datos es compatible con el máximo rendimiento

ALMA procesa toda su inferencia en España, sin enviar datos fuera de la UE, sin que Anthropic acceda a las consultas. Y aun así obtiene el resultado perfecto. La privacidad y el rendimiento no son objetivos en conflicto.

Lo que viene

Estos resultados abren la puerta a despliegues clínicos reales de sistemas de IA médica basados en RAG Agéntico. No como sustitutos del juicio clínico, sino como sistemas de apoyo al diagnóstico con una fiabilidad demostrada y verificable.

En Medical Benchmark seguiremos evaluando tanto modelos estándar como modelos custom, documentando el estado del arte con el rigor y la transparencia que caracterizan a nuestra plataforma. Todos los resultados están disponibles en nuestra plataforma de rankings.


ALMA y MIRI han sido evaluados bajo las mismas condiciones que los demás modelos del benchmark: mismo prompt, mismas preguntas, mismo timing. Los resultados son verificables y reproducibles. Aunque las evaluaciones se han realizado con posterioridad a la celebración de cada examen, los modelos no disponen de acceso a internet ni de información alguna sobre los resultados o las respuestas correctas de las preguntas, por lo que no existe posibilidad de contaminación de datos.

Notas y Referencias

  1. ALMA acierta no solo las 200 preguntas oficiales (válidas tras anulaciones), sino también las 10 preguntas de reserva (201-210) de cada convocatoria. Total: 210/210 × 3 años = 630/630 incluyendo reservas, 600/600 considerando solo las preguntas válidas del examen.
  2. Long, Y., et al. "LLMs Meet Synthetic Data Generation: A Survey". ACL 2024. La generación de datos sintéticos para LLMs permite crear corpus optimizados para recuperación y razonamiento. Enlace
  3. Amazon Bedrock en la región eu-south-2 (Aragón, España). Anthropic no accede a datos de inferencia en despliegues Bedrock. Documentación de protección de datos de AWS Bedrock
  4. Cálculo: 0,995^600 ≈ 0,049, es decir, un modelo con 99,5% de precisión por pregunta tiene aproximadamente un 4,9% de probabilidad de acertar 600 preguntas consecutivas. ALMA lo logra con un 100% de precisión por pregunta.
  5. Singh, A., et al. "Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG". arXiv:2501.09136, 2025. Enlace
  6. "MA-RAG: Multi-Agent Retrieval-Augmented Generation". arXiv:2505.20096, 2025. Los sistemas multi-agente RAG superan a los RAG tradicionales en precisión y capacidad de razonamiento. Enlace
  7. Zuo, Y., et al. "KG4Diagnosis: A Hierarchical Multi-Agent LLM Framework with Knowledge Graph Enhancement for Medical Diagnosis". arXiv:2412.16833, 2024. Enlace
  8. Zhang, C., et al. "AgentOrchestra: Orchestrating Specialized Agents for Complex Tasks". arXiv:2506.12508, 2025. Enlace
  9. Zhuge, M., et al. "GPTSwarm: Language Agents as Optimizable Graphs". ICML 2024. Enlace
  10. Long, Y., et al. "LLMs Meet Synthetic Data Generation: A Survey". ACL 2024. Enlace
  11. Kumichev, A., et al. "MedSyn: LLM-based Synthetic Medical Text Generation Framework". arXiv:2408.02056, 2024. Enlace
  12. Schut, L., Gal, Y., Farquhar, S. "Do Multilingual LLMs Think In English?". ICML 2025. Los modelos multilingües procesan internamente en inglés incluso con entradas en otros idiomas. Enlace
  13. "Multilingual Reasoning: A Survey of Challenges and Approaches". 2025. El razonamiento en inglés produce mejores resultados que en otros idiomas, incluso para tareas en esos idiomas. Enlace
  14. Zhang, T., Kraska, T., Khattab, O. "Recursive Language Models". arXiv:2512.24601, 2025. Enlace
  15. Luohe, S., et al. "A Survey on KV-Cache Optimization for Large Language Models". arXiv:2407.18003, COLM 2024. Enlace
  16. Li, Y., et al. "SnapKV: LLM Knows What You are Looking for Before Generation". NeurIPS 2024. Enlace
  17. "LMCache: Efficient KV-Cache Management for Large Language Models". arXiv:2510.09665, 2025. Enlace
  18. Minssen, T., et al. "The EU AI Act and Its Implications for Medical Products". npj Digital Medicine, 2024. Enlace
  19. "The EU AI Act: Implications for Healthcare AI Systems". 2024. Los sistemas de IA médica se clasifican como alto riesgo bajo el AI Act, requiriendo evaluaciones de conformidad y supervisión humana.
  20. "AI Agents in Clinical Medicine: Promise and Challenges". PMC, 2025. Los agentes de IA superan a los modelos base en tareas clínicas al combinar razonamiento con acceso a conocimiento especializado.