Durante tres años, Medical Benchmark ha evaluado más de 300 modelos de inteligencia artificial en el examen MIR, la prueba de acceso a la formación médica especializada en España. Hemos documentado cómo los mejores modelos generalistas — Gemini, GPT, Claude — han ido acercándose al techo del 100%, fallando cada vez menos preguntas, costando cada vez menos dinero, respondiendo cada vez más rápido.
Pero siempre fallaban algo.
Hoy presentamos los resultados de dos modelos que rompen esa barrera. No son modelos generalistas. No están disponibles online. No se pueden probar con una API pública. Son modelos custom, construidos en España con una arquitectura radicalmente diferente: el RAG Agéntico con expertos especializados.
MIRI, desarrollado por BinPar para PROMIR (De Editorial Médica Panamericana), ha acertado 596 de 600 preguntas MIR, con solo 4 errores en tres años y un rendimiento perfecto de 200/200 en el MIR 2026. Y lo ha hecho a un coste de $2,38 en total — 13 veces menos que ALMA y comparable a los modelos estándar más económicos.
ALMA, desarrollado por BinPar con contenidos de Editorial Médica Panamericana y Guías Clínicas Españolas, ha acertado las 600 preguntas de los tres últimos exámenes MIR — además de todas las preguntas de reserva — sin un solo error.[1] Ningún modelo de IA en la historia de MedBench, y que nosotros sepamos, ningún modelo en ningún benchmark médico del mundo, ha logrado jamás una puntuación perfecta acumulada a lo largo de tres años.
1. Los Resultados: El Muro del 100%
Empecemos por los números. Sin adornos, sin hipérboles. Solo datos.
Los datos de ALMA
| Convocatoria | Correctas | Errores | Netas | Precisión | Coste | Tiempo/pregunta | Confianza | Reasoning Tokens |
|---|---|---|---|---|---|---|---|---|
| MIR 2024 | 200/200 | 0 | 200,00 | 100,0% | $9,99 | 54,7s | 99,9% | 71K |
| MIR 2025 | 200/200 | 0 | 200,00 | 100,0% | $11,02 | 50,8s | 99,8% | 78K |
| MIR 2026 | 200/200 | 0 | 200,00 | 100,0% | $10,56 | 54,3s | 99,8% | 66K |
| Acumulado | 600/600 | 0 | 600,00 | 100,0% | $31,57 |
Los datos de MIRI
| Convocatoria | Correctas | Errores | Netas | Precisión | Coste | Tiempo/pregunta | Confianza |
|---|---|---|---|---|---|---|---|
| MIR 2024 | 198/200 | 2 | 197,33 | 99,0% | $0,78 | 14,2s | 99,9% |
| MIR 2025 | 198/200 | 2 | 197,33 | 99,0% | $0,82 | 15,3s | 99,8% |
| MIR 2026 | 200/200 | 0 | 200,00 | 100,0% | $0,78 | 11,9s | 100,0% |
| Acumulado | 596/600 | 4 | 594,66 | 99,3% | $2,38 |
Ahora, pongamos esto en contexto con los mejores modelos estándar del benchmark.
ALMA y MIRI (modelos custom con RAG Agéntico) frente a los 10 mejores modelos estándar del benchmark MIR 2026
En el MIR 2026, tanto ALMA como MIRI obtienen 200/200: puntuación perfecta. Ningún modelo estándar ha logrado jamás 200/200 en ninguna de las tres convocatorias. El mejor resultado estándar en 2026 es 199/200, compartido por tres modelos (Gemini 3 Flash, o3 y GPT-5).
La diferencia puede parecer mínima — un solo acierto — pero esa diferencia de un acierto, repetida sistemáticamente año tras año, separa lo extraordinario de lo perfecto.
Los 5 mejores modelos estándar en MIR 2026
| Modelo | Correctas | Netas | Coste |
|---|---|---|---|
| Gemini 3 Flash | 199/200 | 198,67 | $0,34 |
| o3 | 199/200 | 198,67 | $1,94 |
| GPT-5 | 199/200 | 198,67 | $2,05 |
| GPT-5.1 Chat | 198/200 | 197,33 | $0,65 |
| GPT-5 Codex | 198/200 | 197,33 | $0,89 |
2. La Perspectiva de Tres Años
Un examen puede ser suerte. Dos, coincidencia. Tres años de resultados consistentes son un patrón.
Preguntas correctas acumuladas en MIR 2024, 2025 y 2026 (máximo: 600). Solo se muestran los modelos con resultados en los 3 años.
Lo que este gráfico muestra es la consistencia absoluta de ALMA: 200/200 en los tres años, sin excepción. No solo acierta todas las preguntas oficiales, sino también todas las preguntas de reserva (201-210) en cada convocatoria. Cuando se anulan preguntas oficiales y se toman reservas, ALMA las tiene todas correctas.
MIRI muestra una progresión fascinante: 198/200 en 2024, 198/200 en 2025, y finalmente 200/200 en 2026. El modelo ha ido mejorando hasta alcanzar la perfección.
El mejor modelo estándar acumulado, Gemini 3 Flash, alcanza 590/600 — un resultado extraordinario en términos absolutos, pero 10 aciertos por debajo de ALMA.
Total de errores en MIR 2024 + 2025 + 2026 (máximo posible: 600). Menos es mejor.
La visualización de errores acumulados es quizás la más elocuente. ALMA presenta una barra vacía: cero errores en tres años. MIRI acumula solo 4. El mejor modelo estándar, Gemini 3 Flash, acumula 10. Los demás modelos del top 5 estándar superan la docena de errores.
| Parámetro | Tendencia MIR 2026 | Implicación |
|---|---|---|
| ALMA vs mejor estándar | -10 errores | ALMA comete 0 errores frente a los 10 del mejor modelo estándar (Gemini 3 Flash) en 3 años |
| MIRI vs mejor estándar | -6 errores | MIRI comete solo 4 errores frente a los 10 de Flash, a un coste solamente 2,3 veces superior |
| MIRI vs ALMA | +4 errores | MIRI comete 4 errores más que ALMA, pero su coste es 13,3 veces inferior ($2,38 vs $31,57) |
| ALMA: coste por error evitado | $2,92/error | Respecto a Flash, ALMA cuesta $30,55 más pero evita 10 errores ($3,06 por error evitado) |
Comparativa de errores acumulados en 3 años: modelos custom vs mejor modelo estándar
3. Anatomía de los Fallos de MIRI
MIRI falla exactamente 2 preguntas en el MIR 2024, 2 en el MIR 2025 y 0 en el MIR 2026. Analicemos cada fallo.
MIR 2024: Preguntas 9 y 13
En el MIR 2024, MIRI falla las preguntas 9 y 13. Ambas se encuentran entre las primeras 25 preguntas del examen, que son comunes a todas las versiones (V0-V4).
MIR 2025: Preguntas 181 y 201
En el MIR 2025, MIRI falla las preguntas 181 y 201. La pregunta 201 es una pregunta de reserva — lo que significa que, a diferencia de ALMA que acierta todas las reservas, MIRI falla una.
MIR 2026: Perfección
En el MIR 2026, MIRI no falla ninguna pregunta. Ni las 200 oficiales, ni las 10 de reserva. El modelo ha evolucionado hasta alcanzar el rendimiento perfecto.
Patrón de mejora
La evolución de MIRI ilustra una de las ventajas fundamentales de la arquitectura RAG Agéntico: la capacidad de mejora continua sin reentrenamiento del modelo base. Cada iteración del corpus y de la configuración de expertos produce mejoras incrementales medibles.
MIR 2024
2 erroresMIR 2025
2 erroresMIR 2026
Perfección| Convocatoria | Errores MIRI | Errores ALMA | Evolución MIRI |
|---|---|---|---|
| MIR 2024 | 2 | 0 | Línea base |
| MIR 2025 | 2 | 0 | Mantenimiento |
| MIR 2026 | 0 | 0 | Perfección |
4. ALMA: Anatomía de la Perfección
ALMA es el modelo desarrollado por BinPar con los contenidos de Editorial Médica Panamericana, la editorial médica de referencia en el mundo hispanohablante, y una selección de guías clínicas. Está concebido como herramienta de referencia clínica para profesionales de la salud: médicos en ejercicio, especialistas en formación y profesionales que necesitan consultar y validar conocimiento clínico actualizado dentro de una organización sanitaria o servicio de salud.
En la actualidad es empleado por decenas de miles de profesionales de CATSalut (el servicio catalán de salud).
El corpus: guías clínicas y recomendaciones
La ventaja fundamental de ALMA reside tanto en su arquitectura como en su corpus. Editorial Médica Panamericana posee uno de los catálogos más completos de literatura médica en castellano, incluyendo:
- Contenidos específicos diseñados para la preparación de oposiciones (entre ellas el MIR)
- Tratados de referencia en todas las especialidades médicas
- Guías clínicas de las principales sociedades científicas
- Protocolos actualizados según la evidencia científica más reciente
- Material formativo diseñado y revisado por especialistas
Este corpus se ha procesado y optimizado para consumo por modelos de lenguaje, creando un corpus sintético especializado que maximiza la densidad de información relevante por token.[2]
El orquestador: Claude Sonnet 4.5 en Bedrock Aragón
El modelo orquestador de ALMA es Claude Sonnet 4.5 con razonamiento extendido, ejecutado en Amazon Bedrock en el datacenter de Aragón (España). Esta elección no es casual: garantiza que todos los datos de inferencia — las preguntas médicas, los contextos clínicos, las respuestas — se procesan dentro de la Unión Europea, con las garantías legales y de privacidad más estrictas.[3]
Métricas detalladas
| Métrica | MIR 2024 | MIR 2025 | MIR 2026 |
|---|---|---|---|
| Precisión | 100,0% | 100,0% | 100,0% |
| Coste por examen | $9,99 | $11,02 | $10,56 |
| Coste por pregunta | $0,048 | $0,052 | $0,050 |
| Tiempo por pregunta | 54,2s | 50,8s | 54,3s |
| Confianza media | 99,9% | 99,8% | 99,8% |
| Tokens de razonamiento | 71K | 78K | 66K |
El coste medio de ~$10,50 por examen (aproximadamente 10 € al cambio) es significativo en comparación con modelos estándar como Gemini Flash ($0,34), pero hay que contextualizarlo: ALMA no falla ninguna pregunta. En tres años. Incluyendo reservas. El coste de un error en un contexto clínico real puede ser infinitamente superior a $10.
El tiempo medio de ~53 segundos por pregunta refleja la naturaleza iterativa de la arquitectura: el orquestador consulta múltiples expertos (agentes virtuales especializados), evalúa sus respuestas, puede solicitar clarificaciones y sintetiza una respuesta final. Cada pregunta recibe el equivalente a una "junta médica" entre ~32 especialistas.
600/600: sin precedentes
Para comprender la magnitud de este resultado, conviene recordar que:
- Ningún modelo estándar de los ~290 evaluados ha logrado jamás 200/200 en una sola convocatoria.
- El mejor acumulado estándar es 590/600 (Gemini 3 Flash) — 10 errores.
- ALMA no solo acierta las 200 oficiales, sino también las 10 reservas de cada año (210/210 × 3).
5. MIRI: Precisión para el gran público
MIRI es el modelo desarrollado por BinPar para PROMIR, la plataforma de preparación MIR de Editorial Médica Panamericana. Si ALMA está concebido para profesionales trabajando en un entorno clínico, MIRI está diseñado para estudiantes de medicina, residentes, opositores MIR y profesionales independientes que necesitan resolver dudas de forma rápida y precisa.
Filosofía de diseño
La arquitectura de MIRI sigue los mismos principios que ALMA — orquestador central + expertos especializados + corpus de conocimiento — pero con un perfil de optimización diferente:
- Prioridad al coste y velocidad, sin sacrificar precisión crítica
- Tiempos de respuesta rápidos (~13 segundos por pregunta vs ~53 de ALMA)
- Coste optimizado ($0,78-$0,82 por examen completo)
La relación calidad-precio
Coste acumulado (3 exámenes) vs. precisión acumulada (3 años). Los modelos custom alcanzan mayor precisión a un coste competitivo.
Este gráfico revela la posición estratégica de cada modelo:
- ALMA (punto dorado, arriba a la derecha): máxima precisión (100%), coste moderado ($31,57 acumulado). Es la opción "sin compromiso" donde la precisión es lo único que importa.
- MIRI (punto teal, arriba al centro): precisión casi perfecta (99,3%), coste mínimo ($2,38 acumulado). Es la opción de mejor relación calidad-precio del mercado.
- Gemini 3 Flash (punto gris, abajo a la izquierda): excelente precisión (98,3%), coste imbatible ($1,02 acumulado). Pero 10 errores más que ALMA y 6 más que MIRI.
6. Arquitectura: El RAG Agéntico
¿Cómo es posible que modelos custom superen consistentemente a los mejores modelos generalistas del mundo? La respuesta está en la arquitectura.
Orquestador
LLM de razonamiento avanzado
Especialidades Clínicas
Especialidades Quirúrgicas
Ciencias Básicas y Diagnósticas
Soporte y Contexto
Corpus sintético especializado
Optimizado para consumo por LLMs, no para lectura humana
~32
Expertos
Multi
Iteraciones
EN
Razonamiento
Arquitectura RAG Agéntico: el orquestador analiza cada pregunta, selecciona los expertos relevantes y sintetiza sus respuestas en múltiples iteraciones
El RAG Agéntico (Retrieval-Augmented Generation con agentes) representa la evolución más avanzada de los sistemas RAG tradicionales.[5] Mientras que un RAG estándar recupera documentos relevantes y los pasa al modelo en un solo paso, el RAG Agéntico introduce un nivel de sofisticación radicalmente superior.
El orquestador
En el centro de la arquitectura se sitúa un modelo de razonamiento avanzado que actúa como director de orquesta. Cuando recibe una pregunta médica, el orquestador no se limita a buscar información: analiza la pregunta, identifica qué especialidades son relevantes, y decide qué expertos consultar.
Este proceso es iterativo. Si la respuesta de un experto es insuficiente o contradictoria con la de otro, el orquestador puede:
- Reformular la consulta y preguntar de nuevo
- Consultar expertos adicionales que no consideró inicialmente
- Solicitar profundización en un aspecto específico
- Contrastar respuestas entre múltiples expertos
Este patrón de consulta iterativa y multi-agente ha demostrado superar consistentemente al uso directo de LLMs tanto en medicina como en otros dominios especializados.[6]
Los ~32 expertos especializados
Cada experto es un sistema RAG especializado en una disciplina médica concreta (cardiología, neumología, farmacología, etc.). Tiene acceso a un subconjunto del corpus optimizado para su especialidad y está configurado para responder preguntas dentro de su dominio con máxima precisión.
La clave es la subdelegación inteligente: los expertos no son simples modelos con un prompt diferente. Cada uno tiene su propia base de conocimiento, su propio contexto, y puede a su vez delegar subconsultas a otros expertos cuando detecta que una pregunta cruza fronteras entre especialidades.
Este diseño se alinea con investigaciones recientes sobre sistemas multi-agente para diagnóstico médico,[7] orquestación de agentes especializados[8] y optimización de grafos de agentes.[9]
Soporte multimodal
Tanto ALMA como MIRI procesan preguntas con imágenes clínicas (radiografías, electrocardiogramas, fotografías dermatológicas, etc.). El sistema multimodal permite que los expertos analicen las imágenes dentro de su contexto especializado: un cardiólogo virtual analiza un ECG con el mismo nivel de detalle que dedicaría a un informe textual.
Corpus sintético optimizado para LLMs
Una innovación crucial es la naturaleza del corpus. No se trata de copiar libros de texto y pasarlos al modelo. El corpus ha sido sintetizado y reformateado específicamente para maximizar la comprensión por parte de modelos de lenguaje.[10]
Los documentos médicos originales — guías clínicas, protocolos, tratados — se procesan mediante un pipeline que:
- Extrae la información clínicamente relevante
- Elimina la redundancia y el formato orientado a lectura humana
- Reestructura la información en formatos que los LLMs procesan de manera más eficiente
- Enriquece con relaciones cruzadas entre especialidades[11]
El resultado es un corpus que un humano encontraría difícil de leer, pero que un LLM procesa con máxima eficiencia.
Razonamiento en inglés
Aunque las preguntas del MIR están en castellano y las respuestas se generan en castellano, todo el razonamiento interno y la comunicación entre el orquestador y los expertos se realiza en inglés.[12]
Esta decisión se basa en una realidad empírica bien documentada: los LLMs actuales, independientemente de su soporte multilingüe, tienen una representación interna más rica y eficiente en inglés.[13] Los tokens en inglés codifican más información semántica por token, el razonamiento es más preciso, y las cadenas de pensamiento producen menos errores.
En la práctica, esto significa que ALMA y MIRI:
- Reciben la pregunta en castellano
- La traducen internamente al inglés para el razonamiento
- Los expertos razonan y se comunican en inglés (dando directrices de traducción para la terminología médica que lo requiere)
- El orquestador sintetiza la respuesta final en inglés
- La respuesta se traduce al castellano para la salida
Este pipeline añade una capa de complejidad, pero el beneficio en precisión compensa con creces el coste adicional de tokens.
Pregunta en Castellano
Zona de razonamiento en inglés
Traducción
Expertos razonan EN
Orquestador sintetiza EN
Respuesta en Castellano
Pipeline de procesamiento multilingüe: la pregunta se traduce al inglés para el razonamiento interno y la respuesta se devuelve en castellano
7. Innovaciones Técnicas
Más allá de la arquitectura general, ALMA y MIRI incorporan varias innovaciones técnicas que contribuyen a su rendimiento excepcional.
7.1. Corpus sintético para LLMs
La generación de datos sintéticos para entrenamiento y uso con LLMs es un campo en rápida evolución.[10] En el contexto médico, frameworks como MedSyn han demostrado que los datos sintéticos pueden mejorar significativamente el rendimiento en tareas clínicas.[11]
La diferencia fundamental entre el corpus de ALMA/MIRI y los datos sintéticos convencionales es el objetivo: no se trata de generar datos para entrenar (fine-tuning) un modelo, sino de crear un corpus optimizado para recuperación y consulta (RAG). Esto permite actualizar el conocimiento sin modificar los pesos del modelo base.
Guías clínicas, protocolos
Extrae
Información clínicamente relevante
Elimina
Redundancia y formato humano
Reestructura
Formatos eficientes para LLMs
Enriquece
Relaciones entre especialidades
Corpus sintético optimizado
Pipeline de procesamiento del corpus: los documentos médicos se transforman en un formato optimizado para consumo por modelos de lenguaje
7.2. Actualización incremental con RLM
Uno de los desafíos críticos de cualquier sistema de IA médica es mantener el conocimiento actualizado. Las guías clínicas cambian, se publican nuevos ensayos clínicos, se actualizan protocolos terapéuticos.
ALMA y MIRI utilizan un sistema de actualización incremental basado en Modelos de Lenguaje Recursivos (RLM).[14] En lugar de reconstruir el corpus completo cuando hay una actualización, el sistema:
- Detecta qué fragmentos del corpus han quedado obsoletos
- Genera nuevas versiones sintetizadas de la información actualizada
- Integra los nuevos fragmentos manteniendo la coherencia con el resto del corpus
- Verifica que la actualización no introduce contradicciones
Este proceso se supervisa en tiempo real y permite que el corpus se mantenga actualizado de forma continua, sin interrupciones de servicio.
7.3. Cacheado de tokens y contexto infinito
Con ~32 expertos y múltiples iteraciones de consulta, la cantidad de tokens procesados por pregunta puede ser enorme. Para mantener los costes bajo control y la velocidad en niveles aceptables, el sistema implementa técnicas avanzadas de cacheado de tokens.
La optimización del KV-Cache es fundamental para la eficiencia de los LLMs modernos.[15] Técnicas como SnapKV permiten comprimir el cache de atención sin pérdida significativa de rendimiento.[16] Sistemas como LMCache llevan esta optimización un paso más allá, permitiendo compartir cache entre múltiples consultas.[17]
ALMA y MIRI implementan una técnica que denominamos árbol de memoria con subdelegación: el orquestador mantiene un árbol de contexto donde cada rama corresponde a un experto consultado. Cuando un experto necesita consultar a otro, se crea una nueva rama que hereda el contexto relevante del padre sin duplicar tokens. Esto permite mantener "conversaciones" entre expertos de forma eficiente.
7.4. Razonamiento en inglés
Como mencionamos en la sección de arquitectura, todo el razonamiento interno se realiza en inglés. La investigación reciente confirma que los LLMs multilingües tienden a "pensar" en inglés internamente, independientemente del idioma de entrada.[12] Otros estudios sobre razonamiento multilingüe corroboran que el rendimiento en tareas de razonamiento complejo mejora significativamente cuando se fuerza el uso de inglés como lengua de procesamiento interno.[13]
Desde una perspectiva de eficiencia de tokens, el inglés ofrece mayor representatividad semántica por token: una misma idea médica expresada en inglés requiere típicamente menos tokens que en castellano, lo que reduce costes y permite procesar más contexto dentro de la ventana de atención del modelo.
8. Soberanía de Datos: Bedrock en Aragón
En el contexto de un modelo de IA que procesa información médica — potencialmente incluyendo datos clínicos de pacientes en despliegues futuros — la soberanía de los datos no es un detalle técnico: es un requisito legal y ético fundamental.
ALMA y Bedrock Aragón
El modelo orquestador de ALMA se ejecuta en Amazon Bedrock, específicamente en el datacenter de Aragón (España). Esta configuración garantiza:
-
Procesamiento dentro de la UE: todos los datos de inferencia se procesan en servidores ubicados en territorio español, dentro de la jurisdicción de la Unión Europea.
-
Sin acceso de Anthropic a los datos: al ejecutar Claude a través de Bedrock, Amazon actúa como procesador de datos bajo contrato con el cliente. Anthropic, el desarrollador de Claude, no tiene acceso a las consultas, los contextos ni las respuestas generadas. Esto es fundamentalmente diferente a usar la API directa de Anthropic.
-
Cumplimiento GDPR: el procesamiento cumple con el Reglamento General de Protección de Datos de la UE, incluyendo los principios de minimización de datos, limitación de finalidad y seguridad del tratamiento.
-
Compatibilidad con el AI Act: la arquitectura está diseñada para cumplir con los requisitos del Reglamento Europeo de Inteligencia Artificial, que clasifica los sistemas de IA médica como "alto riesgo" e impone obligaciones específicas de transparencia, documentación y supervisión humana.[18]
Los expertos: modelos especializados con garantías
Los modelos expertos — más pequeños y especializados que el orquestador — se ejecutan con las mismas garantías de seguridad. La separación entre el orquestador (que ve la pregunta completa) y los expertos (que reciben consultas fragmentadas y descontextualizadas) proporciona una capa adicional de protección: ningún experto individual tiene acceso al contexto clínico completo de un caso.
UE/España — Bedrock Aragón
Pregunta médica
Orquestador
Expertos especializados
Corpus médico
Respuesta
Anthropic
Sin acceso a datos de inferencia
Arquitectura de soberanía de datos: todo el procesamiento ocurre dentro de la UE, sin acceso del proveedor del modelo a los datos de inferencia
| Parámetro | Tendencia MIR 2026 | Implicación |
|---|---|---|
| Ubicación del procesamiento | España (UE) | Datacenter de Amazon en Aragón. Todos los datos permanecen en territorio español. |
| Acceso del proveedor del modelo | Sin acceso | Anthropic no accede a datos de inferencia cuando se usa a través de Bedrock. |
| Cumplimiento GDPR | Completo | Amazon como procesador de datos, BinPar como responsable del tratamiento. |
| AI Act (alto riesgo) | Diseñado | Arquitectura preparada para los requisitos de transparencia y supervisión del AI Act. |
Garantías de soberanía y protección de datos en la arquitectura ALMA
Implicaciones para el sector sanitario
La demostración de que es posible alcanzar el rendimiento perfecto sin enviar datos médicos fuera de la UE tiene implicaciones profundas para la adopción de IA en el sector sanitario europeo. Históricamente, las preocupaciones sobre soberanía de datos han sido uno de los principales frenos a la implementación de sistemas de IA médica en hospitales y centros de salud europeos.[19]
ALMA demuestra que este dilema entre rendimiento y privacidad es un falso dilema: es posible tener ambos.
9. Implicaciones para la IA Médica
Los resultados de ALMA y MIRI refuerzan y extienden conclusiones que ya apuntábamos en artículos anteriores, pero con una contundencia sin precedentes.
RAG Agéntico > Fine-tuning
En nuestro análisis anterior sobre "La Catedral y el Bazar", argumentábamos que la personalización mediante RAG ofrece ventajas fundamentales sobre el fine-tuning para aplicaciones médicas. ALMA y MIRI son la demostración empírica definitiva de esta tesis.
Los estudios recientes sobre agentes de IA en medicina clínica confirman que los sistemas agénticos superan consistentemente a los modelos base, incluso cuando estos últimos han sido fine-tuneados específicamente para el dominio médico.[20] La razón es simple: un modelo fine-tuneado modifica sus pesos de forma estática, mientras que un sistema RAG agéntico puede consultar información actualizada dinámicamente.
RAG vs. Fine-Tuning en tareas médicas. Datos de: MDPI Bioengineering 2025 (BLEU), PMC systematic review (alucinaciones), medRxiv 2025 (agentes).
La personalización sin modificar pesos
ALMA y MIRI utilizan los mismos modelos base que están disponibles públicamente (Claude para ALMA, modelo confidencial para MIRI). La diferencia de rendimiento no proviene de modificaciones en los modelos, sino de:
- El corpus — qué información se les proporciona
- La arquitectura — cómo se organiza la consulta
- Los expertos — cómo se especializa el conocimiento
- La iteración — cuántas veces se refina la respuesta
Esto significa que la ventaja de ALMA/MIRI es reproducible por cualquier organización que tenga acceso a corpus médico de calidad y la capacidad técnica de implementar una arquitectura agéntica.
El futuro: actualización continua del corpus
Quizás la implicación más relevante a largo plazo es que ALMA y MIRI pueden mejorar continuamente sin necesidad de reentrenar modelos. Cuando se publica una nueva guía clínica, se actualiza un protocolo terapéutico o se descubre una nueva asociación diagnóstica, basta con actualizar el corpus. El sistema incorpora el nuevo conocimiento inmediatamente.
Este modelo de "conocimiento como servicio" — donde la inteligencia reside en el corpus y la arquitectura, no en los pesos del modelo — podría redefinir cómo se desarrollan y despliegan sistemas de IA médica en la próxima década.
10. Conclusiones
ALMA demuestra que la perfección es alcanzable
600 preguntas. Tres años de exámenes diseñados para seleccionar a los mejores médicos de España. Cero errores. ALMA demuestra que, con la arquitectura correcta, el corpus adecuado y la inversión necesaria, es posible construir un sistema de IA médica que no falle. No "casi nunca". Nunca.
MIRI demuestra que la excelencia es accesible
596/600 a un coste de $2,38. MIRI demuestra que la precisión casi perfecta no requiere presupuestos astronómicos. Un estudiante de medicina puede acceder a un sistema que supera a cualquier modelo estándar del mercado por un coste inferior al de un café.
El enfoque agéntico supera a cualquier modelo generalista
Ningún modelo generalista — ni Gemini, ni GPT-5, ni Claude, ni ninguno de los ~290 evaluados — ha logrado jamás 200/200 en una sola convocatoria. ALMA lo logra en las tres. MIRI lo logra en la más reciente. La especialización mediante expertos, combinada con un orquestador de razonamiento avanzado, produce resultados que el enfoque "un modelo para todo" no puede igualar.
La soberanía de datos es compatible con el máximo rendimiento
ALMA procesa toda su inferencia en España, sin enviar datos fuera de la UE, sin que Anthropic acceda a las consultas. Y aun así obtiene el resultado perfecto. La privacidad y el rendimiento no son objetivos en conflicto.
Lo que viene
Estos resultados abren la puerta a despliegues clínicos reales de sistemas de IA médica basados en RAG Agéntico. No como sustitutos del juicio clínico, sino como sistemas de apoyo al diagnóstico con una fiabilidad demostrada y verificable.
En Medical Benchmark seguiremos evaluando tanto modelos estándar como modelos custom, documentando el estado del arte con el rigor y la transparencia que caracterizan a nuestra plataforma. Todos los resultados están disponibles en nuestra plataforma de rankings.
ALMA y MIRI han sido evaluados bajo las mismas condiciones que los demás modelos del benchmark: mismo prompt, mismas preguntas, mismo timing. Los resultados son verificables y reproducibles. Aunque las evaluaciones se han realizado con posterioridad a la celebración de cada examen, los modelos no disponen de acceso a internet ni de información alguna sobre los resultados o las respuestas correctas de las preguntas, por lo que no existe posibilidad de contaminación de datos.
Notas y Referencias
- ALMA acierta no solo las 200 preguntas oficiales (válidas tras anulaciones), sino también las 10 preguntas de reserva (201-210) de cada convocatoria. Total: 210/210 × 3 años = 630/630 incluyendo reservas, 600/600 considerando solo las preguntas válidas del examen.
- Long, Y., et al. "LLMs Meet Synthetic Data Generation: A Survey". ACL 2024. La generación de datos sintéticos para LLMs permite crear corpus optimizados para recuperación y razonamiento. Enlace
- Amazon Bedrock en la región eu-south-2 (Aragón, España). Anthropic no accede a datos de inferencia en despliegues Bedrock. Documentación de protección de datos de AWS Bedrock
- Cálculo: 0,995^600 ≈ 0,049, es decir, un modelo con 99,5% de precisión por pregunta tiene aproximadamente un 4,9% de probabilidad de acertar 600 preguntas consecutivas. ALMA lo logra con un 100% de precisión por pregunta.
- Singh, A., et al. "Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG". arXiv:2501.09136, 2025. Enlace
- "MA-RAG: Multi-Agent Retrieval-Augmented Generation". arXiv:2505.20096, 2025. Los sistemas multi-agente RAG superan a los RAG tradicionales en precisión y capacidad de razonamiento. Enlace
- Zuo, Y., et al. "KG4Diagnosis: A Hierarchical Multi-Agent LLM Framework with Knowledge Graph Enhancement for Medical Diagnosis". arXiv:2412.16833, 2024. Enlace
- Zhang, C., et al. "AgentOrchestra: Orchestrating Specialized Agents for Complex Tasks". arXiv:2506.12508, 2025. Enlace
- Zhuge, M., et al. "GPTSwarm: Language Agents as Optimizable Graphs". ICML 2024. Enlace
- Long, Y., et al. "LLMs Meet Synthetic Data Generation: A Survey". ACL 2024. Enlace
- Kumichev, A., et al. "MedSyn: LLM-based Synthetic Medical Text Generation Framework". arXiv:2408.02056, 2024. Enlace
- Schut, L., Gal, Y., Farquhar, S. "Do Multilingual LLMs Think In English?". ICML 2025. Los modelos multilingües procesan internamente en inglés incluso con entradas en otros idiomas. Enlace
- "Multilingual Reasoning: A Survey of Challenges and Approaches". 2025. El razonamiento en inglés produce mejores resultados que en otros idiomas, incluso para tareas en esos idiomas. Enlace
- Zhang, T., Kraska, T., Khattab, O. "Recursive Language Models". arXiv:2512.24601, 2025. Enlace
- Luohe, S., et al. "A Survey on KV-Cache Optimization for Large Language Models". arXiv:2407.18003, COLM 2024. Enlace
- Li, Y., et al. "SnapKV: LLM Knows What You are Looking for Before Generation". NeurIPS 2024. Enlace
- "LMCache: Efficient KV-Cache Management for Large Language Models". arXiv:2510.09665, 2025. Enlace
- Minssen, T., et al. "The EU AI Act and Its Implications for Medical Products". npj Digital Medicine, 2024. Enlace
- "The EU AI Act: Implications for Healthcare AI Systems". 2024. Los sistemas de IA médica se clasifican como alto riesgo bajo el AI Act, requiriendo evaluaciones de conformidad y supervisión humana.
- "AI Agents in Clinical Medicine: Promise and Challenges". PMC, 2025. Los agentes de IA superan a los modelos base en tareas clínicas al combinar razonamiento con acceso a conocimiento especializado.