Durante tres anos, Medical Benchmark avaliou mais de 300 modelos de intelixencia artificial no exame MIR, a proba de acceso a formación médica especializada en España. Documentamos como os mellores modelos xeneralistas -- Gemini, GPT, Claude -- foron achegándose ao teito do 100%, fallando cada vez menos preguntas, custando cada vez menos diñeiro, respondendo cada vez mais rápido.
Pero sempre fallaban algo.
Hoxe presentamos os resultados de dous modelos que rompen esa barreira. Non son modelos xeneralistas. Non están dispoñibles en liña. Non se poden probar cunha API pública. Son modelos custom, construídos en España cunha arquitectura radicalmente diferente: o RAG Axéntico con expertos especializados.
MIRI, desenvolvido por BinPar para PROMIR (De Editorial Médica Panamericana), acertou 596 de 600 preguntas MIR, con só 4 erros en tres anos e un rendemento perfecto de 200/200 no MIR 2026. E fíxoo a un custo de $2,38 en total -- 13 veces menos que ALMA e comparable aos modelos estándar mais económicos.
ALMA, desenvolvido por BinPar con contidos de Editorial Médica Panamericana e Guías Clínicas Españolas, acertou as 600 preguntas dos tres últimos exames MIR -- ademais de todas as preguntas de reserva -- sen un só erro.[1] Ningún modelo de IA na historia de MedBench, e que nos saibamos, ningún modelo en ningún benchmark médico do mundo, logrou xamais unha puntuación perfecta acumulada ao longo de tres anos.
1. Os Resultados: O Muro do 100%
Comecemos polos números. Sen adornos, sen hipérboles. Só datos.
Os datos de ALMA
| Convocatoria | Correctas | Erros | Netas | Precisión | Custo | Tempo/pregunta | Confianza | Reasoning Tokens |
|---|---|---|---|---|---|---|---|---|
| MIR 2024 | 200/200 | 0 | 200,00 | 100,0% | $9,99 | 54,7s | 99,9% | 71K |
| MIR 2025 | 200/200 | 0 | 200,00 | 100,0% | $11,02 | 50,8s | 99,8% | 78K |
| MIR 2026 | 200/200 | 0 | 200,00 | 100,0% | $10,56 | 54,3s | 99,8% | 66K |
| Acumulado | 600/600 | 0 | 600,00 | 100,0% | $31,57 |
Os datos de MIRI
| Convocatoria | Correctas | Erros | Netas | Precisión | Custo | Tempo/pregunta | Confianza |
|---|---|---|---|---|---|---|---|
| MIR 2024 | 198/200 | 2 | 197,33 | 99,0% | $0,78 | 14,2s | 99,9% |
| MIR 2025 | 198/200 | 2 | 197,33 | 99,0% | $0,82 | 15,3s | 99,8% |
| MIR 2026 | 200/200 | 0 | 200,00 | 100,0% | $0,78 | 11,9s | 100,0% |
| Acumulado | 596/600 | 4 | 594,66 | 99,3% | $2,38 |
Agora, poñamos isto en contexto cos mellores modelos estándar do benchmark.
ALMA y MIRI (modelos custom con RAG Agéntico) frente a los 10 mejores modelos estándar del benchmark MIR 2026
No MIR 2026, tanto ALMA como MIRI obteñen 200/200: puntuación perfecta. Ningún modelo estándar logrou xamais 200/200 en ningunha das tres convocatorias. O mellor resultado estándar en 2026 é 199/200, compartido por tres modelos (Gemini 3 Flash, o3 e GPT-5).
A diferenza pode parecer mínima -- un só acerto -- pero esa diferenza dun acerto, repetida sistematicamente ano tras ano, separa o extraordinario do perfecto.
Os 5 mellores modelos estándar no MIR 2026
| Modelo | Correctas | Netas | Custo |
|---|---|---|---|
| Gemini 3 Flash | 199/200 | 198,67 | $0,34 |
| o3 | 199/200 | 198,67 | $1,94 |
| GPT-5 | 199/200 | 198,67 | $2,05 |
| GPT-5.1 Chat | 198/200 | 197,33 | $0,65 |
| GPT-5 Codex | 198/200 | 197,33 | $0,89 |
2. A Perspectiva de Tres Anos
Un exame pode ser sorte. Dous, coincidencia. Tres anos de resultados consistentes son un patrón.
Preguntas correctas acumuladas en MIR 2024, 2025 y 2026 (máximo: 600). Solo se muestran los modelos con resultados en los 3 años.
O que este gráfico mostra é a consistencia absoluta de ALMA: 200/200 nos tres anos, sen excepción. Non só acerta todas as preguntas oficiais, senón tamén todas as preguntas de reserva (201-210) en cada convocatoria. Cando se anulan preguntas oficiais e se toman reservas, ALMA tenas todas correctas.
MIRI mostra unha progresión fascinante: 198/200 en 2024, 198/200 en 2025, e finalmente 200/200 en 2026. O modelo foi mellorando ata acadar a perfección.
O mellor modelo estándar acumulado, Gemini 3 Flash, acada 590/600 -- un resultado extraordinario en termos absolutos, pero 10 acertos por debaixo de ALMA.
Total de errores en MIR 2024 + 2025 + 2026 (máximo posible: 600). Menos es mejor.
A visualización de erros acumulados é quizais a mais elocuente. ALMA presenta unha barra baleira: cero erros en tres anos. MIRI acumula só 4. O mellor modelo estándar, Gemini 3 Flash, acumula 10. Os demais modelos do top 5 estándar superan a ducia de erros.
| Parámetro | Tendencia MIR 2026 | Implicación |
|---|---|---|
| ALMA vs mellor estándar | -10 erros | ALMA comete 0 erros fronte aos 10 do mellor modelo estándar (Gemini 3 Flash) en 3 anos |
| MIRI vs mellor estándar | -6 erros | MIRI comete só 4 erros fronte aos 10 de Flash, a un custo soamente 2,3 veces superior |
| MIRI vs ALMA | +4 erros | MIRI comete 4 erros mais que ALMA, pero o seu custo é 13,3 veces inferior ($2,38 vs $31,57) |
| ALMA: custo por erro evitado | $2,92/erro | Respecto a Flash, ALMA custa $30,55 mais pero evita 10 erros ($3,06 por erro evitado) |
Comparativa de erros acumulados en 3 anos: modelos custom vs mellor modelo estándar
3. Anatomía dos Fallos de MIRI
MIRI falla exactamente 2 preguntas no MIR 2024, 2 no MIR 2025 e 0 no MIR 2026. Analicemos cada fallo.
MIR 2024: Preguntas 9 e 13
No MIR 2024, MIRI falla as preguntas 9 e 13. Ambas se encontran entre as primeiras 25 preguntas do exame, que son comúns a todas as versións (V0-V4).
MIR 2025: Preguntas 181 e 201
No MIR 2025, MIRI falla as preguntas 181 e 201. A pregunta 201 é unha pregunta de reserva -- o que significa que, a diferenza de ALMA que acerta todas as reservas, MIRI falla unha.
MIR 2026: Perfección
No MIR 2026, MIRI non falla ningunha pregunta. Nin as 200 oficiais, nin as 10 de reserva. O modelo evolucionou ata acadar o rendemento perfecto.
Patrón de mellora
A evolución de MIRI ilustra unha das vantaxes fundamentais da arquitectura RAG Axéntico: a capacidade de mellora continua sen readestramento do modelo base. Cada iteración do corpus e da configuración de expertos produce melloras incrementais medibles.
MIR 2024
2 erroresMIR 2025
2 erroresMIR 2026
Perfección| Convocatoria | Erros MIRI | Erros ALMA | Evolución MIRI |
|---|---|---|---|
| MIR 2024 | 2 | 0 | Liña base |
| MIR 2025 | 2 | 0 | Mantemento |
| MIR 2026 | 0 | 0 | Perfección |
4. ALMA: Anatomía da Perfección
ALMA é o modelo desenvolvido por BinPar cos contidos de Editorial Médica Panamericana, a editorial médica de referencia no mundo hispanofalante, e unha selección de guías clínicas. Está concibido como ferramenta de referencia clínica para profesionais da saúde: médicos en exercicio, especialistas en formación e profesionais que necesitan consultar e validar coñecemento clínico actualizado dentro dunha organización sanitaria ou servizo de saúde.
Na actualidade é empregado por decenas de miles de profesionais de CATSalut (o servizo catalán de saúde).
O corpus: guías clínicas e recomendacións
A vantaxe fundamental de ALMA reside tanto na súa arquitectura como no seu corpus. Editorial Médica Panamericana posúe un dos catálogos mais completos de literatura médica en castelán, incluíndo:
- Contidos específicos deseñados para a preparación de oposicións (entre elas o MIR)
- Tratados de referencia en todas as especialidades médicas
- Guías clínicas das principais sociedades científicas
- Protocolos actualizados segundo a evidencia científica mais recente
- Material formativo deseñado e revisado por especialistas
Este corpus procesouse e optimizouse para consumo por modelos de linguaxe, creando un corpus sintético especializado que maximiza a densidade de información relevante por token.[2]
O orquestador: Claude Sonnet 4.5 en Bedrock Aragón
O modelo orquestador de ALMA é Claude Sonnet 4.5 con razoamento estendido, executado en Amazon Bedrock no datacenter de Aragón (España). Esta elección non é casual: garante que todos os datos de inferencia -- as preguntas médicas, os contextos clínicos, as respostas -- se procesan dentro da Unión Europea, coas garantías legais e de privacidade mais estritas.[3]
Métricas detalladas
| Métrica | MIR 2024 | MIR 2025 | MIR 2026 |
|---|---|---|---|
| Precisión | 100,0% | 100,0% | 100,0% |
| Custo por exame | $9,99 | $11,02 | $10,56 |
| Custo por pregunta | $0,048 | $0,052 | $0,050 |
| Tempo por pregunta | 54,2s | 50,8s | 54,3s |
| Confianza media | 99,9% | 99,8% | 99,8% |
| Tokens de razoamento | 71K | 78K | 66K |
O custo medio de ~$10,50 por exame (aproximadamente 10 EUR ao cambio) é significativo en comparación con modelos estándar como Gemini Flash ($0,34), pero hai que contextualizalo: ALMA non falla ningunha pregunta. En tres anos. Incluíndo reservas. O custo dun erro nun contexto clínico real pode ser infinitamente superior a $10.
O tempo medio de ~53 segundos por pregunta reflicte a natureza iterativa da arquitectura: o orquestador consulta múltiples expertos (axentes virtuais especializados), avalía as súas respostas, pode solicitar clarificacións e sintetiza unha resposta final. Cada pregunta recibe o equivalente a unha "xunta médica" entre ~32 especialistas.
600/600: sen precedentes
Para comprender a magnitude deste resultado, convén lembrar que:
- Ningún modelo estándar dos ~290 avaliados logrou xamais 200/200 nunha soa convocatoria.
- O mellor acumulado estándar é 590/600 (Gemini 3 Flash) -- 10 erros.
- ALMA non só acerta as 200 oficiais, senón tamén as 10 reservas de cada ano (210/210 x 3).
5. MIRI: Precisión para o gran público
MIRI é o modelo desenvolvido por BinPar para PROMIR, a plataforma de preparación MIR de Editorial Médica Panamericana. Se ALMA está concibido para profesionais traballando nun contorno clínico, MIRI está deseñado para estudantes de medicina, residentes, opositores MIR e profesionais independentes que necesitan resolver dúbidas de forma rápida e precisa.
Filosofía de deseño
A arquitectura de MIRI segue os mesmos principios que ALMA -- orquestador central + expertos especializados + corpus de coñecemento -- pero cun perfil de optimización diferente:
- Prioridade ao custo e velocidade, sen sacrificar precisión crítica
- Tempos de resposta rápidos (~13 segundos por pregunta vs ~53 de ALMA)
- Custo optimizado ($0,78-$0,82 por exame completo)
A relación calidade-prezo
Coste acumulado (3 exámenes) vs. precisión acumulada (3 años). Los modelos custom alcanzan mayor precisión a un coste competitivo.
Este gráfico revela a posición estratéxica de cada modelo:
- ALMA (punto dourado, arriba á dereita): máxima precisión (100%), custo moderado ($31,57 acumulado). É a opción "sen compromiso" onde a precisión é o único que importa.
- MIRI (punto teal, arriba ao centro): precisión case perfecta (99,3%), custo mínimo ($2,38 acumulado). É a opción de mellor relación calidade-prezo do mercado.
- Gemini 3 Flash (punto gris, abaixo á esquerda): excelente precisión (98,3%), custo imbatible ($1,02 acumulado). Pero 10 erros mais que ALMA e 6 mais que MIRI.
6. Arquitectura: O RAG Axéntico
Como é posible que modelos custom superen consistentemente aos mellores modelos xeneralistas do mundo? A resposta está na arquitectura.
Orquestador
LLM de razonamiento avanzado
Especialidades Clínicas
Especialidades Quirúrgicas
Ciencias Básicas y Diagnósticas
Soporte y Contexto
Corpus sintético especializado
Optimizado para consumo por LLMs, no para lectura humana
~32
Expertos
Multi
Iteraciones
EN
Razonamiento
Arquitectura RAG Agéntico: el orquestador analiza cada pregunta, selecciona los expertos relevantes y sintetiza sus respuestas en múltiples iteraciones
O RAG Axéntico (Retrieval-Augmented Generation con axentes) representa a evolución mais avanzada dos sistemas RAG tradicionais.[5] Mentres que un RAG estándar recupera documentos relevantes e pásaos ao modelo nun só paso, o RAG Axéntico introduce un nivel de sofisticación radicalmente superior.
O orquestador
No centro da arquitectura sitúase un modelo de razoamento avanzado que actúa como director de orquestra. Cando recibe unha pregunta médica, o orquestador non se limita a buscar información: analiza a pregunta, identifica que especialidades son relevantes, e decide que expertos consultar.
Este proceso é iterativo. Se a resposta dun experto é insuficiente ou contradictoria coa doutro, o orquestador pode:
- Reformular a consulta e preguntar de novo
- Consultar expertos adicionais que non considerou inicialmente
- Solicitar profundización nun aspecto específico
- Contrastar respostas entre múltiples expertos
Este patrón de consulta iterativa e multi-axente demostrou superar consistentemente ao uso directo de LLMs tanto en medicina como noutros dominios especializados.[6]
Os ~32 expertos especializados
Cada experto é un sistema RAG especializado nunha disciplina médica concreta (cardioloxía, neumoloxía, farmacoloxía, etc.). Ten acceso a un subconxunto do corpus optimizado para a súa especialidade e está configurado para responder preguntas dentro do seu dominio con máxima precisión.
A clave é a subdelegación intelixente: os expertos non son simples modelos cun prompt diferente. Cada un ten a súa propia base de coñecemento, o seu propio contexto, e pode á súa vez delegar subconsultas a outros expertos cando detecta que unha pregunta cruza fronteiras entre especialidades.
Este deseño alíñase con investigacións recentes sobre sistemas multi-axente para diagnóstico médico,[7] orquestración de axentes especializados[8] e optimización de grafos de axentes.[9]
Soporte multimodal
Tanto ALMA como MIRI procesan preguntas con imaxes clínicas (radiografías, electrocardiogramas, fotografías dermatolóxicas, etc.). O sistema multimodal permite que os expertos analicen as imaxes dentro do seu contexto especializado: un cardiólogo virtual analiza un ECG co mesmo nivel de detalle que dedicaría a un informe textual.
Corpus sintético optimizado para LLMs
Unha innovación crucial é a natureza do corpus. Non se trata de copiar libros de texto e pasalos ao modelo. O corpus foi sintetizado e reformateado especificamente para maximizar a comprensión por parte de modelos de linguaxe.[10]
Os documentos médicos orixinais -- guías clínicas, protocolos, tratados -- procésanse mediante un pipeline que:
- Extrae a información clinicamente relevante
- Elimina a redundancia e o formato orientado a lectura humana
- Reestrutura a información en formatos que os LLMs procesan de maneira mais eficiente
- Enriquece con relacións cruzadas entre especialidades[11]
O resultado é un corpus que un humano atoparía difícil de ler, pero que un LLM procesa con máxima eficiencia.
Razoamento en inglés
Aínda que as preguntas do MIR están en castelán e as respostas se xeran en castelán, todo o razoamento interno e a comunicación entre o orquestador e os expertos realízase en inglés.[12]
Esta decisión baséase nunha realidade empírica ben documentada: os LLMs actuais, independentemente do seu soporte multilingüe, teñen unha representación interna mais rica e eficiente en inglés.[13] Os tokens en inglés codifican mais información semántica por token, o razoamento é mais preciso, e as cadeas de pensamento producen menos erros.
Na práctica, isto significa que ALMA e MIRI:
- Reciben a pregunta en castelán
- Tradúcena internamente ao inglés para o razoamento
- Os expertos razonan e comunícanse en inglés (dando directrices de tradución para a terminoloxía médica que o require)
- O orquestador sintetiza a resposta final en inglés
- A resposta tradúcese ao castelán para a saída
Este pipeline engade unha capa de complexidade, pero o beneficio en precisión compensa con creces o custo adicional de tokens.
Pregunta en Castelán
Zona de razoamento en inglés
Tradución
Expertos razonan EN
Orquestrador sintetiza EN
Resposta en Castelán
Pipeline de procesamento multilingüe: a pregunta tradúcese ao inglés para o razoamento interno e a resposta devólvese en castelán
7. Innovacións Técnicas
Mais alá da arquitectura xeral, ALMA e MIRI incorporan varias innovacións técnicas que contribúen ao seu rendemento excepcional.
7.1. Corpus sintético para LLMs
A xeración de datos sintéticos para adestramento e uso con LLMs é un campo en rápida evolución.[10] No contexto médico, frameworks como MedSyn demostraron que os datos sintéticos poden mellorar significativamente o rendemento en tarefas clínicas.[11]
A diferenza fundamental entre o corpus de ALMA/MIRI e os datos sintéticos convencionais é o obxectivo: non se trata de xerar datos para adestrar (fine-tuning) un modelo, senón de crear un corpus optimizado para recuperación e consulta (RAG). Isto permite actualizar o coñecemento sen modificar os pesos do modelo base.
Guías clínicas, protocolos
Extrae
Información clínicamente relevante
Elimina
Redundancia y formato humano
Reestructura
Formatos eficientes para LLMs
Enriquece
Relaciones entre especialidades
Corpus sintético optimizado
Pipeline de procesamiento del corpus: los documentos médicos se transforman en un formato optimizado para consumo por modelos de lenguaje
7.2. Actualización incremental con RLM
Un dos desafíos críticos de calquera sistema de IA médica é manter o coñecemento actualizado. As guías clínicas cambian, publícanse novos ensaios clínicos, actualízanse protocolos terapéuticos.
ALMA e MIRI utilizan un sistema de actualización incremental baseado en Modelos de Linguaxe Recursivos (RLM).[14] En lugar de reconstruír o corpus completo cando hai unha actualización, o sistema:
- Detecta que fragmentos do corpus quedaron obsoletos
- Xera novas versións sintetizadas da información actualizada
- Integra os novos fragmentos mantendo a coherencia co resto do corpus
- Verifica que a actualización non introduce contradicións
Este proceso supervísase en tempo real e permite que o corpus se manteña actualizado de forma continua, sen interrupcións de servizo.
7.3. Cacheado de tokens e contexto infinito
Con ~32 expertos e múltiples iteracións de consulta, a cantidade de tokens procesados por pregunta pode ser enorme. Para manter os custos baixo control e a velocidade en niveis aceptables, o sistema implementa técnicas avanzadas de cacheado de tokens.
A optimización do KV-Cache é fundamental para a eficiencia dos LLMs modernos.[15] Técnicas como SnapKV permiten comprimir o cache de atención sen perda significativa de rendemento.[16] Sistemas como LMCache levan esta optimización un paso mais alá, permitindo compartir cache entre múltiples consultas.[17]
ALMA e MIRI implementan unha técnica que denominamos árbore de memoria con subdelegación: o orquestador mantén unha árbore de contexto onde cada rama corresponde a un experto consultado. Cando un experto necesita consultar a outro, créase unha nova rama que herda o contexto relevante do pai sen duplicar tokens. Isto permite manter "conversas" entre expertos de forma eficiente.
7.4. Razoamento en inglés
Como mencionamos na sección de arquitectura, todo o razoamento interno realízase en inglés. A investigación recente confirma que os LLMs multilingües tenden a "pensar" en inglés internamente, independentemente do idioma de entrada.[12] Outros estudos sobre razoamento multilingüe corroboran que o rendemento en tarefas de razoamento complexo mellora significativamente cando se forza o uso de inglés como lingua de procesamento interno.[13]
Desde unha perspectiva de eficiencia de tokens, o inglés ofrece maior representatividade semántica por token: unha mesma idea médica expresada en inglés require tipicamente menos tokens que en castelán, o que reduce custos e permite procesar mais contexto dentro da ventá de atención do modelo.
8. Soberanía de Datos: Bedrock en Aragón
No contexto dun modelo de IA que procesa información médica -- potencialmente incluíndo datos clínicos de pacientes en despregamentos futuros -- a soberanía dos datos non é un detalle técnico: é un requisito legal e ético fundamental.
ALMA e Bedrock Aragón
O modelo orquestador de ALMA execútase en Amazon Bedrock, especificamente no datacenter de Aragón (España). Esta configuración garante:
-
Procesamento dentro da UE: todos os datos de inferencia procésanse en servidores situados en territorio español, dentro da xurisdición da Unión Europea.
-
Sen acceso de Anthropic aos datos: ao executar Claude a través de Bedrock, Amazon actúa como procesador de datos baixo contrato co cliente. Anthropic, o desenvolvedor de Claude, non ten acceso ás consultas, os contextos nin as respostas xeradas. Isto é fundamentalmente diferente a usar a API directa de Anthropic.
-
Cumprimento GDPR: o procesamento cumpre co Regulamento Xeral de Protección de Datos da UE, incluíndo os principios de minimización de datos, limitación de finalidade e seguridade do tratamento.
-
Compatibilidade co AI Act: a arquitectura está deseñada para cumprir cos requisitos do Regulamento Europeo de Intelixencia Artificial, que clasifica os sistemas de IA médica como "alto risco" e impón obrigas específicas de transparencia, documentación e supervisión humana.[18]
Os expertos: modelos especializados con garantías
Os modelos expertos -- mais pequenos e especializados que o orquestador -- execútanse coas mesmas garantías de seguridade. A separación entre o orquestador (que ve a pregunta completa) e os expertos (que reciben consultas fragmentadas e descontextualizadas) proporciona unha capa adicional de protección: ningún experto individual ten acceso ao contexto clínico completo dun caso.
UE/España — Bedrock Aragón
Pregunta médica
Orquestador
Expertos especializados
Corpus médico
Respuesta
Anthropic
Sin acceso a datos de inferencia
Arquitectura de soberanía de datos: todo el procesamiento ocurre dentro de la UE, sin acceso del proveedor del modelo a los datos de inferencia
| Parámetro | Tendencia MIR 2026 | Implicación |
|---|---|---|
| Ubicación do procesamento | España (UE) | Datacenter de Amazon en Aragón. Todos os datos permanecen en territorio español. |
| Acceso do provedor do modelo | Sen acceso | Anthropic non accede a datos de inferencia cando se usa a través de Bedrock. |
| Cumprimento GDPR | Completo | Amazon como procesador de datos, BinPar como responsable do tratamento. |
| AI Act (alto risco) | Deseñado | Arquitectura preparada para os requisitos de transparencia e supervisión do AI Act. |
Garantías de soberanía e protección de datos na arquitectura ALMA
Implicacións para o sector sanitario
A demostración de que é posible acadar o rendemento perfecto sen enviar datos médicos fóra da UE ten implicacións profundas para a adopción de IA no sector sanitario europeo. Historicamente, as preocupacións sobre soberanía de datos foron un dos principais freos á implementación de sistemas de IA médica en hospitais e centros de saúde europeos.[19]
ALMA demostra que este dilema entre rendemento e privacidade é un falso dilema: é posible ter ambos.
9. Implicacións para a IA Médica
Os resultados de ALMA e MIRI reforzan e estenden conclusións que xa apuntabamos en artigos anteriores, pero cunha contundencia sen precedentes.
RAG Axéntico > Fine-tuning
Na nosa análise anterior sobre "A Catedral e o Bazar", argumentabamos que a personalización mediante RAG ofrece vantaxes fundamentais sobre o fine-tuning para aplicacións médicas. ALMA e MIRI son a demostración empírica definitiva desta tese.
Os estudos recentes sobre axentes de IA en medicina clínica confirman que os sistemas axénticos superan consistentemente aos modelos base, incluso cando estes últimos foron fine-tuneados especificamente para o dominio médico.[20] A razón é simple: un modelo fine-tuneado modifica os seus pesos de forma estática, mentres que un sistema RAG axéntico pode consultar información actualizada dinamicamente.
RAG vs. Fine-Tuning en tarefas médicas. Datos de: MDPI Bioengineering 2025 (BLEU), PMC systematic review (alucinacións), medRxiv 2025 (axentes).
A personalización sen modificar pesos
ALMA e MIRI utilizan os mesmos modelos base que están dispoñibles publicamente (Claude para ALMA, modelo confidencial para MIRI). A diferenza de rendemento non provén de modificacións nos modelos, senón de:
- O corpus -- que información se lles proporciona
- A arquitectura -- como se organiza a consulta
- Os expertos -- como se especializa o coñecemento
- A iteración -- cantas veces se refina a resposta
Isto significa que a vantaxe de ALMA/MIRI é reproducible por calquera organización que teña acceso a corpus médico de calidade e a capacidade técnica de implementar unha arquitectura axéntica.
O futuro: actualización continua do corpus
Quizais a implicación mais relevante a longo prazo é que ALMA e MIRI poden mellorar continuamente sen necesidade de readestrar modelos. Cando se publica unha nova guía clínica, se actualiza un protocolo terapéutico ou se descobre unha nova asociación diagnóstica, abonda con actualizar o corpus. O sistema incorpora o novo coñecemento inmediatamente.
Este modelo de "coñecemento como servizo" -- onde a intelixencia reside no corpus e na arquitectura, non nos pesos do modelo -- podería redefinir como se desenvolven e despregan sistemas de IA médica na próxima década.
10. Conclusións
ALMA demostra que a perfección é alcanzable
600 preguntas. Tres anos de exames deseñados para seleccionar aos mellores médicos de España. Cero erros. ALMA demostra que, coa arquitectura correcta, o corpus adecuado e o investimento necesario, é posible construír un sistema de IA médica que non falle. Non "case nunca". Nunca.
MIRI demostra que a excelencia é accesible
596/600 a un custo de $2,38. MIRI demostra que a precisión case perfecta non require orzamentos astronómicos. Un estudante de medicina pode acceder a un sistema que supera a calquera modelo estándar do mercado por un custo inferior ao dun café.
O enfoque axéntico supera a calquera modelo xeneralista
Ningún modelo xeneralista -- nin Gemini, nin GPT-5, nin Claude, nin ningún dos ~290 avaliados -- logrou xamais 200/200 nunha soa convocatoria. ALMA lográo nas tres. MIRI lográo na mais recente. A especialización mediante expertos, combinada cun orquestador de razoamento avanzado, produce resultados que o enfoque "un modelo para todo" non pode igualar.
A soberanía de datos é compatible co máximo rendemento
ALMA procesa toda a súa inferencia en España, sen enviar datos fóra da UE, sen que Anthropic acceda ás consultas. E aínda así obtén o resultado perfecto. A privacidade e o rendemento non son obxectivos en conflito.
O que vén
Estes resultados abren a porta a despregamentos clínicos reais de sistemas de IA médica baseados en RAG Axéntico. Non como substitutos do xuízo clínico, senón como sistemas de apoio ao diagnóstico cunha fiabilidade demostrada e verificable.
En Medical Benchmark seguiremos avaliando tanto modelos estándar como modelos custom, documentando o estado da arte co rigor e a transparencia que caracterizan a nosa plataforma. Todos os resultados están dispoñibles na nosa plataforma de rankings.
ALMA e MIRI foron avaliados baixo as mesmas condicións que os demais modelos do benchmark: mesmo prompt, mesmas preguntas, mesmo timing. Os resultados son verificables e reproducibles. Aínda que as avaliacións se realizaron con posterioridade á celebración de cada exame, os modelos non dispoñen de acceso a internet nin de información algunha sobre os resultados ou as respostas correctas das preguntas, polo que non existe posibilidade de contaminación de datos.
Notas y Referencias
- ALMA acerta non só as 200 preguntas oficiais (válidas tras anulacións), senón tamén as 10 preguntas de reserva (201-210) de cada convocatoria. Total: 210/210 x 3 anos = 630/630 incluíndo reservas, 600/600 considerando só as preguntas válidas do exame.
- Long, Y., et al. "LLMs Meet Synthetic Data Generation: A Survey". ACL 2024. A xeración de datos sintéticos para LLMs permite crear corpus optimizados para recuperación e razoamento. Ligazón
- Amazon Bedrock na rexión eu-south-2 (Aragón, España). Anthropic non accede a datos de inferencia en despregamentos Bedrock. Documentación de protección de datos de AWS Bedrock
- Cálculo: 0,995^600 ≈ 0,049, é dicir, un modelo cun 99,5% de precisión por pregunta ten aproximadamente un 4,9% de probabilidade de acertar 600 preguntas consecutivas. ALMA lográo cun 100% de precisión por pregunta.
- Singh, A., et al. "Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG". arXiv:2501.09136, 2025. Ligazón
- "MA-RAG: Multi-Agent Retrieval-Augmented Generation". arXiv:2505.20096, 2025. Os sistemas multi-axente RAG superan aos RAG tradicionais en precisión e capacidade de razoamento. Ligazón
- Zuo, Y., et al. "KG4Diagnosis: A Hierarchical Multi-Agent LLM Framework with Knowledge Graph Enhancement for Medical Diagnosis". arXiv:2412.16833, 2024. Ligazón
- Zhang, C., et al. "AgentOrchestra: Orchestrating Specialized Agents for Complex Tasks". arXiv:2506.12508, 2025. Ligazón
- Zhuge, M., et al. "GPTSwarm: Language Agents as Optimizable Graphs". ICML 2024. Ligazón
- Long, Y., et al. "LLMs Meet Synthetic Data Generation: A Survey". ACL 2024. Ligazón
- Kumichev, A., et al. "MedSyn: LLM-based Synthetic Medical Text Generation Framework". arXiv:2408.02056, 2024. Ligazón
- Schut, L., Gal, Y., Farquhar, S. "Do Multilingual LLMs Think In English?". ICML 2025. Os modelos multilingües procesan internamente en inglés incluso con entradas noutros idiomas. Ligazón
- "Multilingual Reasoning: A Survey of Challenges and Approaches". 2025. O razoamento en inglés produce mellores resultados que noutros idiomas, incluso para tarefas neses idiomas. Ligazón
- Zhang, T., Kraska, T., Khattab, O. "Recursive Language Models". arXiv:2512.24601, 2025. Ligazón
- Luohe, S., et al. "A Survey on KV-Cache Optimization for Large Language Models". arXiv:2407.18003, COLM 2024. Ligazón
- Li, Y., et al. "SnapKV: LLM Knows What You are Looking for Before Generation". NeurIPS 2024. Ligazón
- "LMCache: Efficient KV-Cache Management for Large Language Models". arXiv:2510.09665, 2025. Ligazón
- Minssen, T., et al. "The EU AI Act and Its Implications for Medical Products". npj Digital Medicine, 2024. Ligazón
- "The EU AI Act: Implications for Healthcare AI Systems". 2024. Os sistemas de IA médica clasifícanse como alto risco baixo o AI Act, requirindo avaliacións de conformidade e supervisión humana.
- "AI Agents in Clinical Medicine: Promise and Challenges". PMC, 2025. Os axentes de IA superan aos modelos base en tarefas clínicas ao combinar razoamento con acceso a coñecemento especializado.