MedicalBenchmark
Voltar ao blog

ALMA e MIRI obtêm a nota máxima possível no exame MIR 2026 com 100% de acerto

Dois modelos de IA medica desenvolvidos em Espanha alcancam resultados sem precedentes. ALMA acerta as 600 perguntas dos tres ultimos MIR sem um unico erro — um 100% absoluto que nenhum outro modelo conseguiu. MIRI atinge 99,3% com um custo 13 vezes inferior e respondendo muito mais rapido.

Nao sao modelos generalistas: sao arquiteturas RAG Agenticas com especialistas dedicados, construidas pela BinPar e Editorial Medica Panamericana, que demonstram que o futuro da IA medica nao esta em modelos maiores, mas em modelos mais inteligentes.

Equipa MedBench11 de fevereiro de 202627 min de leitura
MIR 2026ALMAMIRIRAG AgênticoIA MédicaBinParEditorial Médica Panamericana

Durante três anos, o Medical Benchmark avaliou mais de 300 modelos de inteligência artificial no exame MIR, a prova de acesso à formação médica especializada em Espanha. Documentámos como os melhores modelos generalistas -- Gemini, GPT, Claude -- foram aproximando-se do teto dos 100%, errando cada vez menos perguntas, custando cada vez menos dinheiro, respondendo cada vez mais rápido.

Mas falhavam sempre algo.

Hoje apresentamos os resultados de dois modelos que quebram essa barreira. Não são modelos generalistas. Não estão disponíveis online. Não se podem testar com uma API pública. São modelos custom, construídos em Espanha com uma arquitetura radicalmente diferente: o RAG Agêntico com especialistas especializados.

MIRI, desenvolvido pela BinPar para o PROMIR (Da Editorial Médica Panamericana), acertou 596 de 600 perguntas MIR, com apenas 4 erros em três anos e um desempenho perfeito de 200/200 no MIR 2026. E fez isso com um custo de $2,38 no total -- 13 vezes menos do que ALMA e comparável aos modelos standard mais económicos.

ALMA, desenvolvido pela BinPar com conteúdos da Editorial Médica Panamericana e Guias Clínicas Espanholas, acertou as 600 perguntas dos três últimos exames MIR -- além de todas as perguntas de reserva -- sem um único erro.[1] Nenhum modelo de IA na história do MedBench, e tanto quanto sabemos, nenhum modelo em nenhum benchmark médico do mundo, alcançou jamais uma pontuação perfeita acumulada ao longo de três anos.


1. Os Resultados: O Muro dos 100%

Comecemos pelos números. Sem adornos, sem hipérboles. Apenas dados.

Os dados de ALMA

ConvocatóriaCorretasErrosLíquidasPrecisãoCustoTempo/perguntaConfiançaReasoning Tokens
MIR 2024200/2000200,00100,0%$9,9954,7s99,9%71K
MIR 2025200/2000200,00100,0%$11,0250,8s99,8%78K
MIR 2026200/2000200,00100,0%$10,5654,3s99,8%66K
Acumulado600/6000600,00100,0%$31,57

Os dados de MIRI

ConvocatóriaCorretasErrosLíquidasPrecisãoCustoTempo/perguntaConfiança
MIR 2024198/2002197,3399,0%$0,7814,2s99,9%
MIR 2025198/2002197,3399,0%$0,8215,3s99,8%
MIR 2026200/2000200,00100,0%$0,7811,9s100,0%
Acumulado596/6004594,6699,3%$2,38

Agora, coloquemos isto em contexto com os melhores modelos standard do benchmark.

Custom (RAG Agéntico)
Modelos estándar

ALMA y MIRI (modelos custom con RAG Agéntico) frente a los 10 mejores modelos estándar del benchmark MIR 2026

No MIR 2026, tanto ALMA como MIRI obtêm 200/200: pontuação perfeita. Nenhum modelo standard alcançou jamais 200/200 em nenhuma das três convocatórias. O melhor resultado standard em 2026 é 199/200, partilhado por três modelos (Gemini 3 Flash, o3 e GPT-5).

A diferença pode parecer mínima -- um único acerto -- mas essa diferença de um acerto, repetida sistematicamente ano após ano, separa o extraordinário do perfeito.

Os 5 melhores modelos standard no MIR 2026

ModeloCorretasLíquidasCusto
Gemini 3 Flash199/200198,67$0,34
o3199/200198,67$1,94
GPT-5199/200198,67$2,05
GPT-5.1 Chat198/200197,33$0,65
GPT-5 Codex198/200197,33$0,89

2. A Perspetiva de Três Anos

Um exame pode ser sorte. Dois, coincidência. Três anos de resultados consistentes são um padrão.

Custom (RAG Agéntico)
Modelos estándar

Preguntas correctas acumuladas en MIR 2024, 2025 y 2026 (máximo: 600). Solo se muestran los modelos con resultados en los 3 años.

O que este gráfico mostra é a consistência absoluta de ALMA: 200/200 nos três anos, sem exceção. Não só acerta todas as perguntas oficiais, como também todas as perguntas de reserva (201-210) em cada convocatória. Quando se anulam perguntas oficiais e se utilizam reservas, ALMA tem todas corretas.

MIRI mostra uma progressão fascinante: 198/200 em 2024, 198/200 em 2025, e finalmente 200/200 em 2026. O modelo foi melhorando até alcançar a perfeição.

O melhor modelo standard acumulado, Gemini 3 Flash, alcança 590/600 -- um resultado extraordinário em termos absolutos, mas 10 acertos abaixo de ALMA.

0 errores
Custom
Estándar

Total de errores en MIR 2024 + 2025 + 2026 (máximo posible: 600). Menos es mejor.

A visualização de erros acumulados é talvez a mais eloquente. ALMA apresenta uma barra vazia: zero erros em três anos. MIRI acumula apenas 4. O melhor modelo standard, Gemini 3 Flash, acumula 10. Os restantes modelos do top 5 standard ultrapassam a dezena de erros.

ParámetroTendencia MIR 2026Implicación
ALMA vs melhor standard-10 errosALMA comete 0 erros face aos 10 do melhor modelo standard (Gemini 3 Flash) em 3 anos
MIRI vs melhor standard-6 errosMIRI comete apenas 4 erros face aos 10 do Flash, com um custo apenas 2,3 vezes superior
MIRI vs ALMA+4 errosMIRI comete 4 erros a mais do que ALMA, mas o seu custo é 13,3 vezes inferior ($2,38 vs $31,57)
ALMA: custo por erro evitado$2,92/erroEm relação ao Flash, ALMA custa mais $30,55 mas evita 10 erros ($3,06 por erro evitado)

Comparação de erros acumulados em 3 anos: modelos custom vs melhor modelo standard


3. Anatomia das Falhas de MIRI

MIRI falha exatamente 2 perguntas no MIR 2024, 2 no MIR 2025 e 0 no MIR 2026. Analisemos cada falha.

MIR 2024: Perguntas 9 e 13

No MIR 2024, MIRI falha as perguntas 9 e 13. Ambas encontram-se entre as primeiras 25 perguntas do exame, que são comuns a todas as versões (V0-V4).

MIR 2025: Perguntas 181 e 201

No MIR 2025, MIRI falha as perguntas 181 e 201. A pergunta 201 é uma pergunta de reserva -- o que significa que, ao contrário de ALMA que acerta todas as reservas, MIRI falha uma.

MIR 2026: Perfeição

No MIR 2026, MIRI não falha nenhuma pergunta. Nem as 200 oficiais, nem as 10 de reserva. O modelo evoluiu até alcançar o desempenho perfeito.

Padrão de melhoria

A evolução de MIRI ilustra uma das vantagens fundamentais da arquitetura RAG Agêntico: a capacidade de melhoria contínua sem reentrenamento do modelo base. Cada iteração do corpus e da configuração de especialistas produz melhorias incrementais mensuráveis.

MIR 2024

2 errores

MIR 2025

2 errores

MIR 2026

Perfección
ConvocatóriaErros MIRIErros ALMAEvolução MIRI
MIR 202420Linha base
MIR 202520Manutenção
MIR 202600Perfeição

4. ALMA: Anatomia da Perfeição

ALMA é o modelo desenvolvido pela BinPar com os conteúdos da Editorial Médica Panamericana, a editora médica de referência no mundo hispanófono, e uma seleção de guias clínicas. Está concebido como ferramenta de referência clínica para profissionais de saúde: médicos em exercício, especialistas em formação e profissionais que necessitam consultar e validar conhecimento clínico atualizado dentro de uma organização sanitária ou serviço de saúde.

Atualmente é utilizado por dezenas de milhares de profissionais do CATSalut (o serviço catalão de saúde).

O corpus: guias clínicas e recomendações

A vantagem fundamental de ALMA reside tanto na sua arquitetura como no seu corpus. A Editorial Médica Panamericana possui um dos catálogos mais completos de literatura médica em espanhol, incluindo:

  • Conteúdos específicos desenhados para a preparação de concursos (entre eles o MIR)
  • Tratados de referência em todas as especialidades médicas
  • Guias clínicas das principais sociedades científicas
  • Protocolos atualizados segundo a evidência científica mais recente
  • Material formativo desenhado e revisto por especialistas

Este corpus foi processado e otimizado para consumo por modelos de linguagem, criando um corpus sintético especializado que maximiza a densidade de informação relevante por token.[2]

O orquestrador: Claude Sonnet 4.5 em Bedrock Aragão

O modelo orquestrador de ALMA é o Claude Sonnet 4.5 com raciocínio estendido, executado no Amazon Bedrock no datacenter de Aragão (Espanha). Esta escolha não é casual: garante que todos os dados de inferência -- as perguntas médicas, os contextos clínicos, as respostas -- são processados dentro da União Europeia, com as garantias legais e de privacidade mais estritas.[3]

Métricas detalhadas

MétricaMIR 2024MIR 2025MIR 2026
Precisão100,0%100,0%100,0%
Custo por exame$9,99$11,02$10,56
Custo por pergunta$0,048$0,052$0,050
Tempo por pergunta54,2s50,8s54,3s
Confiança média99,9%99,8%99,8%
Tokens de raciocínio71K78K66K

O custo médio de ~$10,50 por exame (aproximadamente 10 EUR ao câmbio) é significativo em comparação com modelos standard como Gemini Flash ($0,34), mas há que contextualizá-lo: ALMA não falha nenhuma pergunta. Em três anos. Incluindo reservas. O custo de um erro num contexto clínico real pode ser infinitamente superior a $10.

O tempo médio de ~53 segundos por pergunta reflete a natureza iterativa da arquitetura: o orquestrador consulta múltiplos especialistas (agentes virtuais especializados), avalia as suas respostas, pode solicitar esclarecimentos e sintetiza uma resposta final. Cada pergunta recebe o equivalente a uma "junta médica" entre ~32 especialistas.

600/600: sem precedentes

Para compreender a magnitude deste resultado, convém recordar que:

  1. Nenhum modelo standard dos ~290 avaliados alcançou jamais 200/200 numa única convocatória.
  2. O melhor acumulado standard é 590/600 (Gemini 3 Flash) -- 10 erros.
  3. ALMA não só acerta as 200 oficiais, como também as 10 reservas de cada ano (210/210 x 3).

5. MIRI: Precisão para o grande público

MIRI é o modelo desenvolvido pela BinPar para o PROMIR, a plataforma de preparação MIR da Editorial Médica Panamericana. Se ALMA está concebido para profissionais que trabalham num ambiente clínico, MIRI está desenhado para estudantes de medicina, residentes, candidatos ao MIR e profissionais independentes que necessitam resolver dúvidas de forma rápida e precisa.

Filosofia de desenho

A arquitetura de MIRI segue os mesmos princípios que ALMA -- orquestrador central + especialistas especializados + corpus de conhecimento -- mas com um perfil de otimização diferente:

  • Prioridade ao custo e velocidade, sem sacrificar precisão crítica
  • Tempos de resposta rápidos (~13 segundos por pergunta vs ~53 de ALMA)
  • Custo otimizado ($0,78-$0,82 por exame completo)

A relação qualidade-preço

ALMA
MIRI
Estándar

Coste acumulado (3 exámenes) vs. precisión acumulada (3 años). Los modelos custom alcanzan mayor precisión a un coste competitivo.

Este gráfico revela a posição estratégica de cada modelo:

  • ALMA (ponto dourado, em cima à direita): máxima precisão (100%), custo moderado ($31,57 acumulado). É a opção "sem compromisso" onde a precisão é o único que importa.
  • MIRI (ponto teal, em cima ao centro): precisão quase perfeita (99,3%), custo mínimo ($2,38 acumulado). É a opção com melhor relação qualidade-preço do mercado.
  • Gemini 3 Flash (ponto cinzento, em baixo à esquerda): excelente precisão (98,3%), custo imbatível ($1,02 acumulado). Mas 10 erros a mais do que ALMA e 6 a mais do que MIRI.

6. Arquitetura: O RAG Agêntico

Como é possível que modelos custom superem consistentemente os melhores modelos generalistas do mundo? A resposta está na arquitetura.

Orquestador

LLM de razonamiento avanzado

Analiza la preguntaSelecciona expertosSintetiza respuesta
Consulta iterativa
Especialidades Clínicas
CardiologíaNeumologíaNeurologíaNefrologíaEndocrinologíaReumatologíaHematologíaOncología
Especialidades Quirúrgicas
Cirugía GeneralTraumatologíaUrologíaORLOftalmologíaDermatologíaGinecologíaObstetricia
Ciencias Básicas y Diagnósticas
FarmacologíaMicrobiologíaAnatomía PatológicaRadiologíaBioestadísticaMedicina PreventivaPediatríaPsiquiatría
Soporte y Contexto
Legislación SanitariaGestión ClínicaÉtica MédicaUrgenciasMedicina InternaGeriatríaPaliativosM. Familiar
Corpus sintético especializado

Optimizado para consumo por LLMs, no para lectura humana

~32

Expertos

Multi

Iteraciones

EN

Razonamiento

Arquitectura RAG Agéntico: el orquestador analiza cada pregunta, selecciona los expertos relevantes y sintetiza sus respuestas en múltiples iteraciones

O RAG Agêntico (Retrieval-Augmented Generation com agentes) representa a evolução mais avançada dos sistemas RAG tradicionais.[5] Enquanto um RAG standard recupera documentos relevantes e os passa ao modelo num único passo, o RAG Agêntico introduz um nível de sofisticação radicalmente superior.

O orquestrador

No centro da arquitetura situa-se um modelo de raciocínio avançado que atua como diretor de orquestra. Quando recebe uma pergunta médica, o orquestrador não se limita a procurar informação: analisa a pergunta, identifica que especialidades são relevantes, e decide que especialistas consultar.

Este processo é iterativo. Se a resposta de um especialista é insuficiente ou contraditória com a de outro, o orquestrador pode:

  1. Reformular a consulta e perguntar novamente
  2. Consultar especialistas adicionais que não considerou inicialmente
  3. Solicitar aprofundamento num aspeto específico
  4. Contrastar respostas entre múltiplos especialistas

Este padrão de consulta iterativa e multi-agente demonstrou superar consistentemente o uso direto de LLMs tanto em medicina como noutros domínios especializados.[6]

Os ~32 especialistas especializados

Cada especialista é um sistema RAG especializado numa disciplina médica concreta (cardiologia, pneumologia, farmacologia, etc.). Tem acesso a um subconjunto do corpus otimizado para a sua especialidade e está configurado para responder a perguntas dentro do seu domínio com máxima precisão.

A chave é a subdelegação inteligente: os especialistas não são simples modelos com um prompt diferente. Cada um tem a sua própria base de conhecimento, o seu próprio contexto, e pode por sua vez delegar subconsultas a outros especialistas quando deteta que uma pergunta cruza fronteiras entre especialidades.

Este desenho alinha-se com investigações recentes sobre sistemas multi-agente para diagnóstico médico,[7] orquestração de agentes especializados[8] e otimização de grafos de agentes.[9]

Suporte multimodal

Tanto ALMA como MIRI processam perguntas com imagens clínicas (radiografias, eletrocardiogramas, fotografias dermatológicas, etc.). O sistema multimodal permite que os especialistas analisem as imagens dentro do seu contexto especializado: um cardiologista virtual analisa um ECG com o mesmo nível de detalhe que dedicaria a um relatório textual.

Corpus sintético otimizado para LLMs

Uma inovação crucial é a natureza do corpus. Não se trata de copiar livros de texto e passá-los ao modelo. O corpus foi sintetizado e reformatado especificamente para maximizar a compreensão por parte de modelos de linguagem.[10]

Os documentos médicos originais -- guias clínicas, protocolos, tratados -- são processados mediante um pipeline que:

  1. Extrai a informação clinicamente relevante
  2. Elimina a redundância e o formato orientado à leitura humana
  3. Reestrutura a informação em formatos que os LLMs processam de forma mais eficiente
  4. Enriquece com relações cruzadas entre especialidades[11]

O resultado é um corpus que um humano encontraria difícil de ler, mas que um LLM processa com máxima eficiência.

Raciocínio em inglês

Embora as perguntas do MIR estejam em espanhol e as respostas sejam geradas em espanhol, todo o raciocínio interno e a comunicação entre o orquestrador e os especialistas realiza-se em inglês.[12]

Esta decisão baseia-se numa realidade empírica bem documentada: os LLMs atuais, independentemente do seu suporte multilingue, têm uma representação interna mais rica e eficiente em inglês.[13] Os tokens em inglês codificam mais informação semântica por token, o raciocínio é mais preciso, e as cadeias de pensamento produzem menos erros.

Na prática, isto significa que ALMA e MIRI:

  1. Recebem a pergunta em espanhol
  2. Traduzem-na internamente para inglês para o raciocínio
  3. Os especialistas raciocinam e comunicam em inglês (dando diretrizes de tradução para a terminologia médica que o requer)
  4. O orquestrador sintetiza a resposta final em inglês
  5. A resposta é traduzida para espanhol para a saída

Este pipeline acrescenta uma camada de complexidade, mas o benefício em precisão compensa largamente o custo adicional de tokens.

🇪🇸

Pergunta ES

Zona de raciocínio em inglês

Tradução

Especialistas raciocinam EN

Orquestrador sintetiza EN

🇪🇸

Resposta ES

Pipeline de processamento multilíngue: a pergunta é traduzida para inglês para o raciocínio interno e a resposta é devolvida em espanhol


7. Inovações Técnicas

Para além da arquitetura geral, ALMA e MIRI incorporam várias inovações técnicas que contribuem para o seu desempenho excecional.

7.1. Corpus sintético para LLMs

A geração de dados sintéticos para treino e uso com LLMs é um campo em rápida evolução.[10] No contexto médico, frameworks como MedSyn demonstraram que os dados sintéticos podem melhorar significativamente o desempenho em tarefas clínicas.[11]

A diferença fundamental entre o corpus de ALMA/MIRI e os dados sintéticos convencionais é o objetivo: não se trata de gerar dados para treinar (fine-tuning) um modelo, mas de criar um corpus otimizado para recuperação e consulta (RAG). Isto permite atualizar o conhecimento sem modificar os pesos do modelo base.

Guías clínicas, protocolos

Extrae

Información clínicamente relevante

Elimina

Redundancia y formato humano

Reestructura

Formatos eficientes para LLMs

Enriquece

Relaciones entre especialidades

Corpus sintético optimizado

Pipeline de procesamiento del corpus: los documentos médicos se transforman en un formato optimizado para consumo por modelos de lenguaje

7.2. Atualização incremental com RLM

Um dos desafios críticos de qualquer sistema de IA médica é manter o conhecimento atualizado. As guias clínicas mudam, publicam-se novos ensaios clínicos, atualizam-se protocolos terapêuticos.

ALMA e MIRI utilizam um sistema de atualização incremental baseado em Modelos de Linguagem Recursivos (RLM).[14] Em vez de reconstruir o corpus completo quando há uma atualização, o sistema:

  1. Deteta que fragmentos do corpus ficaram obsoletos
  2. Gera novas versões sintetizadas da informação atualizada
  3. Integra os novos fragmentos mantendo a coerência com o resto do corpus
  4. Verifica que a atualização não introduz contradições

Este processo é supervisionado em tempo real e permite que o corpus se mantenha atualizado de forma contínua, sem interrupções de serviço.

7.3. Cache de tokens e contexto infinito

Com ~32 especialistas e múltiplas iterações de consulta, a quantidade de tokens processados por pergunta pode ser enorme. Para manter os custos sob controlo e a velocidade em níveis aceitáveis, o sistema implementa técnicas avançadas de cache de tokens.

A otimização do KV-Cache é fundamental para a eficiência dos LLMs modernos.[15] Técnicas como SnapKV permitem comprimir a cache de atenção sem perda significativa de desempenho.[16] Sistemas como LMCache levam esta otimização um passo mais além, permitindo partilhar cache entre múltiplas consultas.[17]

ALMA e MIRI implementam uma técnica que denominamos árvore de memória com subdelegação: o orquestrador mantém uma árvore de contexto onde cada ramo corresponde a um especialista consultado. Quando um especialista necessita consultar outro, cria-se um novo ramo que herda o contexto relevante do pai sem duplicar tokens. Isto permite manter "conversas" entre especialistas de forma eficiente.

7.4. Raciocínio em inglês

Como mencionámos na secção de arquitetura, todo o raciocínio interno realiza-se em inglês. A investigação recente confirma que os LLMs multilingues tendem a "pensar" em inglês internamente, independentemente do idioma de entrada.[12] Outros estudos sobre raciocínio multilingue corroboram que o desempenho em tarefas de raciocínio complexo melhora significativamente quando se força o uso de inglês como língua de processamento interno.[13]

De uma perspetiva de eficiência de tokens, o inglês oferece maior representatividade semântica por token: uma mesma ideia médica expressa em inglês requer tipicamente menos tokens do que em espanhol, o que reduz custos e permite processar mais contexto dentro da janela de atenção do modelo.


8. Soberania de Dados: Bedrock em Aragão

No contexto de um modelo de IA que processa informação médica -- potencialmente incluindo dados clínicos de pacientes em implementações futuras -- a soberania dos dados não é um detalhe técnico: é um requisito legal e ético fundamental.

ALMA e Bedrock Aragão

O modelo orquestrador de ALMA executa-se no Amazon Bedrock, especificamente no datacenter de Aragão (Espanha). Esta configuração garante:

  1. Processamento dentro da UE: todos os dados de inferência são processados em servidores localizados em território espanhol, dentro da jurisdição da União Europeia.

  2. Sem acesso da Anthropic aos dados: ao executar Claude através do Bedrock, a Amazon atua como processador de dados sob contrato com o cliente. A Anthropic, a criadora do Claude, não tem acesso às consultas, aos contextos nem às respostas geradas. Isto é fundamentalmente diferente de usar a API direta da Anthropic.

  3. Conformidade com o RGPD: o processamento cumpre o Regulamento Geral de Proteção de Dados da UE, incluindo os princípios de minimização de dados, limitação de finalidade e segurança do tratamento.

  4. Compatibilidade com o AI Act: a arquitetura está desenhada para cumprir os requisitos do Regulamento Europeu de Inteligência Artificial, que classifica os sistemas de IA médica como "alto risco" e impõe obrigações específicas de transparência, documentação e supervisão humana.[18]

Os especialistas: modelos especializados com garantias

Os modelos especialistas -- mais pequenos e especializados do que o orquestrador -- executam-se com as mesmas garantias de segurança. A separação entre o orquestrador (que vê a pergunta completa) e os especialistas (que recebem consultas fragmentadas e descontextualizadas) proporciona uma camada adicional de proteção: nenhum especialista individual tem acesso ao contexto clínico completo de um caso.

🇪🇺
UE/España — Bedrock Aragón
GDPRAI Act

Pregunta médica

Orquestador

Expertos especializados

Corpus médico

Respuesta

Residencia de datos en España

Anthropic

Sin acceso a datos de inferencia

Arquitectura de soberanía de datos: todo el procesamiento ocurre dentro de la UE, sin acceso del proveedor del modelo a los datos de inferencia

ParámetroTendencia MIR 2026Implicación
Localização do processamentoEspanha (UE)Datacenter da Amazon em Aragão. Todos os dados permanecem em território espanhol.
Acesso do fornecedor do modeloSem acessoA Anthropic não acede a dados de inferência quando se utiliza através do Bedrock.
Conformidade com o RGPDCompletoAmazon como processador de dados, BinPar como responsável pelo tratamento.
AI Act (alto risco)DesenhadoArquitetura preparada para os requisitos de transparência e supervisão do AI Act.

Garantias de soberania e proteção de dados na arquitetura ALMA

Implicações para o setor sanitário

A demonstração de que é possível alcançar o desempenho perfeito sem enviar dados médicos para fora da UE tem implicações profundas para a adoção de IA no setor sanitário europeu. Historicamente, as preocupações sobre soberania de dados foram um dos principais travões à implementação de sistemas de IA médica em hospitais e centros de saúde europeus.[19]

ALMA demonstra que este dilema entre desempenho e privacidade é um falso dilema: é possível ter ambos.


9. Implicações para a IA Médica

Os resultados de ALMA e MIRI reforçam e estendem conclusões que já apontávamos em artigos anteriores, mas com uma contundência sem precedentes.

RAG Agêntico > Fine-tuning

Na nossa análise anterior sobre "A Catedral e o Bazar", argumentávamos que a personalização mediante RAG oferece vantagens fundamentais sobre o fine-tuning para aplicações médicas. ALMA e MIRI são a demonstração empírica definitiva desta tese.

Os estudos recentes sobre agentes de IA em medicina clínica confirmam que os sistemas agênticos superam consistentemente os modelos base, mesmo quando estes últimos foram fine-tuned especificamente para o domínio médico.[20] A razão é simples: um modelo fine-tuned modifica os seus pesos de forma estática, enquanto um sistema RAG agêntico pode consultar informação atualizada dinamicamente.

RAG vs. Fine-Tuning em tarefas médicas. Dados de: MDPI Bioengineering 2025 (BLEU), PMC systematic review (alucinações), medRxiv 2025 (agentes).

A personalização sem modificar pesos

ALMA e MIRI utilizam os mesmos modelos base que estão disponíveis publicamente (Claude para ALMA, modelo confidencial para MIRI). A diferença de desempenho não provém de modificações nos modelos, mas de:

  1. O corpus -- que informação lhes é fornecida
  2. A arquitetura -- como se organiza a consulta
  3. Os especialistas -- como se especializa o conhecimento
  4. A iteração -- quantas vezes se refina a resposta

Isto significa que a vantagem de ALMA/MIRI é reprodutível por qualquer organização que tenha acesso a corpus médico de qualidade e à capacidade técnica de implementar uma arquitetura agêntica.

O futuro: atualização contínua do corpus

Talvez a implicação mais relevante a longo prazo seja que ALMA e MIRI podem melhorar continuamente sem necessidade de retreinar modelos. Quando se publica uma nova guia clínica, se atualiza um protocolo terapêutico ou se descobre uma nova associação diagnóstica, basta atualizar o corpus. O sistema incorpora o novo conhecimento imediatamente.

Este modelo de "conhecimento como serviço" -- onde a inteligência reside no corpus e na arquitetura, não nos pesos do modelo -- poderá redefinir como se desenvolvem e implementam sistemas de IA médica na próxima década.


10. Conclusões

ALMA demonstra que a perfeição é alcançável

600 perguntas. Três anos de exames concebidos para selecionar os melhores médicos de Espanha. Zero erros. ALMA demonstra que, com a arquitetura correta, o corpus adequado e o investimento necessário, é possível construir um sistema de IA médica que não falhe. Não "quase nunca". Nunca.

MIRI demonstra que a excelência é acessível

596/600 com um custo de $2,38. MIRI demonstra que a precisão quase perfeita não requer orçamentos astronómicos. Um estudante de medicina pode aceder a um sistema que supera qualquer modelo standard do mercado por um custo inferior ao de um café.

A abordagem agêntica supera qualquer modelo generalista

Nenhum modelo generalista -- nem Gemini, nem GPT-5, nem Claude, nem nenhum dos ~290 avaliados -- alcançou jamais 200/200 numa única convocatória. ALMA alcança-o nas três. MIRI alcança-o na mais recente. A especialização mediante especialistas, combinada com um orquestrador de raciocínio avançado, produz resultados que a abordagem "um modelo para tudo" não consegue igualar.

A soberania de dados é compatível com o máximo desempenho

ALMA processa toda a sua inferência em Espanha, sem enviar dados para fora da UE, sem que a Anthropic aceda às consultas. E ainda assim obtém o resultado perfeito. A privacidade e o desempenho não são objetivos em conflito.

O que vem a seguir

Estes resultados abrem a porta a implementações clínicas reais de sistemas de IA médica baseados em RAG Agêntico. Não como substitutos do juízo clínico, mas como sistemas de apoio ao diagnóstico com uma fiabilidade demonstrada e verificável.

No Medical Benchmark continuaremos a avaliar tanto modelos standard como modelos custom, documentando o estado da arte com o rigor e a transparência que caracterizam a nossa plataforma. Todos os resultados estão disponíveis na nossa plataforma de rankings.


ALMA e MIRI foram avaliados nas mesmas condições que os restantes modelos do benchmark: mesmo prompt, mesmas perguntas, mesmo timing. Os resultados são verificáveis e reprodutíveis. Embora as avaliações tenham sido realizadas após a celebração de cada exame, os modelos não dispõem de acesso à internet nem de qualquer informação sobre os resultados ou as respostas corretas das perguntas, pelo que não existe possibilidade de contaminação de dados.

Notas y Referencias

  1. ALMA acerta não só as 200 perguntas oficiais (válidas após anulações), como também as 10 perguntas de reserva (201-210) de cada convocatória. Total: 210/210 x 3 anos = 630/630 incluindo reservas, 600/600 considerando apenas as perguntas válidas do exame.
  2. Long, Y., et al. "LLMs Meet Synthetic Data Generation: A Survey". ACL 2024. A geração de dados sintéticos para LLMs permite criar corpus otimizados para recuperação e raciocínio. Ligação
  3. Amazon Bedrock na região eu-south-2 (Aragão, Espanha). A Anthropic não acede a dados de inferência em implementações Bedrock. Documentação de proteção de dados do AWS Bedrock
  4. Cálculo: 0,995^600 ≈ 0,049, ou seja, um modelo com 99,5% de precisão por pergunta tem aproximadamente 4,9% de probabilidade de acertar 600 perguntas consecutivas. ALMA alcança-o com 100% de precisão por pergunta.
  5. Singh, A., et al. "Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG". arXiv:2501.09136, 2025. Ligação
  6. "MA-RAG: Multi-Agent Retrieval-Augmented Generation". arXiv:2505.20096, 2025. Os sistemas multi-agente RAG superam os RAG tradicionais em precisão e capacidade de raciocínio. Ligação
  7. Zuo, Y., et al. "KG4Diagnosis: A Hierarchical Multi-Agent LLM Framework with Knowledge Graph Enhancement for Medical Diagnosis". arXiv:2412.16833, 2024. Ligação
  8. Zhang, C., et al. "AgentOrchestra: Orchestrating Specialized Agents for Complex Tasks". arXiv:2506.12508, 2025. Ligação
  9. Zhuge, M., et al. "GPTSwarm: Language Agents as Optimizable Graphs". ICML 2024. Ligação
  10. Long, Y., et al. "LLMs Meet Synthetic Data Generation: A Survey". ACL 2024. Ligação
  11. Kumichev, A., et al. "MedSyn: LLM-based Synthetic Medical Text Generation Framework". arXiv:2408.02056, 2024. Ligação
  12. Schut, L., Gal, Y., Farquhar, S. "Do Multilingual LLMs Think In English?". ICML 2025. Os modelos multilingues processam internamente em inglês mesmo com entradas noutros idiomas. Ligação
  13. "Multilingual Reasoning: A Survey of Challenges and Approaches". 2025. O raciocínio em inglês produz melhores resultados do que noutros idiomas, mesmo para tarefas nesses idiomas. Ligação
  14. Zhang, T., Kraska, T., Khattab, O. "Recursive Language Models". arXiv:2512.24601, 2025. Ligação
  15. Luohe, S., et al. "A Survey on KV-Cache Optimization for Large Language Models". arXiv:2407.18003, COLM 2024. Ligação
  16. Li, Y., et al. "SnapKV: LLM Knows What You are Looking for Before Generation". NeurIPS 2024. Ligação
  17. "LMCache: Efficient KV-Cache Management for Large Language Models". arXiv:2510.09665, 2025. Ligação
  18. Minssen, T., et al. "The EU AI Act and Its Implications for Medical Products". npj Digital Medicine, 2024. Ligação
  19. "The EU AI Act: Implications for Healthcare AI Systems". 2024. Os sistemas de IA médica são classificados como alto risco ao abrigo do AI Act, exigindo avaliações de conformidade e supervisão humana.
  20. "AI Agents in Clinical Medicine: Promise and Challenges". PMC, 2025. Os agentes de IA superam os modelos base em tarefas clínicas ao combinar raciocínio com acesso a conhecimento especializado.