MedicalBenchmark

IA Médica de Precisión

ALMA

Sistema de IA médica desarrollado por BinPar con contenidos de Editorial Médica Panamericana y Guías Clínicas Españolas. Combina RAG Agéntico con un corpus médico de referencia para alcanzar precisión perfecta en el examen MIR.

Resultados Verificados

ALMA ha sido evaluada en tres convocatorias consecutivas del examen MIR con resultados perfectos verificados por MedicalBenchmark.

600/600

Preguntas correctas

Sobre el total de preguntas válidas en MIR 2024, 2025 y 2026

100%

Precisión total

Sin ningún fallo en tres convocatorias consecutivas

3 años

MIR consecutivos

Rendimiento perfecto sostenido en 2024, 2025 y 2026

~$10.50

Coste por examen

Coste medio de procesamiento por convocatoria completa

~53s

Por pregunta

Tiempo medio de respuesta incluyendo razonamiento completo

~32

Expertos especializados

Agentes de dominio médico en el sistema RAG Agéntico

99.8%

Intervalo de confianza

Fiabilidad estadística del sistema de evaluación

Arquitectura RAG Agéntico

ALMA utiliza un orquestador inteligente que coordina múltiples agentes especializados para responder preguntas médicas con la máxima precisión. A diferencia de un RAG convencional, el sistema itera y valida antes de responder.

Consulta iterativa

El orquestador realiza múltiples rondas de consulta al corpus, refinando la búsqueda hasta encontrar la evidencia más relevante.

Expertos especializados

Aproximadamente 32 agentes de dominio cubren todas las especialidades médicas del MIR, desde cardiología hasta psiquiatría.

Corpus sintético

Base de conocimiento construida a partir de la bibliografía de referencia de Editorial Médica Panamericana, procesada y optimizada para RAG.

Razonamiento en inglés

El sistema razona internamente en inglés para maximizar el rendimiento del modelo base y responde en el idioma de la pregunta.

Subdelegación inteligente

Los expertos pueden delegar subconsultas a otros especialistas cuando una pregunta cruza fronteras entre especialidades, creando redes dinámicas de conocimiento.

Soporte multimodal

Procesamiento de imágenes clínicas (radiografías, ECGs, fotografías dermatológicas) dentro del contexto especializado de cada agente experto.

El orquestador central es Claude Sonnet 4.5 con razonamiento extendido, ejecutado en Amazon Bedrock en la región de Aragón (España).

Flujo de Procesamiento

Pregunta MIRMIR
OrquestadorClaude Sonnet 4.5
Expertos~32 especialistas
Corpus MédicoPanamericana
ValidaciónIterativa
RespuestaVerificada

Pipeline de Razonamiento Multilingüe

Los LLMs actuales tienen representaciones internas más ricas en inglés. ALMA fuerza el razonamiento interno en inglés para maximizar la precisión, respondiendo siempre en el idioma de la pregunta.

ESPregunta en español
ES → ENTraducción interna
ENRazonamiento en inglés
ENSíntesis en inglés
ESRespuesta en español

Cómo Funciona

El proceso de ALMA para responder una pregunta médica sigue un flujo estructurado de cinco pasos.

1

Recepción de la pregunta

El orquestador recibe la pregunta MIR con sus opciones de respuesta y analiza el contexto clínico.

2

Análisis y planificación

Se identifican las especialidades médicas relevantes y se seleccionan los agentes expertos apropiados.

3

Consulta al corpus

Los agentes seleccionados consultan el corpus médico sintético de Panamericana para obtener evidencia clínica.

4

Iteración y validación

El orquestador evalúa la evidencia recopilada y, si es insuficiente, lanza rondas adicionales de consulta.

5

Síntesis y respuesta

Se sintetiza la evidencia en un razonamiento estructurado y se selecciona la respuesta con mayor soporte clínico.

Innovaciones Técnicas

Más allá de la arquitectura general, ALMA incorpora innovaciones clave que contribuyen a su rendimiento excepcional.

Corpus sintético optimizado

Los documentos médicos originales se procesan mediante un pipeline que extrae información relevante, elimina redundancia, reestructura para eficiencia LLM y enriquece con relaciones cruzadas entre especialidades.

Actualización incremental

Sistema basado en Modelos de Lenguaje Recursivos (RLM) que actualiza el corpus sin reconstruirlo, detectando fragmentos obsoletos e integrando nueva información manteniendo la coherencia.

Árbol de memoria con subdelegación

El orquestador mantiene un árbol de contexto donde cada rama corresponde a un experto. Las subconsultas heredan contexto relevante sin duplicar tokens, optimizando coste y velocidad.

RAG Agéntico vs Fine-tuning

A diferencia del fine-tuning que modifica pesos del modelo de forma estática, el RAG Agéntico consulta información actualizada dinámicamente, permitiendo mejora continua sin reentrenamiento.

Soberanía de Datos

ALMA está diseñada para cumplir con los más altos estándares de privacidad y soberanía de datos en el ámbito sanitario europeo.

Procesamiento en la UE

Todo el procesamiento se ejecuta en AWS Bedrock en la región de Aragón (España), garantizando que los datos nunca salen de la UE.

Sin acceso del proveedor

Anthropic no tiene acceso a los datos procesados. AWS Bedrock garantiza aislamiento completo del proveedor del modelo.

Cumplimiento GDPR

Diseñado para cumplir con el Reglamento General de Protección de Datos y las normativas sanitarias europeas.

Preparado para AI Act

Arquitectura alineada con los requisitos del Reglamento Europeo de Inteligencia Artificial para sistemas de alto riesgo.

ALMA está actualmente en producción en CATSalut (Servei Català de la Salut) ayudando a profesionales de la salud en entornos clínicos reales.

Explora los resultados de ALMA

Consulta el rendimiento detallado de ALMA en cada convocatoria MIR, o contacta con nosotros para más información.