Revista Farmabiotec Número 21

#21 farmaBIOTEC 69 En esta fase se examina la explicabilidad/comprensi- bilidad del producto. La norma ISO 62366 establece un marco para evaluar si: • Los usuarios previstos comprenden e interactúan con el dispositivo de acuerdo con su diseño. • La interfaz y la experiencia de usuario están optimiza- das para facilitar su adopción en entornos clínicos. 3. Evaluación del rendimiento en subgrupos pobla- cionales: En el marco de la validación de sistemas de IA aplicados a la salud, resulta fundamental analizar el comportamiento del modelo en distintos subgrupos poblacionales, con el fin de garantizar el cumplimiento de los principios de equidad, no discriminación y robustez clínica. Esta necesidad está recogida en el AI Act, parti- cularmente en los artículos 10 y 15, donde se establece que los sistemas de alto riesgo deben ofrecer garantías de desempeño uniforme en condiciones reales de uso y para todas las personas usuarias previstas. La tabla 4 recoge algunos parámetros habitualmente utilizados en esta evaluación. Tabla 4. Parametros utilizados para evaluar las posibles diferencias entre subgrupos poblacionales. Parámetros a validar Validación datos Representatividad de la población objetivo Distribución de frecuencias por edad, sexo, raza, patología, comorbilidades Calidad del etiquetado. Grado en que las etiquetas o anotaciones reflejan fielmente la realidad clínica. Indicadores: • Porcentaje de etiquetas verificadas por expertos. •Acuerdo interanotador (kappa > 0.80 deseable). Área bajo la curva ROC patología Validación de algoritmos • Validación cruzada utilizando un conjunto de datos de entrenamiento y un conjunto de datos prueba de forma repetida, a fin de reducir la variabilidad y obtener una estimación más robusta del desempeño general del modelo (European Medicines Agency). • Métricas para la evaluación del rendimiento (AUC, F1, sensibilidad, etc), explicadas en la Tabla 2. • Técnicas de explicabilidad (LIME, SHAP) según el tipo de modelo. Validación outputs Determinan la complejidad y la capacidad de representación del modelo. Learning rate/Tasa de aprendizaje • Sensibilidad: TP / (TP + FN) • Especificad: TN / (TN + FP) • Precisión: TP / (TP + FP) • Tasa de Falsos Positivos: FP / (FP + TN) ó 1 - especificidad •Tasa de Falsos Negativos: FN / (FN + TP) ó 1 - sensibilidad TN: True Negatives (Verdaderos Negativos); TP: True Positives (Verdaderos Positivos); FP: False Positives (Falsos Positivos); FN: False Negatives (Falsos Negativos) Tabla 2. Parámetros cuantitativos del rendimiento. Subgrupo evaluado Objeto Parametro de evaluación Sexo y género Detectar diferencias en el rendimiento del sistema entre hombres, mujeres Sensibilidad, especificidad, PPV, F1-score por género Edad Comprobar si la edad influye en la precisión del sistema Comparativa de métricas (ver apartado 5.1) entre grupos de edad Condiciones clínicas coexistentes Evaluar si las comorbilidades afectan la exactitud de las predicciones del modelo Evaluación del rendimiento en presencia de múltiples factores clínicos (comorbilidades) Origen étnico o cultural Identificar posibles sesgos relacionados con poblaciones étnicas o culturales distintas Análisis estratificado si se dispone de datos demográficos suficientes Entorno asistencial Validar la robustez del sistema en distintos niveles asistenciales como atención primaria, hospitalaria o remota Análisis del rendimiento según tipo de centro o modalidad asistencial Inteligencia artificial