Revista Farmabiotec - Número 18

#18 farmaBIOTEC 69 es esencial que sean precisos, completos y trazables. Esto significa que los datos deben reflejar las condicio- nes reales del contexto de uso, contener la suficiente variedad para representar todos los escenarios posibles, y tener un historial claro que permita rastrear su origen y transformaciones. Los datos deben ser procesados para garantizar su calidad, lo que incluye la eliminación de valores erróneos (limpieza) y la eliminación de duplicados entre otros, la normalización de escalas (transformación). Además, el anexo D11 de las GAMP5 incluye dentro del procesado de datos las acciones de: Perfilar (ej. formatear), Limpiar valores incorrectos, transformar (ej. homogeneizar unida- des), Anonimizar (para GDPR [79]/privacidad de la UE) y aumentar para diversificar los datos. Dentro del procesado de datos, el etiquetado es otro paso crítico, ya que define los grupos o resultados espe - rados que el modelo debe aprender a predecir, en especial en modelos con aprendizaje supervisado. También debe indicarse si el origen de los datos es cen- tralizado o si se utilizó un enfoque de federated learning , y detallar qué actividades de desarrollo del modelo se reali- zaron con cada conjunto de datos, así como la separación de los conjuntos de entrenamiento y evaluación. En resumen, para garantizar que los datos de desa- rrollo sean adecuados para el contexto de uso (COU), es esencial que sean relevantes y representativos del entorno en el que se aplicará el modelo. Esto implica que los datos deben incluir elementos clave, contar con un número suficiente de muestras y reflejar con precisión el proceso de fabricación o el sistema que el modelo busca optimizar. Además, la fiabilidad de los datos debe ase- gurarse mediante su precisión, completitud y trazabilidad, permitiendo que cualquier transformación o uso en el desarrollo del modelo pueda ser verificado. También es importante documentar qué actividades específicas del desarrollo del modelo se realizaron con cada conjunto de datos, como entrenamiento, ajuste y validación, ase- gurando que su uso sea coherente con los objetivos del modelo y su contexto regulado. 4.3 Descripción del entrenamiento El entrenamiento del modelo de IA y el ajuste de hiper parámetros es un proceso clave para su desarrollo y eva- luación, en el que se ajustan sus parámetros para apren- der patrones a partir de los datos. Existen diferentes metodologías de aprendizaje que pueden aplicarse según el tipo de problema. En el aprendizaje supervisado, el modelo se entrena con datos etiquetados, lo que significa que conoce de ante - mano los resultados esperados y ajusta sus predicciones en consecuencia. En contraste, el aprendizaje no supervi- sado se emplea cuando no se cuenta con etiquetas y el modelo debe descubrir estructuras ocultas en los datos, como segmentar lotes de producción con características similares sin una clasificación predefinida. Aunque hay muchos otros tipos de entrenamiento. Para evaluar el entrenamiento, se utilizan diversas métricas de desempeño que se detallan más adelante, las cuales permiten medir la precisión del modelo en su con- texto de uso. Entre ellas, la curva ROC (Receiver Operating Characteristic) y el área bajo la curva (AUC) ayudan a eva- luar el equilibrio entre verdaderos positivos y falsos posi- tivos. Otras métricas, como la sensibilidad (capacidad del modelo para detectar correctamente los casos positivos) y la especificidad (habilidad para descartar correctamente los casos negativos), son esenciales en aplicaciones críti- cas, como la clasificación. Dependiendo del propósito del modelo, diferentes combinaciones de métricas pueden ser más relevantes para garantizar su desempeño óptimo en escenarios reales. Uno de los desafíos principales en el entrenamiento del modelo es evitar el infra/sobreajuste (under/overfitting), que ocurre cuando el modelo no generaliza bien (infra- juste) o memoriza los datos de entrenamiento en lugar de generalizar patrones aplicables a nuevos datos. Para mitigar este problema, se aplican técnicas como la regu- larización, que introduce penalizaciones en el proceso de optimización para evitar que el modelo se ajuste excesi- vamente a los datos de entrenamiento. En la descripción del entrenamiento deberemos reflejar también si se está empleando un modelo pre-entrenado justificando su adecuación, si el modelo trabaja solo o en conjunto ( “ensemble” ), si se han realizado técnica de cali- bración o ajuste ( “fine tuning” ), y las herramientas usadas para garantizar la calidad del entrenamiento (PNTs, con- trol de versiones…). La evaluación del modelo de IA nos permite garantizar que su desempeño sea adecuado dentro del contexto de uso (COU). 4.4 Descripción de la Evaluación La evaluación del modelo de ML/IA deberá tener en consideración todos aquellos elementos que forman parte de él, como los algoritmos o los datos, pero también su desempeño en el contexto de uso, los usuarios que lo van a interactuar y las herramientas de aseguramiento de la calidad. Evaluación de los datos: Además, es importante documentar el proceso de recolección, procesamiento y anotación de estos datos, es especial si se ha llevado a cabo un aumentado de la muestra con datos sintéticos, así como la metodología utilizada para mantener la independencia de los datasets de entrenamiento y evaluación. En caso de solapamiento entre grupos de datos deberá justificarse su idoneidad. Recordemos que los datos son el combustible del modelo, si no se realiza un proceso riguroso de Normativa y legislación