Rivera Palma, Alejandra Sofia2025-09-302025-09-302020https://repositorio.uandes.cl/handle/uandes/1031Relevancia del tema: En la era actual, la generación de datos en salud ha aumentado de forma exponencial junto con la transformación digital de los registros. En este contexto, los estudios epidemiológicos observacionales poblacionales basados en grandes volúmenes de datos se han consolidado como una alternativa viable para realizar investigación a un costo accesible. Planteamiento del problema: El control de sesgos al planificar y analizar grandes volúmenes de datos se ha convertido en un desafío para los investigadores. El matching (emparejamiento) es una estrategia que contribuye al control del sesgo de confusión al crear grupos comparables, con eficacia demostrada en numerosos estudios observacionales. Sin embargo, las herramientas actuales para realizar matching exigen bases de datos perfectamente estructuradas y con un lenguaje de codificación unificado, condición que rara vez se cumple en las bases de datos en salud. Esto dificulta el control de sesgos en estudios a gran escala. Estado del arte: Este proyecto propone desarrollar un algoritmo inteligente capaz de realizar matching en grandes volúmenes de datos parametrizados, codificados y no codificados, basado en inteligencia artificial (IA) y machine learning (ML), con el fin de contribuir al control del sesgo de confusión. Si bien herramientas como R y Stata® ofrecen métodos y paquetes para matching, no permiten emparejar directamente en bases con datos codificados y no codificados a la vez, y suelen requerir tamaños y estructuras de datos limitados. Supuesto: Un algoritmo inteligente basado en ML es capaz de leer datos parametrizados, codificados y no codificados para realizar matching automático en estudios epidemiológicos de gran escala, logrando grupos comparables en las variables emparejadas. Objetivo general: Desarrollar un algoritmo de matching inteligente (Epimatch) mediante ML para emparejar unidades de observación en bases de datos parametrizadas, codificadas y no codificadas, en estudios epidemiológicos analíticos de gran escala. Diseño metodológico: Desarrollo de un sistema de IA basado en ML con aprendizaje supervisado y no supervisado, utilizando métodos de similitud y semejanza. Aplicabilidad: Estudios observacionales epidemiológicos a gran escala con bases de datos parametrizadas, codificadas y no codificadas. La herramienta permitirá crear grupos comparables y contribuir al control del sesgo de confusión, aumentando la validez interna de los resultados.esDesarrollo y validación de un algoritmo para realizar matching inteligente, en estudios epidemiológicos analíticos de gran escalaThesis