Spatial data science approaches to predict environmental and socioeconomic health determinants
Spatial data science approaches to predict environmental and socioeconomic health determinants
Enllaç permanent
Descripció
Resum
Aquesta tesi, organitzada en tres articles, proposa avenços metodològics en els processos de predicció espacial utilitzats per a exposicions ambientals i socioeconòmiques. El primer estudi prediu la temperatura i quatre contaminants atmosfèrics a alta resolució espaciotemporal a Catalunya. Inclou innovacions com l’ús de dades de TROPOMI, l’estimació de la incertesa en les prediccions i mètodes d’explicabilitat per validar les associacions. El segon estudi investiga la inclusió de proxies espacials, com ara coordenades i distàncies, com a predictors en models random forest. En una simulació i dos casos pràctics, concloem que aquestes variables no són sempre beneficioses i identifiquem models alternatius. El tercer estudi prediu la posició socioeconòmica de les llars en zones semirurals de Moçambic, utilitzant un conjunt de dades multimodal format per imatges per satèl·lit i de les llars, i combinant mètodes d’aprenentatge profund i automàtic seguit d’anàlisis d’explicabilitat. Aquesta tesi contribueix a la literatura suggerint metodologies per obtenir estimacions d’exposició més precises, transparents, eficients i informatives.
Esta tesis, organizada en tres artículos, propone avances metodológicos en los procesos de predicción espacial utilizados para exposiciones ambientales y socioeconómicas. El primer estudio predice la temperatura y cuatro contaminantes atmosféricos con alta resolución espaciotemporal en Cataluña. Incluye innovaciones como el uso de datos de TROPOMI, la estimación de la incertidumbre en las predicciones y métodos de explicabilidad para validar las asociaciones. El segundo estudio investiga la inclusión de proxies espaciales, como coordenadas y distancias, como predictores en modelos random forest. Mediante una simulación y dos casos prácticos, concluimos que estas variables no siempre son beneficiosas e identificamos modelos alternativos. El tercer estudio predice la posición socioeconómica de los hogares en zonas semirrurales de Mozambique, utilizando un conjunto de datos multimodal formado por imágenes satelitales y de los hogares, y combinando métodos de aprendizaje profundo y automático seguidos de análisis de explicabilidad. Esta tesis contribuye a la literatura sugiriendo metodologías para obtener estimaciones de exposición más precisas, transparentes, eficientes e informativas.
Spatial prediction workflows are key for assessing health determinants in epidemiology. This thesis, comprising three manuscripts, advances spatial prediction pipelines for environmental and socioeconomic exposures. The first study predicted temperature and four air pollutants in Catalonia using a multi-exposure framework. Innovations include the use of TROPOMI data, a remote sensing gap-filling evaluation, the estimation of prediction uncertainty, and explainable machine learning to verify associations. The second study investigated spatial proxies (e.g., coordinates and distances) in random forest models. Through simulations and case studies, we found that spatial proxies are not always beneficial, providing insights into their suitability and alternatives. The third study predicted household socioeconomic measures in semi-rural Mozambique using satellite and household imagery. A deep and machine learning pipeline, combined with explainability analyses, revealed clear socioeconomic patterns. This thesis enhances spatial predictions by proposing methodologies for more accurate, transparent, and informative exposure estimates.
Universitat Pompeu Fabra. Doctorat en BiomedicinaDirector i departament
Col·leccions
Mostra el registre complet