Efficient, Fair and Accurate Deep Learning Solutions for Remote Heart Rate Estimation
Loading...
Document Type
Document Version
Author
Director
Sukno, Federico Mateo
Tutor
Binefa i Valls, Xavier
Other authors
Publication Date
Pages
253 p.
Embargo date
2027-06-30T02:00:00Z
Citation
Comas Martínez, J. Efficient, Fair and Accurate Deep Learning Solutions for Remote Heart Rate Estimation. Universitat Pompeu Fabra; 2025. handle: http://hdl.handle.net/10803/696384
This citation was generated automatically.
Citation
Doctoral program
Universitat Pompeu Fabra. Doctorat en Tecnologies de la Informació i les Comunicacions
Abstract
En els últims anys, la mesura fisiològica basada en càmera ha guanyat un gran interès en la comunitat científica, gràcies al seu potencial per monitoritzar senyals vitals com el ritme cardíac, el ritme respiratori, la saturació d'oxigen o el pols del volum sanguini. Aquests senyals són crucials per avaluar tant l'estat físic com l'estat mental de les persones, amb aplicacions àmplies en salut, educació, màrqueting o computació afectiva. Tot i que l'aprenentatge profund ha avançat en aquest camp, el seu èxit depèn significativament de la representació i diversitat de les dades d'entrenament. No obstant això, la disponibilitat limitada de dades i la complexitat del món real han donat lloc a models esbiaixats amb una generalització limitada, agreujada pel cost computacional elevat de les xarxes neuronals profundes. Per abordar aquests reptes, aquesta tesi introdueix mètodes per mitigar els biaixos clau en la mesura fisiològica remota, incloent la distorsió per moviment, la compressió de vídeo, la diversitat del to de pell i el desfasament temporal. És per aquest motiu, que proposem un enfocament no supervisat basat en freqüència per a la distorsió per moviment, aprofitant els coneixements fisiològics previs mentre garantim eficiència i robustesa. Per contrarestar els efectes de la compressió de vídeo, desenvolupem una estratègia d'entrenament en dues etapes que magnifica el contingut del senyal cardíac, centrant-se exclusivament en els aspectes fisiològics sense prioritzar la millora de la qualitat del vídeo. També introduïm una nova tècnica d'augment de dades per equilibrar la representació del to de pell utilitzant un model de color de pell bidimensional, sense necessitat d'etiquetes externes. A més, es presenta una nova funció de pèrdua temporal per refinar el desfasament temporal, entre els senyals del sensor i els senyals predits, en l'optimització dels models d'aprenentatge profund. Més enllà de la mitigació dels biaixos, aquesta tesi fa èmfasi en l'eficiència. És per això que proposem enfocaments optimitzats basats en el temps i la freqüència mitjançant la incorporació de restriccions fisiològiques, juntament amb noves estratègies d'optimització destinades a reduir la complexitat computacional, associada amb la mitigació de la compressió de vídeo, o a accelerar l'augment de dades del to de pell. Una contribució clau d'aquest treball és millorar la precisió de l'estimació remota de la freqüència cardíaca. Per això, introduïm un nou enfocament basat en la Transformada Chirp-Z (CZT) per refinar l'espectre de freqüència, centrant-nos en el rang de banda d'interès per a la freqüència cardíaca. Aquest fet proporciona una millor resolució en freqüència, la qual cosa dona lloc a estimacions més precises de la freqüència cardíaca. A més, explorem el potencial de la mesura fisiològica basada en càmeres en la computació afectiva, mitjançant la creació d'un nou referent per al reconeixement remot d'emocions i mostrant el seu valor en la Interacció Persona-Ordinador (IPO). A través de les solucions presentades en aquest treball, demostrem la possibilitat de desenvolupar sistemes més eficients, precisos i equitatius de mesura fisiològica basada en càmera. Aquestes innovacions pretenen millorar el rendiment de la detecció remota de senyals fisiològics, la qual cosa permet aplicacions més fiables i accessibles en la salut i altres àmbits.
Camera-based physiological measurement has gained significant attention in recent years due to its ability to monitor vital signals such as heart rate, respiration rate, oxygen saturation, and blood volume pulse. These signals are essential for assessing physical and mental states, with applications in healthcare, education, marketing, and affective computing. While deep learning has significantly advanced this field, its success relies on diverse and representative training data. However, scarce data availability and real-world complexities have led to biased models with limited generalization, further aggravated by the high computational cost of deep neural networks. To address these challenges, this thesis introduces methods to mitigate key biases in remote physiological measurement, including motion distortion, video compression, skin tone diversity, and temporal offset. We propose an unsupervised frequency-based approach for motion distortion, leveraging physiological priors while ensuring efficiency and robustness. To counteract video compression effects, we develop a two-stage training strategy that magnifies pulsatile signal content, focusing purely on the physiological aspects without prioritizing video quality enhancement. We also introduce a novel data augmentation technique to balance skin tone representation using a bi-dimensional skin color model without requiring external labels. Furthermore, a novel temporal loss function is also introduced to refine the temporal offset between ground truth and measured signals in the optimization of deep learning models. Beyond bias mitigation, this thesis emphasizes efficiency. We propose optimized temporal and frequency-based approaches by incorporating physiological constraints, alongside novel optimization strategies aimed at reducing the computational complexity associated with video compression mitigation or accelerating skin tone data augmentation. A key contribution of this work is improving the accuracy of remote heart rate estimation. For that, we introduce a novel approach leveraging the Chirp-Z Transform (CZT) to refine the frequency spectrum, focusing on the narrow-band range of interest for heart rate. This provides improved frequency resolution, leading to more accurate heart rate estimates. Additionally, we explore the potential of camera-based physiological measurement in Affective Computing by introducing a novel benchmark for remote emotion recognition, showcasing its value in Human-Computer Interaction (HCI). Through the solutions presented in this work, we demonstrate the possibility of developing more efficient, fair and accurate camera-based physiological measurement systems. These innovations aim to improve the performance of remote physiological signal sensing, enabling more reliable and accessible applications in healthcare and beyond.
Camera-based physiological measurement has gained significant attention in recent years due to its ability to monitor vital signals such as heart rate, respiration rate, oxygen saturation, and blood volume pulse. These signals are essential for assessing physical and mental states, with applications in healthcare, education, marketing, and affective computing. While deep learning has significantly advanced this field, its success relies on diverse and representative training data. However, scarce data availability and real-world complexities have led to biased models with limited generalization, further aggravated by the high computational cost of deep neural networks. To address these challenges, this thesis introduces methods to mitigate key biases in remote physiological measurement, including motion distortion, video compression, skin tone diversity, and temporal offset. We propose an unsupervised frequency-based approach for motion distortion, leveraging physiological priors while ensuring efficiency and robustness. To counteract video compression effects, we develop a two-stage training strategy that magnifies pulsatile signal content, focusing purely on the physiological aspects without prioritizing video quality enhancement. We also introduce a novel data augmentation technique to balance skin tone representation using a bi-dimensional skin color model without requiring external labels. Furthermore, a novel temporal loss function is also introduced to refine the temporal offset between ground truth and measured signals in the optimization of deep learning models. Beyond bias mitigation, this thesis emphasizes efficiency. We propose optimized temporal and frequency-based approaches by incorporating physiological constraints, alongside novel optimization strategies aimed at reducing the computational complexity associated with video compression mitigation or accelerating skin tone data augmentation. A key contribution of this work is improving the accuracy of remote heart rate estimation. For that, we introduce a novel approach leveraging the Chirp-Z Transform (CZT) to refine the frequency spectrum, focusing on the narrow-band range of interest for heart rate. This provides improved frequency resolution, leading to more accurate heart rate estimates. Additionally, we explore the potential of camera-based physiological measurement in Affective Computing by introducing a novel benchmark for remote emotion recognition, showcasing its value in Human-Computer Interaction (HCI). Through the solutions presented in this work, we demonstrate the possibility of developing more efficient, fair and accurate camera-based physiological measurement systems. These innovations aim to improve the performance of remote physiological signal sensing, enabling more reliable and accessible applications in healthcare and beyond.
Keywords
Freqüència cardíaca remota, Remote Heart Rate Estimation, Frecuencia cardíaca remota, Mesura basada en càmera, Camera-based measurement, Medida basada en cámara, Fotopletismografia, Photoplethysmography, Fotopletismografía, Aprenentatge Profund, Deep Learning, Aprendizaje Profundo, Processament de vídeo, Video processing, Procesamiento de video
Subjects
62 - Engineering. Technology
Publisher
Universitat Pompeu Fabra







