Autores: Lasse Hansen; Yan-Ping Zhang; Detlef Wolf; Konstantinos Sechidis; Nicolai Ladegaard; Riccardo Fusaroli · Investigación

¿Puede el análisis de voz detectar la depresión y monitorear la recuperación?

Un estudio encontró que analizar los patrones vocales puede ayudar a identificar la depresión y monitorear la recuperación, destacando el potencial para nuevas herramientas de detección.

Fuente: Hansen, L., Zhang, Y. P., Wolf, D., Sechidis, K., Ladegaard, N., & Fusaroli, R. (2021). A Generalizable Speech Emotion Recognition Model Reveals Depression and Remission. bioRxiv.

Lo que necesitas saber

  • Investigadores desarrollaron un modelo computacional que puede detectar signos de depresión analizando patrones vocales
  • El modelo pudo distinguir entre pacientes deprimidos y controles sanos con 71% de precisión
  • Los pacientes que se recuperaron de la depresión tenían patrones vocales similares a los controles sanos
  • El ruido de fondo afecta significativamente el rendimiento del modelo, destacando la necesidad de condiciones de grabación controladas

Cómo el análisis de voz podría ayudar a detectar la depresión

La depresión afecta a más de 160 millones de personas en todo el mundo y puede impactar severamente la calidad de vida. Sin embargo, los métodos actuales para detectar y monitorear la depresión dependen en gran medida de síntomas autoreportados, que pueden ser poco confiables. Los investigadores están explorando nuevas formas de detectar la depresión de manera más objetiva, incluyendo el análisis de patrones vocales.

Un equipo de científicos investigó recientemente si un modelo computacional entrenado para reconocer emociones en voces también podría detectar signos de depresión. Su estudio, publicado como preimpresión en bioRxiv, encontró resultados prometedores que destacan el potencial del análisis de voz como herramienta para la detección y monitoreo de la salud mental.

Entrenando un modelo para reconocer emociones en el habla

Los investigadores comenzaron entrenando un modelo computacional para reconocer emociones como felicidad y tristeza en grabaciones de voz. Utilizaron bases de datos existentes de actores hablando frases con diferentes tonos emocionales en inglés y alemán.

Este modelo de reconocimiento de emociones se probó luego en grabaciones de entrevistas con pacientes de habla danesa diagnosticados con depresión y participantes de control sanos. El objetivo era ver si el modelo entrenado en habla emocional actuada podía detectar diferencias reales en los patrones vocales de individuos deprimidos versus no deprimidos hablando naturalmente.

Distinguiendo la depresión a través de la voz

Al aplicarse a las grabaciones de entrevistas en danés, el modelo de reconocimiento de emociones pudo distinguir entre pacientes deprimidos y controles sanos con 71% de precisión. Esto significa que clasificó correctamente a los participantes como deprimidos o no deprimidos el 71% de las veces basándose únicamente en sus patrones de voz.

El modelo tendía a clasificar el habla de los pacientes deprimidos como de sonido “más triste” en comparación con los controles sanos. Específicamente, alrededor del 70% de las muestras de habla de pacientes deprimidos se clasificaron como de sonido triste, en comparación con solo el 22-25% para los controles sanos.

Rastreando la recuperación a través de cambios en la voz

Un hallazgo interesante fue que los pacientes que se recuperaron de la depresión mostraron patrones vocales muy similares al grupo de control sano en entrevistas de seguimiento. Esto sugiere que los marcadores vocales de depresión detectados por el modelo tienden a normalizarse a medida que los pacientes se recuperan.

El Dr. Riccardo Fusaroli, uno de los autores del estudio, explicó: “Encontramos que el tono emocional de voz de los pacientes en remisión era indistinguible del grupo de control. Esto indica que los síntomas de depresión basados en la voz disminuyen después de un tratamiento exitoso.”

Esta capacidad de rastrear cambios en los patrones vocales podría potencialmente usarse para monitorear el progreso del tratamiento a lo largo del tiempo. Sin embargo, los investigadores señalan que se necesitan más estudios para confirmar qué tan confiablemente estos cambios vocales se correlacionan con la mejora clínica.

Consistencia de los patrones vocales

Los investigadores encontraron que las predicciones del modelo eran bastante estables a lo largo de cada entrevista, que típicamente duraba 20-50 minutos. Esto sugiere que incluso muestras cortas de voz de 20-30 segundos pueden ser suficientes para detectar posibles signos de depresión.

Sin embargo, el Dr. Fusaroli advierte que “Aunque se observaron tendencias claras a nivel de grupo, la medida en que la voz de cada participante cambió entre visitas difirió notablemente. Esto resalta la necesidad de realizar múltiples grabaciones durante varios días en cualquier aplicación práctica, para aumentar la robustez del método.”

Factores importantes para un análisis preciso

El estudio identificó varios factores clave que impactan la precisión de la detección de depresión basada en la voz:

Ruido de fondo: La presencia de ruido de fondo en las grabaciones redujo significativamente el rendimiento del modelo. Esto subraya la necesidad de condiciones de grabación silenciosas al usar herramientas de análisis de voz.

Separación de hablantes: Eliminar el habla de los entrevistadores en las grabaciones mejoró ligeramente la precisión del modelo. Este proceso de aislar la voz del paciente de otros hablantes se llama “diarización de hablantes”.

Duración de la grabación: Analizar muestras de voz más largas de al menos 20-30 segundos proporcionó los mejores resultados. Las muestras más cortas que esto eran menos confiables para detectar signos de depresión.

El Dr. Lasse Hansen, el autor principal del estudio, enfatizó: “Nuestros hallazgos muestran que los entornos de recopilación de datos y la limpieza de datos son cruciales al considerar el análisis automatizado de voz para fines clínicos. La eliminación del ruido de fondo, en particular, es esencial para hacer inferencias significativas.”

Aplicaciones potenciales y limitaciones

La capacidad de detectar signos de depresión a través del análisis automatizado de voz podría tener varias aplicaciones valiosas:

  1. Detección: Las herramientas de análisis de voz podrían usarse potencialmente para detectar el riesgo de depresión, ayudando a identificar individuos que podrían beneficiarse de una evaluación adicional.

  2. Monitoreo del tratamiento: Rastrear cambios en los patrones vocales a lo largo del tiempo podría ayudar a los médicos a evaluar qué tan bien está respondiendo un paciente al tratamiento.

  3. Evaluación remota: Las herramientas basadas en voz podrían permitir el monitoreo remoto del estado de salud mental, lo cual es particularmente relevante en la era de la telemedicina.

Sin embargo, los investigadores enfatizan que su modelo no está destinado a reemplazar el diagnóstico clínico. El Dr. Hansen señala: “El área principal de aplicación de estos sistemas debería ser la detección y el monitoreo de enfermedades, no el diagnóstico. La depresión es un trastorno complejo, y ninguna medida individual puede capturar todos sus aspectos.”

El estudio también tiene algunas limitaciones a considerar:

  • Solo incluyó pacientes con trastorno depresivo mayor, por lo que no está claro cómo se desempeñaría el modelo con otras condiciones de salud mental.
  • La investigación se realizó en danés, y aunque el modelo mostró promesa en generalizar a través de idiomas, su desempeño en idiomas no germánicos es desconocido.
  • El estudio no incluyó pacientes que no se recuperaron de la depresión, por lo que los investigadores no pudieron evaluar los cambios de voz en ese grupo.

Direcciones futuras

Esta investigación abre varios caminos para futuros estudios:

  1. Probar el modelo en poblaciones de pacientes más grandes y diversas
  2. Investigar qué tan bien funciona el enfoque en una gama más amplia de idiomas
  3. Explorar cómo el análisis de voz podría combinarse con otras medidas objetivas para mejorar la detección y el monitoreo de la depresión
  4. Estudiar cómo los síntomas específicos de la depresión se correlacionan con cambios en los patrones vocales

El Dr. Fusaroli concluye: “Los sistemas basados en voz tienen la ventaja de ser menos propensos a sesgos relacionados con los autoinformes y las calificaciones humanas, y pueden usarse de forma remota, económica y no invasiva. La implementación exitosa de la detección y el monitoreo de la depresión basados en la voz tiene el potencial de proporcionar un diagnóstico más temprano y una visión más granular del efecto del tratamiento, facilitando así un mejor pronóstico del trastorno depresivo mayor.”

Conclusiones

  • Un modelo computacional entrenado para reconocer emociones en el habla puede detectar signos de depresión con una precisión prometedora
  • Los patrones vocales parecen normalizarse a medida que los pacientes se recuperan de la depresión
  • El análisis de voz podría usarse potencialmente como herramienta para la detección y el monitoreo del tratamiento de la depresión
  • Las condiciones de grabación controladas son cruciales para una evaluación precisa basada en la voz
  • Se necesita más investigación para validar estos hallazgos y explorar aplicaciones prácticas

Aunque esta investigación muestra promesa, es importante recordar que la depresión es un trastorno complejo que no puede ser completamente capturado por una sola medida. Las herramientas de análisis de voz, si se desarrollan más, probablemente servirían como solo una parte de un enfoque integral para la evaluación y el tratamiento de la salud mental.

Back to Blog

Related Articles

View All Articles »