Análisis del Comportamiento de la Voz Humana para Detección de Depresión usando Redes Neuronales Convolucionales

Espinoza-Vicuña, Carlos; Nuñez-Medrano, Yuri

Análisis del Comportamiento de la Voz Humana para Detección de Depresión usando Redes Neuronales Convolucionales

Files

FP491.pdf (601.26 KB)

Date

2021-07

Authors

Espinoza-Vicuña, Carlos

Nuñez-Medrano, Yuri

Publisher

LACCEI Inc.

Abstract

Este artículo muestra los resultados de una investigación realizada para el reconocimiento de depresión a través del análisis de voces grabadas en entrevistas psicológicas. Para lograr ello, se han usado técnicas de procesamiento de voz y modelos de inteligencia artificial. Los audios fueron obtenidos de la base de datos DAIC-WOZ. Uno de los primeros desafíos, fue el tratamiento de los audios. Esto debido a dos razones. En primer lugar, los audios tienen una duración considerable, de más de 20 minutos en muchos casos, lo que provoca una dificultad al poder describirlos. En segundo lugar, la mayoría de los audios tienen dos tipos de voces, que pertenecen al agente entrevistador y al participante. Por lo tanto, se emplearon métodos de segmentaciones, como la Diarización de voces o segmentaciones de características específicas. Ello con el fin principal de discriminar la voz del agente entrevistador y quedarse únicamente con la voz del participante. Luego de limpiar los audios, se observó que los audios aún eran extensos. Para ello, se recurrió a diferentes formas de extraer características relevantes en cada audio, transformándolos en espectrogramas que se ajustaron mejor al estudio. Finalmente, se usaron estas representaciones de audios como entrada en el modelo de red neuronal convolucional usado. Así mismo, para mejorar los resultados y reducir el overfitting, se emplearon técnicas como data augmentation. Durante ello, se revisaron recurrentemente los pasos previos de la metodología. Al final, se evaluó el modelo.

Keywords

Depresión, Inteligencia Artificial, DAIC-WOZ, Segmentación, Diarización, Espectrogramas, Red Neuronal Convolucional, Overfitting, Data Augmentation.

URI

http://dx.doi.org/10.18687/LACCEI2021.1.1.491
http://axces.info/handle/10.18687/20210101_491

Collections

2021 LACCEI - Virtual Edition

Creative Commons license

Except where otherwised noted, this item's license is described as LACCEI License

Full item page

Análisis del Comportamiento de la Voz Humana para Detección de Depresión usando Redes Neuronales Convolucionales

Files

Date

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Description

Keywords

Citation

URI

Collections

Endorsement

Review

Supplemented By

Referenced By

Creative Commons license