Análisis del Comportamiento de la Voz Humana para Detección de Depresión usando Redes Neuronales Convolucionales

Espinoza-Vicuña, Carlos; Nuñez-Medrano, Yuri

doi:http://dx.doi.org/10.18687/LACCEI2021.1.1.491

dc.contributor.author	Espinoza-Vicuña, Carlos
dc.contributor.author	Nuñez-Medrano, Yuri
dc.date.accessioned	2021-08-17T03:07:59Z
dc.date.accessioned	2022-02-22T12:16:42Z
dc.date.available	2021-08-17T03:07:59Z
dc.date.available	2022-02-22T12:16:42Z
dc.date.issued	2021-07
dc.identifier.isbn	978-958-52071-8-9
dc.identifier.issn	2414-6390
dc.identifier.other	http://laccei.org/LACCEI2021-VirtualEdition/meta/FP491.html
dc.identifier.uri	http://dx.doi.org/10.18687/LACCEI2021.1.1.491
dc.identifier.uri	http://axces.info/handle/10.18687/20210101_491
dc.description.abstract	Este artículo muestra los resultados de una investigación realizada para el reconocimiento de depresión a través del análisis de voces grabadas en entrevistas psicológicas. Para lograr ello, se han usado técnicas de procesamiento de voz y modelos de inteligencia artificial. Los audios fueron obtenidos de la base de datos DAIC-WOZ. Uno de los primeros desafíos, fue el tratamiento de los audios. Esto debido a dos razones. En primer lugar, los audios tienen una duración considerable, de más de 20 minutos en muchos casos, lo que provoca una dificultad al poder describirlos. En segundo lugar, la mayoría de los audios tienen dos tipos de voces, que pertenecen al agente entrevistador y al participante. Por lo tanto, se emplearon métodos de segmentaciones, como la Diarización de voces o segmentaciones de características específicas. Ello con el fin principal de discriminar la voz del agente entrevistador y quedarse únicamente con la voz del participante. Luego de limpiar los audios, se observó que los audios aún eran extensos. Para ello, se recurrió a diferentes formas de extraer características relevantes en cada audio, transformándolos en espectrogramas que se ajustaron mejor al estudio. Finalmente, se usaron estas representaciones de audios como entrada en el modelo de red neuronal convolucional usado. Así mismo, para mejorar los resultados y reducir el overfitting, se emplearon técnicas como data augmentation. Durante ello, se revisaron recurrentemente los pasos previos de la metodología. Al final, se evaluó el modelo.	en_US
dc.language.iso	English	en_US
dc.publisher	LACCEI Inc.	en_US
dc.rights	LACCEI License
dc.rights.uri	https://laccei.org/blog/copyright-laccei-papers/
dc.subject	Depresión	en_US
dc.subject	Inteligencia Artificial	en_US
dc.subject	DAIC-WOZ	en_US
dc.subject	Segmentación	en_US
dc.subject	Diarización	en_US
dc.subject	Espectrogramas	en_US
dc.subject	Red Neuronal Convolucional	en_US
dc.subject	Overfitting	en_US
dc.subject	Data Augmentation.	en_US
dc.title	Análisis del Comportamiento de la Voz Humana para Detección de Depresión usando Redes Neuronales Convolucionales
dc.type	Article	en_US
dc.description.country	Peru	en
dc.description.institution	Universidad Nacional de Ingeniería	en
dc.description.track	I.T, Telecom, Soft. Eng, IoT, Ind. 4.0, Forensic Informatics, Security, Cybersecurity and Comp tools	en
dc.journal.referato	peerReview

Files in this item

Name:: FP491.pdf
Size:: 601.2Kb
Format:: PDF

View/Open

This item appears in the following Collection(s)

2021 LACCEI - Virtual Edition
The Nineteenth LACCEI International Multi-Conference for Engineering, Education Caribbean Conference for Engineering and Technology.

Show simple item record