Show simple item record

dc.contributor.authorEspinoza-Vicuña, Carlos
dc.contributor.authorNuñez-Medrano, Yuri
dc.date.accessioned2021-08-17T03:07:59Z
dc.date.accessioned2022-02-22T12:16:42Z
dc.date.available2021-08-17T03:07:59Z
dc.date.available2022-02-22T12:16:42Z
dc.date.issued2021-07
dc.identifier.isbn978-958-52071-8-9
dc.identifier.issn2414-6390
dc.identifier.otherhttp://laccei.org/LACCEI2021-VirtualEdition/meta/FP491.html
dc.identifier.urihttp://dx.doi.org/10.18687/LACCEI2021.1.1.491
dc.identifier.urihttp://axces.info/handle/10.18687/20210101_491
dc.description.abstractEste artículo muestra los resultados de una investigación realizada para el reconocimiento de depresión a través del análisis de voces grabadas en entrevistas psicológicas. Para lograr ello, se han usado técnicas de procesamiento de voz y modelos de inteligencia artificial. Los audios fueron obtenidos de la base de datos DAIC-WOZ. Uno de los primeros desafíos, fue el tratamiento de los audios. Esto debido a dos razones. En primer lugar, los audios tienen una duración considerable, de más de 20 minutos en muchos casos, lo que provoca una dificultad al poder describirlos. En segundo lugar, la mayoría de los audios tienen dos tipos de voces, que pertenecen al agente entrevistador y al participante. Por lo tanto, se emplearon métodos de segmentaciones, como la Diarización de voces o segmentaciones de características específicas. Ello con el fin principal de discriminar la voz del agente entrevistador y quedarse únicamente con la voz del participante. Luego de limpiar los audios, se observó que los audios aún eran extensos. Para ello, se recurrió a diferentes formas de extraer características relevantes en cada audio, transformándolos en espectrogramas que se ajustaron mejor al estudio. Finalmente, se usaron estas representaciones de audios como entrada en el modelo de red neuronal convolucional usado. Así mismo, para mejorar los resultados y reducir el overfitting, se emplearon técnicas como data augmentation. Durante ello, se revisaron recurrentemente los pasos previos de la metodología. Al final, se evaluó el modelo.en_US
dc.language.isoEnglishen_US
dc.publisherLACCEI Inc.en_US
dc.rightsLACCEI License
dc.rights.urihttps://laccei.org/blog/copyright-laccei-papers/
dc.subjectDepresiónen_US
dc.subjectInteligencia Artificialen_US
dc.subjectDAIC-WOZen_US
dc.subjectSegmentaciónen_US
dc.subjectDiarizaciónen_US
dc.subjectEspectrogramasen_US
dc.subjectRed Neuronal Convolucionalen_US
dc.subjectOverfittingen_US
dc.subjectData Augmentation.en_US
dc.titleAnálisis del Comportamiento de la Voz Humana para Detección de Depresión usando Redes Neuronales Convolucionales
dc.typeArticleen_US
dc.description.countryPeruen
dc.description.institutionUniversidad Nacional de Ingenieríaen
dc.description.trackI.T, Telecom, Soft. Eng, IoT, Ind. 4.0, Forensic Informatics, Security, Cybersecurity and Comp toolsen
dc.journal.referatopeerReview


Files in this item

Thumbnail

This item appears in the following Collection(s)

  • 2021 LACCEI - Virtual Edition
    The Nineteenth LACCEI International Multi-Conference for Engineering, Education Caribbean Conference for Engineering and Technology.

Show simple item record