• 1990 (Том 4)
  • 1989 (Том 3)
  • 1988 (Том 2)
  • 1987 (Том 1)

ОПРЕДЕЛЕНИЕ ПОЛА ДИКТОРА ПО ХАРАКТЕРИСТИКАМ ГОЛОСА НА ФОНЕ ШУМА МНОГОГОЛОСИЯ

© 2024 г. О. В. Лабутина, С. П. Пак, Е. А. Огородникова

Институт физиологии им. И.П. Павлова Российской академии наук, Санкт-Петербург, 199034, наб. Макарова, д. 6
ogorodnikovaea@infran.ru

Поступила в редакцию 05.02.2024 г.

Психофозическими методами исследовали особенности опознания пола диктора по характеристикам голоса в условиях действия речеподобной помехи и стимуляции через головные телефоны. Использовали набор речевых сигналов и шум многоголосия из экспериментов в свободном звуковом поле – пространственной сцене (Andreeva et al., 2019). В набор входили 8 двусложных слов, произнесенных 4 дикторами: 2 мужских и 2 женских голоса со средней частотой основного тона 117, 139, 208 и 234 Гц. Шум многоголосия представлял результат микширования всех аудиофайлов (8 слов × 4 диктора). Соотношение сигнал/шум составляло 1:1, что субъективно соответствовало макимальному уровню зашумления в пространственной сцене (SNR = –14 дБ). В экспериментах участвовали 42 взрослых испытуемых (от 17 до 57 лет). Дополнительно выделяли 3 возрастных подгруппы: 18.6±1.5 лет (n = 27); 28±4.1 лет (n = 7); 46±5.4 лет (n = 8). Все испытуемые обладали нормальным слухом. Результаты исследования и их сравнения с данными указанной работы подтвердили значимость характеристик голоса для слухового анализа сложных пространственных (свободное звуковое поле) и непространственных (головные телефоны) сцен, а также продемонстрировали роль механизмов маскировки и бинаурального восприятия, в частности высокочастотного механизма пространственного слуха. Кроме того, обнаружена зависимость перцептивной оценки гендерных характеристик голоса в шуме от возраста испытуемых и пола дикторов (мужской или женский голос). Результаты имеют практическое значение для организации слухоречевого тренинга, ранней диагностики нарушений помехоустойчивости речевого слуха, а также развития помехоустойчивых систем автоматической верификации дикторов и технологий слухопротезирования.

Ключевые слова: восприятие, голос, гендерная особенность, имитация сложной сцены, шум, многоголосие, пространственная акустическая сцена

DOI: 10.31857/S0235009224020041  EDN: DDOTRT

Цитирование для раздела "Список литературы": Лабутина О. В., Пак С. П., Огородникова Е. А. Определение пола диктора по характеристикам голоса на фоне шума многоголосия. Сенсорные системы. 2024. Т. 38. № 2. С. 54–61. doi: 10.31857/S0235009224020041
Цитирование для раздела "References": Labutina O. V., Pak S. P., Ogorodnikova E. A. Opredelenie pola diktora po kharakteristikam golosa na fone shuma mnogogolosiya [Identification of speaker gender by voice characteristics under background of multi-talker noise]. Sensornye sistemy [Sensory systems]. 2024. V. 38(2). P. 54–61 (in Russian). doi: 10.31857/S0235009224020041

Список литературы:

  • Балякова А.А., Лабутина О.В., Медведев И.С., Пак С.П., Огородникова Е.А. Особенности распознавания речевых сигналов в условиях голосовой конкуренции в норме и при нарушениях слухоречевой функции. Сенсорные системы. 2023. Т. 37. № 4. С. 342–347. DOI: 10.31857/S0235009223040029
  • Королева И.В. Основы аудиологии и слухопротезирования. СПб: КАРО, 2022. 448 с.
  • Королева И.В., Огородникова Е.А., Пак С.П., Левин С.В., Балякова А.А., Шапорова А.В. Методические подходы к оценке динамики развития процессов слухоречевого восприятия у детей с кохлеарными имплантами. Российская оториноларингология. 2013. № 3. С. 75–85.
  • Лопотко А.И., Бердникова И.П., Бобошко М.Ю., Журавлева Т.А., Журавский С.Г., Квасова Т.В., Ломоватская Л.Г., Мальцева Н.В., Молчанов А.П., Рындина А.М., Савенко И.В., Слесаренко Н.П., Солдатова Г.Ш. Практическое руководство по сурдологии. СПб: Диалог, 2008. 273 с.
  • Ляшевская О.Н., Шаров С.А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М.: Азбуковник, 2009. 1090 с.
  • Огородникова Е.А., Лабутина О.В., Андреева И.Г., Гвоздева А.П., Баулин Ю.А. Фактор просодики в восприятии коммуникативной сцены с пространственным разделением источников речи и речеподобной помехи. Тезисы докладов Международной конференции “Лингвистический форум 2020: Язык и искусственный интеллект” / Под ред. А.А. Кибрика, В.Ю. Гусева, Д.А. Залманова. М.: Институт языкознания РАН, 2020. С. 127–128.
  • Сапогова Е.Е. Психология развития человека. М.: Аспект пресс, 2001. 460 с.
  • Хухлаева О.В. Психология развития. Молодость, зрелость, старость. М.: Академия, 2006. 208 с.
  • Andreeva I.G. Spatial selectivity of hearing in speech recognition in speech-shaped noise environment. Hum. Physiol. 2018. V. 44(2). P. 226–236. https://doi.org/10.1134/S0362119718020020
  • Andreeva I.G., Dymnikowa M., Gvozdeva A.P., Ogorodnikova E.A., Pak S.P. Spatial separation benefit for speech detection in multi-talker babble-noise with different egocentric distances. Acta Acustica united with Acustica. 2019. V. 105. № 3. P. 484–491. https://doi.org/10.3813/AAA.919330
  • Balling L.W., Mølgaard L.L., Townend O., Nielsen J.B.B. The collaboration between hearing aid users and artificial intelligence to optimize sound. Seminars in Hearing. 2021. № 42(3). P. 282–294. https://doi.org/10.1055/s-0041-1735135
  • Bharathi R., Nalina H.D. Survey of Recent Advances in Hearing Aid Technologies and Trends. International Research Journal on Advanced Engineering Hub. 2024. V. 2. I. 2. P. 303–308. https://doi.org/10.47392/IRJAEH.2024.0046
  • Bregman A.S. Auditory scene analysis: the perceptual organization of sound. Cambridge: MIT Press, 1990.
  • Bronkhorst A.W. The cocktail-party problem revisited: Early processing and selection of multi-talker speech. Attention, Perception & Psychophysics. 2015. V. 77(5). P. 1465–1487. https://doi.org/10.3758/s13414-015-0882-9.
  • Cherry E.C. Some experiments on the recognition of speech, with one and with two ears. J. Acoust. Soc. Am. 1953. V. 25. № 5. P. 975.
  • Darvin C.J., Brungart D.S., Simpson B.D. Effects of fundamental frequency and vocal-tract length changes on attention to one or two simultaneous talkers. J. Acoust. Soc. Am. 2003. V. 114. P. 2913–2922.
  • Davis A., McMahon C.M., Pichora-Fuller K.M., Russ S., Lin F., Olusanya B.O., Chadha S., Tremblay K.L. Aging and Hearing Health: The Life-course Approach. Gerontologist. 2016. № 56 (Suppl 2). Р. 256–267. https://doi.org/10.1093/geront/gnw033.
  • Fostick L., Ben-Artzi E., Babkoff H. Aging and speech perception: beyond hearing threshold and cognitive ability. J. Basic Clin Physiol Pharmacol. 2013. № 24(3). Р. 175–183. https://doi.org/10.1515/jbcpp-2013-0048.
  • Gutschalk A., Dykstra A.R. Functional imaging of auditory scene analysis. Hear. Res. 2014. V. 307. P. 98.
  • Lesica N.A., Mehta N., Manjaly J.G., Deng L., Wilson B.S., Zeng F.-G. Harnessing the power of artificial intelligence to transform hearing healthcare and research. Nat. Mach. Intell. 2021. № 3. Р. 840–849. https://doi.org/10.1038/s42256-021-00394-z
  • Moore B.C.J. An Introduction to the Psychology of Hearing. Leiden. Brill., 2012. 442 p.
  • Musiek F.E., Chermak G.D. Handbook of central auditory processing disorder. San Diego. Plural Publishing, 2014. V. 1. Auditory neuroscience and diagnosis. 768 p.
  • Pernet C.R., Belin P. The Role of Pitch and Timbre in Voice Gender Categorization. Front. Psychol. 2012. Sec. Perception Science. V. 3. https://doi.org/10.3389/fpsyg.2012.00023
  • Popper A.N., Fay R.R. (Eds). Perspectives on auditory research. Springer handbook of auditory research. 2014. 680 p.
  • Shamma S.A., Elhilali M., Micheyl C. Temporal coherence and attention in auditory scene analysis. Trends Neurosci. 2011. V. 34. P. 114.
  • Smirnova V.A., Labutina O.V., Gvozdeva A.P. Chapter 9: Speech detection in spatially distributed speech-like noise. In: Neural Networks and Neurotechnologies (eds: Yu. Shelepin, E. Ogorodnikova, N. Solovyev, E. Yakimova). St. Petersburg, VVM, 2019. P. 52–60.
  • Weston P., Hunter M.D., Sokhi D.S., Wilkinson I. Discrimination of voice gender in the human auditory cortex. NeuroImage. 2014. V. 105. P. 208–214. https://doi.org/10.1016/j.neuroimage.2014.10.056