Голос и его мультимодальность на BRND

Введение

Голос — одно из самых распространённых, но при этом наименее рефлексивно осмысляемых явлений в повседневной жизни. Каждый день человек сталкивается с десятками голосов: в разговоре, по телефону, в подкасте, в музыкальной записи, в уведомлениях смартфона. Однако привычность голоса скрывает его сложную природу. Данное исследование исходит из предположения, что слушание голоса никогда не является чисто аудиальным процессом, а всегда включает другие сенсорные, технологические и культурные модальности.

Голос долгое время осмыслялся в рамках бинарной оппозиции: с одной стороны — означающий, рациональный, авторский голос (связанный с истиной и субъектностью), с другой — материальная, телесная, избыточная вокальность (смех, плач, крик, шёпот). Эта оппозиция, как показывает антропологическая и философская критика, имеет глубокие гендерные и колониальные корни. Однако помимо этой бинарности существует и другая проблема: в теории и в повседневном опыте слушание голоса часто редуцируется к слуховому восприятию, тогда как на деле оно включает зрение, осязание, технологическую опосредованность и культурные ожидания.

Цель данного визуального исследования — выявить и проанализировать мультимодальную природу голоса. Под мультимодальностью здесь понимается участие разных каналов восприятия (слуха, зрения, осязания, технологического знания, культурных ожиданий) в акте слушания голоса. Для того чтобы сделать мультимодальность видимой, в данном исследовании проводится анализ ситуаций, в которых разные модальности входят в конфликт или обнаруживают своё присутствие.

Гипотеза исследования состоит в том, что мультимодальность не является дополнением к «чистому» слуховому восприятию голоса, а представляет собой его свойство. Иными словами, не существует «чистого» слушания голоса. Практически любое слушание уже включает зрение, технологию, пространство и культурные ожидания. Анализ конкретных ситуаций несовпадения между модальностями позволяет сделать это свойство видимым.

Исследование построено на анализе пяти типов ситуаций, в которых мультимодальная природа голоса становится наиболее заметной. Каждый тип сопровождается примерами. В качестве метода используется мультимодальный анализ — подход, рассматривающий восприятие как интеграцию различных сенсорных и семиотических каналов.

Работа состоит из пяти аналитических разделов, соответствующих пяти типам ситуаций, в которых мультимодальность голоса становится видимой:

Акусматический голос — ситуация, когда голос слышен, но его источник не виден; Несовпадение голоса и тела на экране; Технологическое опосредование — микрофон, запись, автотюн как протезы голоса; Гендерные ожидания — культурные стереотипы о том, как звучат мужские и женские голоса; Материальная телесность — видимая и слышимая работа голосообразующего аппарата.

Философские и научные основания

Голос между семантикой и звуком

Итальянский философ Адриана Кавареро показывает, что западная философская традиция совершила «девокализацию Логоса» — систематическое разделение смысла (semantike) и звучания (phone). От Платона до современной лингвистики приоритет отдавался тому, что сказано, а не кто говорит и как звучит его голос. В этой традиции голос понимается как прозрачный носитель значения — то, что должно исчезнуть, чтобы сообщение прошло. Однако сам голос всегда оказывается избыточным: он несёт информацию о поле, возрасте, эмоциональном состоянии, социальном статусе говорящего — то, что не сводится к смыслу слов.

Голос как объект и остаток

Словенский философ Младен Долар, развивая лакановский психоанализ, предлагает различать три уровня голоса:

голос как носитель лингвистического смысла (слова),
голос как источник эстетического наслаждения (пение, тембр),
голос как объект — то, что не схватывается значением, остаточный элемент, который и делает голос таким неуловимым и загадочным.

Голос — это «объект-причина желания», то, что всегда ускользает от слушателя и тем самым поддерживает его стремление слушать дальше.

Феноменология слушающего тела

Дон Айди в своей классической работе «Listening and Voice» предлагает феноменологическую онтологию слушания в противовес визуальной доминанте западной философии. Айди показывает, что слух не просто дополняет зрение — он задаёт иную структуру опыта: звук «окружает» нас, исходит из разных направлений, не может быть «отключён» по желанию. Особое внимание Айди уделяет голосу как воплощению существования и самости: «все звуки в широком смысле — это голоса — голоса вещей, других, мира». Голос — это всегда диалог, всегда отношение между говорящим и слушающим.

Научные данные о мультимодальности

Современные нейронаучные исследования подтверждают философскую интуицию о том, что восприятие голоса и речи по определению мультимодально. Во-первых, мозг обладает механизмом временного окна связывания (temporal binding window) — промежутка времени, в пределах которого сигналы от разных органов чувств интегрируются в единое восприятие. Во-вторых, эксперименты показывают, что визуальная и тактильная информация о речи (вид движущихся губ, прикосновение к лицу говорящего) модулируют слуховые вызванные потенциалы — то есть мозг обрабатывает мультимодальные сигналы уже на ранних этапах. Это означает, что «чистое» слушание голоса — даже с точки зрения нейрофизиологии — скорее исключение, чем правило.

Технологическая медиация и «гипервокальность»

Джеймс Бэбкок вводит понятие «hypervocality» для описания голоса в эпоху цифровых медиа. Когда голос записан, усилен, обработан автотюном, отделён от тела и распространён через динамики, он перестаёт быть «моим» в простом смысле. Электроакустическая среда раскрывает «вокальный континуум» в звуке — спектр от чистого тона до шума, от семантически нагруженной речи до нечленораздельного крика. Это ставит под вопрос традиционные представления о голосе как носителе субъектности и аутентичности.

Голос обладает двойственной природой, которая будет прослеживаться во всех последующих примерах. С одной стороны, это физическое, акустическое явление: колебания воздуха, работа гортани, резонаторов, губ и языка. С другой стороны, в западной культуре голос выступает как мощная метафора: «иметь голос» означает обладать субъектностью, властью, правом быть услышанным. Примером может служить финальная сцена фильма «Речь короля» (The King’s Speech, 2010).

Западная философская и лингвистическая традиция выстроила устойчивую бинарную оппозицию. С одной стороны — означающий, рациональный, авторский голос (мужской, связанный с истиной и самоприсутствием). С другой — материальная, телесная, избыточная вокальность (смех, плач, крик, шёпот), которая в иерархии оказывается ниже и часто приписывается женщинам. Эта оппозиция не является чисто философской — она имеет прямое отношение к тому, как слушание голоса организовано в культуре.

Однако даже внутри этой бинарности голос всегда уже мультимодален. Он никогда не воспринимается только ушами. Задача последующих разделов — показать, как именно эта мультимодальность работает и в каких моментах она становится заметной.

Контексты восприятия голоса

Акусматический голос

Акусматический голос — это голос, источник которого не виден слушателю. Термин введён киноведом Мишелем Шионом для описания ситуаций в кино, где голос звучит, но говорящее тело отсутствует в кадре.

Так, в фильме «Психо» Альфреда Хичкока голос матери Нормана Бейтса звучит из-за двери, из тени, из пустой комнаты. Зритель никогда не видит говорящего одновременно со звуком. Это заставляет постоянно гадать о природе источника: живой ли это человек, мёртвый, голос в голове персонажа?

В фильме «Космическая одиссея 2001 года» (1968, реж. Стэнли Кубрик) компьютер HAL 9000 говорит спокойным, ровным голосом. У него нет рта и нет человеческого тела — только красная линза-глаз. Глаз становится заменителем тела: зритель слушает голос, но смотрит на глаз, и глаз как бы замещает отсутствующую телесность.

Данные примеры показывают, что в отсутствии визуальной информации слушатель не переходит в режим «чистого слуха». Напротив, активируются другие модальности: воображение, память, культурные стереотипы о том, как должно выглядеть тело, производящее данный голос. Слушание оказывается распределённым между ухом, глазом (который фиксирует отсутствие) и культурным знанием. Мультимодальность проявляется здесь как проекция — достраивание отсутствующей модальности за счёт других.

Несовпадение голоса и тела на экране

В западной телевизионной традиции нормой является совпадение голоса и тела. Однако существуют культурные практики, где это совпадение нарушается. Наиболее показательный пример — система playback singing в индийском кинематографе. Песню записывает профессиональная певица в студии, а на экране актриса только открывает рот. Голос и тело принадлежат разным женщинам.

Схожая ситуация возникает при просмотре иностранного фильма с закадровым переводом. Зритель видит актёра, говорящего на одном языке, а слышит голос переводчика на другом. Видимое тело не производит слышимый звук. В отличие от индийского кино, здесь это часто воспринимается как техническая необходимость, а не как эстетический приём.

Например, дубляж серии фильмов «Назад в будущее».

Здесь мультимодальность проявляется как конфликт между зрением и слухом. Зритель одновременно видит одно тело и слышит другой голос. Этот конфликт не разрешается в пользу одной из модальностей — он сохраняется как напряжение. Мультимодальное слушание в данном случае означает способность удерживать этот конфликт, не сводя его к ошибке или обману. Более того, в разных культурах этот конфликт оценивается по-разному (у одних народов он нормализован, у других — вызывает отторжение).

Технологическое опосредование

Технологии звукозаписи и усиления меняют онтологию голоса. Без микрофона голос должен быть громким. С микрофоном можно шептать. Без записи голос исчезает в момент звучания. С записью он становится объектом, который можно перематывать, замедлять, обрабатывать. Технология выступает как протез голоса.

В современной поп-музыке часто используется эффект «близкого микрофона»: когда вокалист шепчет и голос звучит так, будто он находится рядом со слушателем.

Также программная обработка голоса может изменить голос до неузнаваемости, создавать, например, роботизированный, механический звук. В таких случаях голос перестаёт быть выражением индивидуального тела и становится продуктом алгоритма.

Слушатель редко имеет дело с «сырым» голосом — часто с голосом, пропущенным через микрофон, запись, обработку. Однако в обычной ситуации это опосредование незаметно. Оно становится заметным, когда технология перестаёт быть прозрачной: шёпот становится громче крика, голос звучит механически, микрофон визуально маркирует жанр. В этих точках слушание становится мультимодальным в другом смысле: оно включает знание о технологии. Слушатель слышит не просто голос, а голос и микрофон, голос и обработку.

Гендерные ожидания

У слушателя существуют устойчивые культурные ожидания о том, как звучат мужские и женские голоса, а также о том, в каких контекстах уместен тот или иной голос. Властный, авторитетный голос часто приписывается мужчине; заботливый, помогающий голос — женщине.

В подавляющем большинстве документальных фильмов о природе, истории, науке диктор — мужчина, даже когда содержание не имеет прямого отношения к гендеру.

Голосовые помощники по бытовым вопросам часто по умолчанию имеют женский голос (Siri, Alexa, Яндекс Алиса, Google Assistant). Однако голос, например, навигатора в военных контекстах или голос диспетчера в экстренных службах часто мужской. Это отражает культурное распределение.

Кавареро в своей работе «For More Than One Voice» показывает, что исключение женского голоса из сферы публичной речи (логоса) имеет долгую философскую историю, восходящую к Аристотелю.

Киновед Кайя Сильверман в «The Acoustic Mirror» анализирует, как женский голос в классическом Голливуде часто используется как «акустическое зеркало» для мужской субъективности.

Голос в этом случае оказывается неотделим от социальных категорий, которые слушатель проецирует на него.

Материальная телесность

В повседневной жизни механизм производства голоса скрыт внутри тела. Гортань, голосовые складки, диафрагма не видны. Голос кажется «прозрачным» — носителем смысла, не отягощённым материей. Однако существуют ситуации, в которых эта материя становится видимой или слышимой.

Например, проведение эндоскопии гортани. Наблюдение за данной процедурой часто шокирует именно потому, что обычно этот процесс скрыт.

Другой пример — спектрограмма. Это графическое представление звука, где по горизонтали отложено время, по вертикали — частота, а яркость или цвет показывают амплитуду. С этой точки зрения голос — это просто данные, набор частот и громкостей. Эмоция, значение, личность — всё это исчезает. Такая визуализацию можно противопоставлять повседневному опыту слушания.

Этот случай возвращает мультимодальность к её телесному основанию. В повседневной жизни голос воспринимается как прозрачный носитель значения — его телесное производство скрыто. Когда эта телесность становится видимой, слушатель сталкивается с тем, что голос — это работа органа.

Заключение

Проведённый анализ пяти типов ситуаций позволяет подтвердить утверждение, что мультимодальность является конститутивным свойством голоса, то есть не существует «чистого» слухового восприятия голоса. Каждая из рассмотренных ситуаций подтверждает это положение, но разными способами.

Таким образом, мультимодальность — это не недостаток слушания, не его временное искажение. Слушать голос — значит всегда видеть (или воспринимать отсутствие видения), осязать (или помнить об осязании), ориентироваться в пространстве, иметь дело с технологией, воспринимать культурные ожидания.

Библиография

Novak, D., & Sakakeeny, M. (Eds.). (2015). Keywords in sound. Duke University Press.

Cavarero, A. For More Than One Voice: Toward a Philosophy of Vocal Expression. Stanford University Press, 2005.

Dolar, M. A Voice and Nothing More. MIT Press, 2006

Barthes, R. «The Grain of the Voice». В: Image-Music-Text. Hill and Wang, 1977.

Chion, M. The Voice in Cinema. Columbia University Press, 1999 (фр. оригинал — 1982).

Barthes, R. «Listening». В: The Responsibility of Forms. Hill and Wang, 1985.

Oh, Y. et al. «Temporal Coherence in Crossmodal Perceptual Binding». Multisensory Research, 2025, 38(4-5): 273-288.

Neuroscience study on multisensory speech perception (audio-visual and audio-haptic integration). Frontiers in Psychology, 2014, 5:420.

Sterne, J. The Audible Past: Cultural Origins of Sound Reproduction. Duke University Press, 2003.

10.

Babcock, J.A. Hypervocality: Voice, Timbre, and Embodiment in the Digital Age. PhD Dissertation, University of Florida, 2017.

Источники изображений

https://upload.wikimedia.org/wikipedia/commons/7/7f/Don_Ihde.jpg

https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcS2sKTZ5WPEagVniAa1hCyqHgnzTSHar6as6g&s

https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcTmUIQdbcg5whprDa8tsLe2wkeQZ4AZQmF7xV9B5NLhHZaMBIRuE-vyBNYM-pcywIOt0phO&s=10

https://vkvideo.ru/video-226111813_456239147?t=1h42m40s

https://vkvideo.ru/video-52526415_456240944?t=1h25m46s

https://vkvideo.ru/video-233305174_456241247?t=1h1m11s

https://www.sup.org/books/theory-and-philosophy/more-one-voice

https://habr.com/ru/articles/462527/

https://vkvideo.ru/video263467813_456251281?t=0s

10.

https://vkvideo.ru/video263467813_456251281?t=8m15s