научно-популярное приложение к газете "Голос Армении"
Menu

НЕ ВЕРЬТЕ СВОИМ УШАМ

Воспроизведение человеческого голоса, со всеми его тембрами, интонациями и прочими нюансами, является исключительно трудной задачей даже для современных мощных компьютеров

Воспроизведение человеческого голоса, со всеми его тембрами, интонациями и прочими нюансами, является исключительно трудной задачей даже для современных мощных компьютеров. Когда мы слышим речь таких программ, как Siri, Alexa или GPS-навигатора, сразу становится ясно, что с нами говорит машина. Это происходит из-за того, что большинство систем синтеза речи основывается на библиотеках записанных ранее слов и фраз. И в результате работы таких систем получается скучная "механическая" речь, состоящая из часто повторяющихся выражений.

ДОСТАТОЧНО СЕРЬЕЗНЫМ ШАГОМ К УЛУЧШЕНИЮ КАЧЕСТВА РАБОТЫ СИНТЕЗАТОРОВ РЕЧИ может стать использование в них принципов искусственного интеллекта. Это весьма наглядно продемонстрировала компании Lyrebird из Монреаля, разработавшая новый речевой синтезатор, способный воспроизвести голос любого человека и даже добавить ему соответствующую эмоциональную окраску.

Как передает gizmodo.com, самым интересным является то, что для обучения голосу какого-либо человека системе Lyrebird требуется всего несколько десятков секунд аудиозаписей. Точное копирование особенностей голоса конкретного человека стало возможным благодаря использованию искусственных нейронных сетей, которые работают подобно естественным биологическим нейронным сетям мозга человека. По сути, алгоритм нейронной сети учится опознавать особенности речи конкретного человека, а затем эти же данные используются для синтеза искусственного голоса.

Как рассказал ведущий исследователь Хосе СОТЕЛО, ученые обучили свою программу на огромном наборе аудиоданных фрагментов выступлений тысяч различных людей. Полученная информация сжимается до вида компактного цифрового ключа, своего рода "голосовой ДНК". И на основе этого ключа система может воспроизводить любые слова и предложения, даже те, которые не были задействованы в процессе ее обучения.

В настоящее время работа системы Lyrebird еще очень далека от идеала, в воспроизводимой речи присутствуют "цифровые артефакты", имеются проблемы с разборчивостью и некоторые другие странности, которые иногда ставят под сомнение то, кому именно подражает сейчас синтезатор. Тем не менее все это работает сейчас в режиме реального времени, требует для обучения совсем небольшого количества исходных данных и, после соответствующих доработок, может превратиться в самый качественный речевой синтезатор на сегодняшний день.

САМО СОБОЙ РАЗУМЕЕТСЯ, ЧТО НАЛИЧИЕ СТОЛЬ СОВЕРШЕННОГО РЕЧЕВОГО синтезатора является источником ряда проблем этического плана и проблем с безопасностью. Если система позволит воспроизводить голос человека с точностью, не позволяющей отличить это от оригинала, то откроется широкое поле деятельности для недобросовестных людей, которые смогут шантажировать политических деятелей и других известных личностей. А хакеры смогут использовать такой синтезатор для обхода систем защиты, в которых используется технология голосовой идентификации.

Представители компании Lyrebird считают, что благодаря появлению нового речевого синтезатора время, когда можно было безоговорочно доверять различным аудиозаписям, заканчивается, как в свое время с появлением фотошопа нельзя стало доверять снимкам, демонстрируемым нам с экрана компьютера. При этом представители компании Lyrebird  признают, что вследствие высокого уровня развития современных технологий такой речевой синтезатор появился бы на свет рано или поздно. Для исключения возможности злонамеренного использования речевого синтеза ученые решили обнародовать все детали разработанной ими технологии. При этом они призывают начать постепенный отказ от принятия в качестве доказательств различных аудиозаписей, полученных в первую очередь из сомнительных источников.

Но не стоит отчаиваться. Даже при идеальном воспроизведении голоса человека остается несколько возможностей отличить фальшивую аудиозапись от оригинала. Существует множество аспектов, таких, как отсутствие фоновых шумов, несоответствующие или искусственно введенные фоновые шумы, присутствие фальшивого "акустического пространства" и многое другое, что можно выделить из аудиозаписи и по чему можно судить о ее достоверности. К сожалению, такой анализ возможен сейчас только при наличии специального оборудования, имеющегося далеко не везде. Но с учетом темпов развития современной вычислительной техники с подобной задачей в недалеком будущем сможет справиться и обычный компьютер, снабженный специализированным программным обеспечением.

Опубликовано в Техника
Прочитано 63 раз
Оцените материал
(0 голосов)
Другие материалы в этой категории: « НЕБОСКРЕБЫ В СХВАТКЕ С ВЕТРОМ

Оставить комментарий

Убедитесь, что вы вводите (*) необходимую информацию, где нужно
HTML-коды запрещены

Наверх