OpenAI анонсировала новый инструмент для клонирования звука на основе ИИ под названием Voice Engine. Хотя компания явно гордится потенциалом этой технологии, заявляя, что она может быть использована для помощи детям в чтении и для того, чтобы дать голос тем, кто его потерял, в OpenAI явно очень переживают по поводу того, как этим можно злоупотребить. И не без оснований.
Voice Engine, по сути, использует ту же технологию, что и API преобразования текста в речь и ChatGPT Voice, но в данном случае речь идет о клонировании голоса, а не о чтении вслух с чужой интонацией и интонацией. OpenAI отмечает, что ее технология уникальна тем, что для «создания эмоциональных и реалистичных голосов» ей достаточно 15-секундного образца.»
«Сегодня мы делимся предварительными данными и результатами небольшого предварительного тестирования модели под названием Voice Engine, которая использует текстовый ввод и один 15-секундный аудиообразец для генерации естественной речи, очень похожей на речь оригинального диктора»
- пишет компания
Неясно, какие учебные данные использовались при создании Voice Engine, что является больным местом для компаний, занимающихся разработкой искусственного интеллекта, которые обвиняются в нарушении законов об авторском праве, обучая свои модели на защищенных произведениях. Компании вроде OpenAI утверждают, что их методы обучения считаются «добросовестным использованием» в соответствии с американским законодательством об авторском праве, но ряд правообладателей подали в суд, утверждая, что не получили компенсации за свою работу.
На сайте OpenAI есть примеры аудиоклипов, которые были пропущены через Voice Engine, и они чертовски впечатляют. Возможность менять язык, на котором кто-то говорит, тоже очень крута. Но пока вы не можете попробовать это сами.
Уже существует множество инструментов для клонирования голоса, например ElevenLabs, и переводчиков, например Respeecher. Но OpenAI превратилась в гиганта с тех пор, как впервые публично представила ChatGPT в конце 2022 года. И как только она сделает Voice Engine общедоступным продуктом (о дате релиза пока ничего не известно), это может открыть шлюзы для всех видов новых злоупотреблений, о которых мы даже не мечтали.
В заявлении OpenAI отмечалось: «Мы осторожно и осознанно подходим к более широкому релизу из-за возможности злоупотребления синтетическим голосом», подчеркивая беспокойство, с которым сталкивается каждая крупная компания, использующая подобные технологии ИИ.
Один особенно тревожный пример использования искусственного интеллекта для клонирования голоса в неблаговидных целях произошел в начале этого года с использованием голоса президента Джо Байдена. Стив Крамер, работавший на другого кандидата в президенты от Демократической партии Дина Филлипса, клонировал голос Байдена, чтобы создать сообщение, в котором говорилось, что людям не стоит беспокоиться о том, чтобы голосовать на праймериз в Нью-Гэмпшире. Крамер использовал инструмент ElevenLabs AI voice tool и сделал его «менее чем за 30 минут», разослав робозвонок примерно 5 000 человек, говорится в сообщении Вашингтон Пост.
«Мы надеемся начать диалог об ответственном использовании синтетических голосов и о том, как общество может адаптироваться к этим новым возможностям. На основе этих разговоров и результатов небольших испытаний мы примем более взвешенное решение о том, стоит ли внедрять эту технологию в широких масштабах.»
- говорится в заявлении OpenAI
Это, конечно, обоюдоострый меч всех новых технологий. Аферисты всегда найдут способ использовать новые инструменты, чтобы выманить у людей их с трудом заработанные деньги. Но для мошенничества не обязательно использовать фальшивые голоса, сгенерированные искусственным интеллектом. Как мы сообщали ранее на этой неделе, в последней криптовалютной афере используются настоящие актеры, нанятые на Fiverr для чтения сценария, который помогает продать их аферу как подлинную.
Комментарии (0)