Компания ElevenLabs, ставшая одним из лидеров по созданию достаточно реалистичных визуальных подделок, теперь может клонировать ваш голос и заставлять его говорить на все большем количестве языков. Во вторник компания ElevenLabs объявила, что ее новая система клонирования голоса теперь поддерживает на 22 языка больше, чем раньше, включая украинский, корейский, шведский, арабский и другие языки.
По данным ElevenLabs, новая модель Multilingual v2 обещает, что она может воспроизводить «эмоционально насыщенный» звук в общей сложности на 30 языках. Компания предлагает два голосовых AI-инструмента, один из которых представляет собой модель преобразования текста в речь, а другой – «VoiceLab», позволяющий платным пользователям клонировать голос, вводя в модель фрагменты своей (или чужой) речи для создания своеобразного голосового конуса. В модели v2 пользователи могут заставить эти сгенерированные голоса начать говорить на греческом, малайском или турецком языках.
Пользователям достаточно набрать текст на языке, на котором он написан, чтобы услышать переведенный голос, и он должен работать с любым голосовым клоном, созданным компанией или пользователями. Поскольку я в основном говорю по-русски, мне трудно оценить, насколько хорошо каждый голос с акцентом представляет каждый язык, но речь не торопится казаться естественной, иногда делая паузы между предложениями и цитатами.
Платформа ElevenLabs уже не раз вызывала споры после своего запуска в прошлом году. На первоначальной бета-версии платформы пользователи использовали ее для пародирования знаменитостей заставляя их произносить расистские, женоненавистнические и трансфобные сценарии. С тех пор ElevenLabs утверждает, что в систему были внедрены новые меры, гарантирующие, что пользователи смогут клонировать только свой собственный голос. Пользователям необходимо подтвердить свою речь с помощью текстовой капчи, которая затем сравнивается с оригинальным образцом голоса.
Соучредитель компании, бывший руководитель компании Мати Станишевски (Mati Staniszewski), заявил в своем релизе: «В конечном итоге мы надеемся охватить еще больше языков и голосов с помощью искусственного интеллекта и устранить языковые барьеры для контента».
Компания ElevenLabs рекламирует свою технологию клонирования голоса как способ создания аудиокниг, видеороликов и даже озвучивания NPC в видеоиграх. Компания заключила соглашение с Paradox Interactive, издателем таких игр, как серия Hearts of Iron и готовящаяся к выходу The Lamplighters League.
На книжном фронте такие технологические гиганты, как Google и Apple, пытаются продвигать аудиокниги, озвученные искусственным интеллектом. Для озвучивания некоторых материалов используются простые имена вроде «Арчи» и «Уоррен». Те, кто слушает аудиокниги, отмечают, что эти голоса – за неимением лучшего термина – безжизненные, сравнимые с голосами профессиональных актеров, которые действительно могут выразительно прочитать текст.
Однако компания ElevenLabs утверждает, что голоса ИИ могут сэкономить издательским компаниям время и деньги при создании аудиокниг. В своем блоге компания сообщила, что она работала с Lukeman Literary, литературным агентством и небольшой инди-издательской компанией, над отладкой процесса обработки аудиокниг. Компания утверждает, что раньше на создание одной аудиокниги у агентств уходили «недели», а с помощью искусственного интеллекта этот процесс сократился до нескольких часов.
Компания Lukeman Literary наряду с другими художественными произведениями помогала издавать книги таких известных общественных деятелей, как Рутгер Хауэр и Далай-лама. Агентство и издательское подразделение являются разными, поэтому планов по переводу представленных агентством изданий на искусственный интеллект нет. Тем не менее, что касается его издательского бизнеса, то, по его словам, он никогда не использовал искусственный интеллект в качестве диктора, поскольку «качество» не было на высоте, но после тестирования возможностей ElevenLabs он сказал, что «наконец-то впечатлен» настолько, что может использовать его. Он также отметил, что «искусственный интеллект – это находка» для независимых писателей, поскольку он гораздо дешевле, чем озвучивание человеком.
Несмотря на то, что Люкман заявил, что искусственный голос наконец-то достаточно хорош для прайм-тайма, он согласился с тем, что искусственный интеллект «определенно создаст проблемы» для актеров озвучивания, но предположил, что «некоторые» авторы и издатели все равно захотят, чтобы аудиокниги озвучивал настоящий человек.
Также существует возможность лицензирования голосов, хотя «большой вопрос заключается в том, насколько распространенной будет такая работа, какой объем новых доходов она может принести и приведет ли это в конечном итоге к потере или увеличению доходов дикторов», – сказал он.
Независимо от того, смогут ли актеры озвучивания в конечном итоге лицензировать свой голос для ИИ за вознаграждение, такого рода соглашения все еще чужды издательской индустрии, которая работает с ИИ. Поскольку забастовка все еще продолжается, возможно, потребуется время, чтобы узнать, как актеры в целом реагируют на индустрию, которая ищет способ заработать на тренде аудиокниг, но без реального человеческого голоса.
Комментарии (0)