Meta создала ИИ для перевода десятков языков с помощью речи и текста

Компания Meta сделала шаг к созданию универсального языкового переводчика, выпустив новую модель искусственного интеллекта Seamless M4T, которая, по словам компании, способна быстро и эффективно понимать речь или текст на 100 языках и генерировать перевод в любом из способов коммуникации. За последние месяцы несколько технологических компаний выпустили аналогичные усовершенствованные модели искусственного интеллекта для перевода.

Meta описывает свою новую систему перевода как «первую универсальную мультимодальную и многоязычную модель перевода с помощью искусственного интеллекта», способную распознавать речь и переводить ее в текст почти для 100 различных языков. Модель также может интерпретировать речь и текст и выдавать переведенные слова для 36 языков. Сообщается, что Seamless M4T также может понимать, когда пользователь меняет язык в середине предложения, что может помочь при использовании модели для перевода людей, которые смешивают части языков в своей речи, что исследователи языка называют кодовым переключением.

«SeamlessM4T – это единая многоязычная модель, то есть она не опирается на промежуточные модели для получения результатов. В других каскадных системах для устного перевода это часто происходит: распознавание речи, перевод текста, генерация текста в речь. SeamlessM4T делает это за один раз.»
- научный руководитель Meta Research Пако Гусман (Paco Guzmán).

В демонстрационном видеоролике Гусман произнес фразу «Наша цель – создать более связанный мир». Модель быстро определила, что речь идет об английском языке, и перевела ее на русский. Компьютерный русский голос произнес фразу более-менее человеческим тембром.

В отличие от других моделей перевода SeamlessM4T использует единую систему, что, по мнению Meta, в конечном итоге приведет к сокращению ошибок и задержек. Мета сравнила этот подход с универсальным переводчиком Babel fish из «Путеводителя автостопщика по Галактике».

Meta выпускает Seamless M4TT под лицензией Creative Commons, чтобы другие переводчики и исследователи искусственного интеллекта могли использовать его в своей работе. Компания также публикует метаданные SeamlessAlign, содержащие более 270 000 часов обработанной речи и текста. Meta утверждает, что это самый большой набор данных такого рода.

Сечинов Михаил Эксперт по компьютерному железу

Один из основателей проекта ITShaman.ru. Я люблю компьютерное железо. Люблю Intel, но дома и на работе использую AMD. Из-за этого много экспериментирую и тестирую.

Похожие статьи

Комментарии (0)