Автоматический почти синхронный голосовой перевод с одного языка на другой стал реальностью: Microsoft Research продемонстрировала перевод с английского на путунхуа с задержкой в несколько секунд, в котором сам вариант на путунхуа звучал в вокальной манере оригинала. Директор Microsoft по разработкам Рик Рашид провёл презентацию технологии в Тяньцзине 25 октября, но известно об этом стало почему-то лишь сейчас.
Рашид произнёс всего восемь английских фраз в микрофон системы распознавания, перевода и генерации речи. Две тысячи студентов и учёных были явно поражены результатом (мотайте видео до 7:30), пишет Компьюлента.
Утверждается, что это результат нововведений на всех стадиях процесса. ПО вроде Dragon Naturally Speaking компании Nuance уже совершило тихую революцию в области распознавания речи. И теперь продукты, основанные на этой технологии, доступны широкой публике в виде приложения Siri для iPhone или голосового интерфейса игрового контроллера Kinect.
Хотя подобные системы часто ошибаются (по словам Рашида, неправильно интерпретируется каждое четвёртоепятое слово), сегодняшние намного лучше вчерашних. Microsoft применила новую систему машинного обучения на основе искусственных нейронных сетей, которая сокращает непонимание до каждого седьмоговосьмого слова. А это значит, что программа-переводчик Bing Translate выдаст генератору речи более точный текст.
Но самое большое достижение — это, конечно, генерация речи с сохранением модуляций голоса говорящего. Собеседникам будет легче друг друга понять, и тем самым общение станет эффективнее. Рашид битый час общался с машиной, прежде чем она усвоила все нюансы его разговорной манеры. Надо признать, что новая система оставила технологию Dragon Naturally Speaking далеко позади.
"Ещё несколько лет, — сказал собравшимся Рашид, — и мы сломаем языковые барьеры между народами".