Microsoft создает машинный переводчик, сохраняющий голос пользователя
Исследователи из лабораторий Microsoft создали технологию, которая может изучить то, как звучит чей-либо голос, а затем использовать его при синтезе иностранной или родной речи. Система может применяться в создании более персонализированного ПО для изучения иностранного языка или же при создании специальных устройств для автоматического перевода речи путешественников, сообщает 3dnews.ru.
Во время недавней демонстрации в редмондском кампусе Microsoft исследователь компании Фрэнк Сунг (Frank Soong) показал, что его технология может читать на испанском с помощью голоса его босса Рика Рашида (Rick Rashid), который возглавляет исследовательские проекты Microsoft. Во втором примере господин Сунг использовал своё ПО для того, чтобы дать директору по исследованиям и стратегии корпорации Microsoft Крейг Манди (Craig Mundie) возможность заговорить на китайском.
Фрэнк Сунг, разработавший технологию вместе с коллегами из Microsoft Research Asia в Пекине, полагает, что для изобретения можно найти несколько применений. «Для одноязычного путешественника, посещающего чужую страну, мы сможем сделать распознавание речи, последующий перевод и затем звуковой вывод её на другом языке, но с сохранением его собственного голоса», — сказал он.
По мнению исследователя, технология также может быть использована для помощи студентам в изучении иностранного языка. Образцы иностранной речи, произнесённые собственным голосом, могут не только служить неким ободрением, но позволят проще повторять иностранные фразы.
Применяться технология может и в любых других вариантах, предполагающих синтез речи. Система нуждается примерно в часе обучения для разработки модели чтения любого текста голосом отдельного человека. Записанные образцы звуков тщательно изучаются автоматикой, и при синтезе речи на иностранном языке она подстраивается под нужный голос.
В настоящее время этот подход позволяет, по словам создателей, осуществлять преобразование между любыми двумя языками из 26 поддерживаемых. Качество такого преобразования, конечно, может заметно страдать, но в перспективе технология призвана серьёзно упростить общение носителей различных языков.