Разработана компьютерная программа, распознающая любой язык

12:54 5.09.2012

Новая технология, которая позволяет компьютерам узнавать любой язык, выводит автоматическое распознавание речи на новый уровень

Если компьютеры будут приспособлены к распознаванию речи, то совсем скоро мы сможем подавать команды голосом, а не через клавиатуру. «Разговор» с мобильным телефоном уже никого не удивит. Но это – совсем не то же, что программа глобального распознавания любого языка на вашем ПК.

Технология может также использоваться для поиска файлов или фильмов в архивах в Интернете.

Достижение действительно хорошего распознавания речи является трудной задачей. Разговорный язык сильно отличается от письменного: кроме очевидных индивидуальных особенностей произношения, существует множество акцентов и, безусловно, есть различия в диалектах.

Все звучат одинаково

Благодаря финансированию Центра информационных и коммуникационных технологий под руководством Научно-исследовательского совета Норвегии профессор Торбьорн Свендсен из Норвежского университета науки и техники (NTNU) и его коллеги проводили испытания инновационного подхода к созданию технологии распознавания речи следующего поколения.

Норвежские исследователи доказали, что воспроизведение человеческой речи имеет один и тот же механизм на любом языке. Развиваемая технология будет применима к любому языку.

Ученые основывались на фонетике, т. е. на исследовании звуков человеческой речи. Они также включили в программу речь и «системы» нескольких языков, например, порядок слов в формировании предложений.

Метод, разработанный доктором Свендсеном и его коллегами, включает обучение компьютера способности определять, какие части речевых органов активизируются, основываясь на анализе давления звуковых волн, зарегистрированных микрофоном.

Машина учится узнавать звуки

До сих пор самыми распространенными были два разных подхода к системам распознавания речи. Оба основаны на использовании речевых данных и исходных текстов в обучении компьютера распознаванию определенного языка на основе отдельной базы.

При использовании первого подхода есть группа наблюдателей, которые исследуют слова и звуки и выводят общие правила, из которых создаются цифровые алгоритмы. Например, звонкий или глухой звук зависит от того, как вибрируют голосовые связки во время его воспроизведения.

«Если мы проанализируем маленький речевой сегмент и решим, что определенный произнесенный звук достигает максимума в резонансах 750 и 1200 Гц, тогда этот звук, вероятно, «а». Если максимумы будут располагаться в пределах 350 и 800 МГц, то это, вероятно, будет звук «u», – говорит профессор Свендсен.

Другой подход – обучение компьютера с помощью огромного количества типового материала.

«Первоначально машина думает, что все звуки практически одинаковы. Но в процессе «обучения» звуки дифференцируются в зависимости от диапазона частоты, – объясняет доктор Свендсен. – Этот подход позволяет нам обработать намного больше речевых данных, чем подход с использованием наблюдения. Человек может обработать конечное число данных».

Исследовательская группа разработала подход, который представляет собой что-то среднее между двумя традиционными техниками.

«Мы уверены в статистическом подходе, однако мы также должны рассмотреть паттерны предсказуемости, которые существуют в речи в реальном мире. Исследователи включают релевантную информацию об этом в систему и объединяют управляемое данными изучение и подход, основанный на правилах.

Речевые образцы отличаются из-за различий в физиологии, диалекте, образовании и здоровье людей. Все это влияет на голосовое воспроизведение и структуру предложений. Чтобы машина научилась понимать речь, она должна уметь различать наиболее распространенные вариации нормальной речи и языка.

Идентификация языка за несколько секунд

Следующий шаг для норвежских исследователей – разработать независимый от языка модуль для использования в проектировании конкурентоспособных продуктов распознавания речи.

«Решение позволит сэкономить огромное количество времени и денег. Это – важная технология для людей, которые являются частью малой языковой группы, такой как норвежцы. Есть колеблющееся число языков, на которых говорит всего несколько миллионов человек; для этого нам и нужна новая разработка», – говорит доктор Свендсен.

Технология распознавания языков довольно сильно ограничена в применении; данная разработка полезна только там, где одновременно используется несколько языков. Тестовой версии требуется около 30-60 секунд, чтобы идентифицировать язык. Это может быть полезно в случаях, где, например, человек делает презентацию на одном языке и при этом цитирует автора на другом.

Материалы предоставлены Научно-исследовательским советом Норвегии.

Разработана компьютерная программа, распознающая любой язык

Комментарии читателей Оставить комментарий