Автоматическая обработка звучащей речи

  • pptx
  • 30.04.2025
Публикация на сайте для учителей

Публикация педагогических разработок

Бесплатное участие. Свидетельство автора сразу.
Мгновенные 10 документов в портфолио.

Иконка файла материала Презентация Автоматическая обработка звучащей речи.pptx

Автоматическая обработка звучащей речи

ПРИКЛАДНАЯ
ФОНЕТИКА

Автоматический анализ речи

Процесс автоматического анализа речи включает следующие этапы:

1) ввод звучащей речи в компьютер с помощью микрофона.
2) выделение компьютерной программой в звуковом потоке отдельных знаков.
3) идентификация выделенных знаков звучащей речи со знаками языка. 

Задачей автоматического анализа звучащей речи при использовании спектрограмм становится перевод спектрограмм в фонологическую транскрипцию .

Включение семантического уровня в автоматический анализ речи приводит, в частности, к следующим последствиям:

1) машина устанавливает, что введенные предложения многозначны и правдоподобны;
2) машина прогнозирует, что в определенных речевых контекстах могут возникать определенные типы общения
3)в зависимости от такого прогнозируемого типа общения машина интерпретирует предложение

Можно назвать следующие примеры программ, в которых применяются средства автоматического анализа речи:
• программы голосового управления компьютером и бытовой техникой VoiceNavigator и Truffaldino (компания «Центр речевых технологий», С.-Петербург);
• комплекс голосового управления мобильным телефоном DiVo («Центр речевых технологий»);
• программный модуль Voice Key для идентификации личности по парольной фразе длительностью 3—5 секунд («Центр речевых технологий»);
• программы диктовки текста на английском языке: VoiceType Dictation (IBM), DragonDictate («Dragon Systems»); на русском языке: Комбат («Байт Груп») к Диктограф («Voice Member Technology)));
• система распознавания речи, встроенная в Microsoft Office ХР (работает только с английским языком);
• голосовой поиск (например, в поисковой системе Google).

ИСТОРИЯ СОЗДАНИЯ СИСТЕМ АВТОМАТЕЗИРОВАННГО СИНТЕЗА РЕЧИ

Первая система была создана только в 1952 году компанией Bell Laboratories (сегодня она входит в состав Lucent Technologies).
Первая коммерческая система была создана в 1960 году.
IBM объявила о разработке такой системы, но на рынок программа так и не вышла.
В 1970-х годах, авиакомпания Eastern Airlines в США установила дикторозависимую систему отправки бага­жа: оператор называл пункт назначе­ния — и багаж отправлялся в путь.

Что такое ССР ?

Системы автоматического распознавания речи (САРР) — это элемент процесса обработки речи, назначение которого — обеспечить удобный диалог между пользователем и машиной.
В широком понимании речь идет о системах, которые осуществляют фонемное декодирование речевого акустического сигнала при произношении речевых сообщений свободным стилем, произвольным диктором, без учета проблемной ориентации и ограничений на объем словаря. В узком смысле САРР облегчают решение частных задач, накладывая некоторые ограничения на требования к распознаванию естественно звучащей речи в классическом его понимании. 

Первое устройство для распознавания речи появилось в 1952 г., оно могло распознавать произнесённые человеком цифры.

В 1964 г. на ярмарке компьютерных технологий в Нью-Йорке было представлено устройство IBM Shoebox.

Коммерческие программы по распознаванию речи появились в начале 90-х годов. Обычно их используют люди, которые из-за травмы руки не в состоянии набирать большое количество текста.

На основе анализа существующих методов, можно сделать вывод о наличии следующих проблем в области синтеза речи:

1) искусственность речи;
2) отсутствие эмоциональной нагрузки;
3)низкая помехоустойчивость
синтезированной речи.

Программы для распознавания и синтеза звучащей речи

Dragon Naturally Speaking – это мировой лидер в программном обеспечении по распознаванию человеческой речи.
Sakrament TTS (Text-to-Speech) Engine – система нового поколения, осуществляющая качественный речевой синтез.
Sakrament ASR Engine – разработка компании «Сакрамент», осуществляющая высокоточное распознавание речи на различных платформах.