Аттестационная работа (ИАР/ВАР) на тему Исследование алгоритмов распознавания речи
-
Оформление работы
-
Список литературы по ГОСТу
-
Соответствие методическим рекомендациям
-
И еще 16 требований ГОСТа,которые мы проверили
Скачать эту работу всего за 990 рублей
Ссылку для скачивания пришлем
на указанный адрес электронной почты
на обработку персональных данных
Содержание:
Содержание
Введение 3
1. Анализ основных алгоритмов распознавания речи 5
1.1 Обработка естественного языка (NLP) 5
1.2 Скрытая марковская модель 7
1.3 N-граммы 10
1.4 Нейронные сети 12
1.5 Диаризация говорящего 15
2. Анализ использования алгоритмов распознавания речи в современных системах и технологиях 16
3. Сравнительный анализ алгоритмов преобразования речевых сигналов 21
3.1 Мел-частотный кепстральный анализ 23
3.2 Кратковременный анализ 24
3.3.1 Нелинейное сопоставление с образцом 26
3.3.2. Векторное квантование 28
4. Выбор алгоритма распознавания речи 32
5. Использование особенностей речевого словаря 35
5.1 Классификация речевых словарей 35
5. 2 Предметная область и размер её словаря 39
5.3 Особенности использования речевого словаря 45
5.4 Построение системы распознавания речи 46
5.5 Особенности вычисления и применения перплексии 48
6. Разработка приложения распознавания речи 52
7. Оценка точности распознавания речи 52
Заключение 59
Список литературы 60
Приложение А 62
Введение:
Текст, написанный или напечатанный на бумаге, по-прежнему остается наиболее удобным, надежным и привычным средством хранения информации.
Этот документ представляет собой текст на бумаге, ведь, как гласит русская пословица, «Что пером написано, то и топором не вырубишь. Это правило действует во всех сферах – в делопроизводстве, в деловой сфере, в юридической и правоохранительной системе, в дипломатии и многих других. Речь, даже записанная с помощью различных устройств и сохраненная в виде аудиофайла, таким документом не является.
В повседневной жизни то же самое. Человек, услышав какую-то полезную информацию, спешил зафиксировать на бумаге, не надеясь на собственную память. Поэтому неудивительно, что попытки создания электронных устройств для подачи звуковых команд или преобразования речи в текст предпринимались еще в середине прошлого века. Первые устройства были примитивны и годились только для узкоспециализированных задач. Их уровень был явно ниже уровня собак, выполняющих команды своих хозяев.
Связь между человеком и первыми компьютерами была возможна только через клавиатуру. До сих пор таким основным инструментом остается клавиатура. Но с развитием компьютеров, с ростом их вычислительной мощности стали появляться новые технологии распознавания речи и новые программы на основе этих технологий. По словам авторов таких технологий, в них уже видны зачатки искусственного интеллекта. Человек сегодня может общаться с компьютером с помощью своего голоса (клавиатура также остается средством общения).
Современные компьютерные программы распознавания речи используются для следующих целей:
• создать текст голосовым вводом (текстовый диктант) или преобразовать аудио- или видеофайл в текст. Эта операция называется транскрипцией.
• для голосового поиска
• переводить с одного языка на другой
• использовать голосовые команды (управление компьютером голосовыми командами)
Преобразование речи в текст может быть выполнено вручную или автоматически. Ручная конвертация — самая простая, качественная и в то же время самая трудоемкая. При этом человек слушает продиктованный текст и печатает его на бумаге. Вы также можете прослушать ранее записанный звуковой файл для этой цели.
Существуют программы, предназначенные для облегчения ручного преобразования текста в речь, такие как Express Scribe, LossPlay, Transcriber-pro и другие.
К ручному преобразованию приходится прибегать, когда программы автоматического преобразования речи не справляются со своей задачей. Например, это может произойти в тех случаях, когда записанный текст, в виде медиафайла, некачественный, имеет посторонние шумы, музыку, когда одновременно говорят несколько человек и т.д.
Похоже, будущее за программами, способными автоматически распознавать речь и преобразовывать ее в текст. В последнее время это направление бурно развивается.
Обычно человек говорит быстрее, чем печатает. Поэтому использование программ распознавания речи позволяет повысить производительность создания текста в 3-4 раза.
Кроме того, возможность создавать текст с помощью голоса может быть лучшим способом для людей с ограниченными возможностями: для людей, испытывающих трудности с использованием клавиатуры
Заключение:
Таким образом, в ходе дипломного проектирования были исследованы основные алгоритмы в области распознавания речи. Были рассмотрены наиболее часто встречаемые методы и приемы, применяющиеся в реальных практических задачах и дающие относительно приемлемую точность. Большинство алгоритмов основано на применении скрытых марковских моделей. Именно этот алгоритм лежит в основе нашего разработанного программного решения. По результатам тестирования были достигнуты хорошие показатели точности и надежности разработанного продукта.
В разработанном приложении распознавание речи достигается комбинацией двух методов: скрытых марковских моделей и метода использования нейронных сетей. Марковские модели лежат в основе распознавания речи, но не обеспечивают должной точности. На помощь нам пришли предобученные нейронные сети, которые используются такими гигантами как Google, Microsoft и др. Для разработки нашего приложения нам потребовались эти предобученные модели, библиотека speech_recognition, которая является открытой библиотекой для языка программирования Python и библиотека pyaudio для работы с аудиофайлами и микрофоном устройства. Полный листинг разработанного приложения приведен в приложении А.
Фрагмент текста работы:
1. Анализ основных алгоритмов распознавания речи
1.1 Обработка естественного языка (NLP)
Обработка естественного языка (NLP) — это ветвь искусственного интеллекта, которая помогает компьютерам понимать, интерпретировать и манипулировать человеческим языком. НЛП опирается на многие дисциплины, включая информатику и компьютерную лингвистику, в своем стремлении заполнить пробел между человеческим общением и компьютерным пониманием.
Хотя обработка естественного языка не является новой наукой, технология быстро развивается благодаря повышенному интересу к общению человека с машиной, а также доступности больших данных, мощных вычислений и усовершенствованных алгоритмов.
Как человек, вы можете говорить и писать на английском, испанском или китайском языках. Но родной язык компьютера, известный как машинный код или машинный язык, по большей части непонятен большинству людей. На самых нижних уровнях вашего устройства общение происходит не словами, а посредством миллионов нулей и единиц, которые производят логические действия.
Действительно, программисты использовали перфокарты для связи с первыми компьютерами 70 лет назад. Этот ручной и трудный процесс был понят относительно небольшим числом людей. Теперь вы можете сказать: «Алекса, мне нравится эта песня», и устройство, воспроизводящее музыку в вашем доме, уменьшит громкость и ответит: «ОК. Рейтинг сохранен, — человеческим голосом. Затем он адаптирует свой алгоритм для воспроизведения этой песни и других подобных песен при следующем прослушивании этой музыкальной станции.
Давайте подробнее рассмотрим это взаимодействие. Ваше устройство активировалось, когда услышало, что вы говорите, поняло невысказанное намерение в комментарии, выполнило действие и предоставило ответ в правильно построенном предложении на английском языке, и все это в течение примерно пяти секунд. Полное взаимодействие стало возможным благодаря НЛП, наряду с другими элементами ИИ, такими как машинное обучение и глубокое обучение.
Например, Lenovo использует анализ голоса клиента, метод НЛП, для извлечения важных тенденций из отзывов клиентов во многих формах. Он объединяет и анализирует данные из электронных писем, опросов, форм гарантийных