Автоматизированная обработка текстовых массивов Курсовая теория Педагогика/Психология

Курсовая теория на тему Алгоритмы частеречной разметки

  • Оформление работы
  • Список литературы по ГОСТу
  • Соответствие методическим рекомендациям
  • И еще 16 требований ГОСТа,
    которые мы проверили
Нажимая на кнопку, я даю согласие
на обработку персональных данных
 

Содержание:

 

Введение………………………………………………………………………….

Глава 1. Теоретические аспекты проведения частеречной разметки

текста……………………………………………………………………………………………………..

1.1 Предобработка текста как обязательный этап для осуществления
дальнейшей разметки………………………………………………………………………..

1.2 Частеречная разметка и алгоритмы ее проведения …………………………..

1.3 Типы тегов, используемые при частеречной разметке……………………….

1.4 Библиотеки и обучающие корпусы для проведения частеречной разметки

Выводы по первой главе……………………………………………………………

Глава 2. Проведение сравнительного анализа частеречной разметки в

программах Mystem и PyMorthy2…….. …………………………………

Выводы по второй главе……………………………………………………………

Заключение………………………………………………………………………….

Список использованной литературы……………………………………………..

 

  

Введение:

 

Частеречная разметка (автоматическая морфологическая разметка, POS
tagging, part-of-speech tagging) — этап автоматической обработки текста,
задачей которого является определение части речи и грамматических характеристик
слов в тексте (корпусе) с приписыванием им соответствующих тегов. POS tagging
является одним из первых этапов компьютерного анализа текста.

Знание того, какая часть речи у того или иного слова — существительное,
глагол или прилагательное — обычно улучшает качество результатов постобработки.
Например, наличие этой информации поможет вам определить важные ключевые слова,
которые встречаются в вашем документе.

В зарубежной терминологии употребляется термин part-of-speech tagging
(POS-tagging), буквально — разметка части речи. Фактически морфологические
признаки включают в себя не только характеристики части речи, но и
характеристики грамматических категорий, присущих этой части речи. Это основной
тип разметки: с одной стороны, самые большие корпуса — это только корпуса с
морфологическими обозначениями, с другой стороны, морфологический анализ
рассматривается как основа для новых форм анализа — синтаксического и
семантического, и, в-третьих, прогресс в компьютерной морфологии позволяет
автоматически отмечать большие размеры корпуса.[1]

Актуальность данной работы заключается в том, что за счет
стремительного роста количества цифровой информации требуется ее обработка и
анализ. Именно поэтому многие существующие алгоритмы обработки естественного языка
(такие как информационный поиск или машинный перевод) требуют на предварительном
этапе произвести частеречную разметку текста.

Теоритическая и практическая значимость данной курсовой работы заключается
в том, что материалы исследования могут быть использованы в качестве
специальных курсов, в качестве опорного материала для написания статей,
курсовых и дипломных работ по дисциплине «Автоматизированная обработка
текстовых массивов».

Объект исследования: корпусная лингвистика, ее основы

Предмет исследования: частеречная разметка текста

Цель курсовой работы – Изучить теоретические аспекты проведения
частеречной разметки текста и провести сравнительный анализ частеречной
разметки в программах Mystem и PyMorthy2

В соответствии с целями были поставлены задачи:

1.      Исследовать предобработку
текста как обязательный этап для осуществления дальнейшей разметки

2.      Проанализировать частеречную
разметку и алгоритмы ее проведения

3.      Рассмотреть типы тегов,
используемые при частеречной разметке

Методы исследования: в данном исследования были использованы
такие методы исследования, как анализ и синтез

Структура работы: Данная курсовая работа состоит из введения,
двух глав, заключения и списка использованных источников.

 

 

 



[1]
Общие понятия корпусной
лингвистики, Электронный ресурс.
URL //
https://vuzlit.ru/910625/obschie_ponyatiya_korpusnoy_lingvistiki.
Дата обращения 01.11.2020

Не хочешь рисковать и сдавать то, что уже сдавалось?!
Закажи оригинальную работу - это недорого!

Фрагмент текста работы:

 

Глава 1. Теоретические аспекты проведения частеречной
разметки текста

 

1.1          
Предобработка
текста как обязательный этап для осуществления дальнейшей разметки

 

Как известно, в основе деления на грамматические
классы в европейских языках издавна лежит аристотелевская классификация,
которая выделяет четыре грамматических класса: имя, глагол, местоимение и союз.
В качестве отправной точки для многочисленных классификаций собственная система
частей языка Аристотеля не осталась неизменной. Так, в частности, в английском
языке 17 века уже существовало девять грамматических классов: помимо имени,
глагола, местоимения и союза в отдельный грамматический класс были выделены
прилагательное, причастие, числительное, наречие и артикль.

Достаточно указать на различение слов исчисляемых и неисчисляемых (у Б.
Джонсона), падежных и беспадежных (у Ч. Батлера), склоняемых и несклоняемых (у
В. Буллокара)[1]

Согласно традиционной классификации, термин «части речи» обозначает
структурно-семантические или лексико-грамматические категории слов,
ограниченные выражаемыми ими значениями, присущими им морфологическими
особенностями и грамматическими категориями, типами форм и словообразованием,
их синтаксическими функциями как части предложения[2].

В основе этой классификации — три принципа: семантический (значение),
морфологический (форма) и синтаксический (функция). Семантический принцип
учитывает, что части речи — это слова (а не отдельные их формы), которые имеют
определенное лексико-грамматическое (категориальное) значение. В соответствии с
этим принципом в разряд глаголов объединяются слова с обобщенным значением
действия, процесса. Морфологический принцип концентрирует внимание на
морфологическом облике слова, на системе его грамматических категорий и форм,
иначе говоря, выявляет морфологическое своеобразие каждого слова данной части
речи. Так, глагол характеризуется многообразием категорий, что определяет
специфику его грамматических форм. Синтаксический принцип предполагает при
определении частей речи исходить из того, что каждая часть речи характеризуется
совершенно определенной основной функцией в предложении и грамматической
сочетаемостью со словами других разрядов.

Токенизация – процесс разбиения текста на текстовые единицы, например,
слова или предложения. В случае разбиений на предложения задача кажется
тривиальной, нужно просто найти точку, вопросительный или восклицательный знак.
Но в русском языке существует сокращения, в которых есть точка, например,
к.т.н. – кандидат технических наук или т.е. – то есть. Поэтому такой путь может
привести к ошибкам. К счастью, Python-библиотека NLTK позволяет избежать этой
проблемы.

Иногда одних слов в тексте больше, чем других, к тому же они встречаются
почти в каждом предложении и не несут большой информативной нагрузки. Такие
слова являются шумом для последующего глубокого обучения (Deep Learning) и
называются стоп-словами. Библиотека NLTK также имеет список стоп-слов, который
предварительно необходимо скачать.



[1] Иофик Л. Л., Чахоян Л. П.
Хрестоматия по теоретической грамматике английского языка (на англ. яз.). Л.,
1972

[2] Современный русский язык / Под
ред. Д. Э. Розенталя. М., 1984. С. 249.

Важно! Это только фрагмент работы для ознакомления
Скачайте архив со всеми файлами работы с помощью формы в начале страницы