Информационные технологии в лингвистике Курсовая с практикой Информатика

Курсовая с практикой на тему Методы выделения именных групп

  • Оформление работы
  • Список литературы по ГОСТу
  • Соответствие методическим рекомендациям
  • И еще 16 требований ГОСТа,
    которые мы проверили
Нажимая на кнопку, я даю согласие
на обработку персональных данных
Фрагмент работы для ознакомления
 

Содержание:

 

ВВЕДЕНИЕ 2
ГЛАВА 1. СПЕЦИФИКА ИЗВЛЕЧЕНИЯ ИНФОРМАЦИИ В КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ 5
1.1. Особенности извлечения информации в компьютерной лингвистике 5
1.2. Методы образования корпусов именных групп 13
Выводы по 1 главе 21

ГЛАВА 2. ОСОБЕННОСТИ СОЗДАНИЯ ИМЕННЫХ ГРУПП 22
2.1. Понятие именной группы в компьютерной лингвистике 22
2.2. Способы извлечения именных групп из текстов 25
Выводы по 2 главе 30

ЗАКЛЮЧЕНИЕ 31

СПИСОК ЛИТЕРАТУРЫ 32
Приложение 1 34
ОТЧЁТ О ПРОВЕРКЕ НА ПЛАГИАТ………………………………………

РЕЦЕНЗИЯ………………………………………………………………….

 

  

Введение:

 

Задача автоматического извлечения информации заключается в отображении некоторых фрагментов текста на естественном языке в определенную структуру (модель), состоящую из объектов и связей между ними. В качестве примеров можно привести задачи извлечения именованных сущностей, терминов, ключевых слов, фактов, автоматическое составление пресс-портретов, авторефератов и др. Любая задача по извлечению информации предполагает:
(1) наличие определенной структуры (модели), с элементами которой будут сопоставляться найденные фрагменты текста;
(2) решение задачи сегментации, то есть выделения текстовых фрагментов, соответствующих элементам заданной структуры;
(3) наличие правил сопоставления или интерпретации, то есть способа интерпретации выделенных фрагментов текста в знания, представляемые в определенной модели. Сюда же относится задача нормализации, то есть приведения текстовых фрагментов к стандартному виду, например, к канонической форме, к стандартному представлению дат и т.п.
Область теории формального языка, инициированная Ноамом Хомским в 1950-х годах и основанная на более ранних работах Акселя Туа, Алана Тьюринга и Эмиля Поста, обеспечивает основу лингвистических теорий, которая устанавливает минимальный предел описательной адекватности. Хомский предложил ряд массивных упрощений и абстракций к эмпирической области естественного языка.
В частности, этот подход полностью игнорирует семантику. Кроме того, все вопросы, касающиеся использования выражений, таких как их частота, зависимость от контекста и сложность обработки, не учитываются. Наконец, предполагается, что шаблоны, которые являются производительными для коротких строк, применяются к строкам произвольной длины неограниченным образом. Огромный успех этой структуры — влияющей не только на лингвистику по сей день, но и на теоретическую информатику и, в последнее время, на молекулярную биологию — предполагает, что эти абстракции были выбраны правильно, сохраняя существенные аспекты структуры естественных языков.
Выражение в смысле формальной структуры языка — это просто конечная строка символов, и формальный язык, который представляет собой набор таких строк. Теория исследует математические и вычислительные свойства таких множеств. Начнем с того, что формальные языки организованы во вложенную иерархию возрастающей сложности.
В своей классической формулировке эта так называемая иерархия Хомского имеет четыре уровня возрастающей сложности: регулярные, контекстно-свободные, контекстно-зависимые и вычислимо перечислимые языки. Последующая работа в области формальной лингвистики показала, что это четверичное различие слишком грубое, чтобы определить уровень сложности естественных языков в этой области.
Поэтому было предложено несколько уточнений. Особое значение здесь имеют уровни, расширяющие класс контекстно-свободных языков — так называемых языков с умеренным контекстом — и те, которые дополнительно разграничивают обычные языки — субрегулярная иерархия.
Этот подход в последующих исследованиях был умело продолжен большим количеством исследований, которые сформировали метод структуризации материала в компьютерной лингвистике. Данная работа будет посвящена выделению метода именных групп.
Цель данной работы – рассмотреть характерные свойства четырех классических уровней иерархии Хомского и их значимость для анализа естественных языков. В соответствии с целью необходимо решить ряд задач:
1. Проанализировать особенности структуры
2. Описать особенности реализации структуры в языках
3. Выявить специфику структуры в зависимости от типа языка
4. Рассмотреть, каким образом реализуется именная группа
Объект работы – структура именной группы. Предмет работы – особенности выделения именной группы на основе различных методов.
Методы исследования – анализ и синтез материалов, классификация и систематизация данных, метод компьютерной обработки текста.

Не хочешь рисковать и сдавать то, что уже сдавалось?!
Закажи оригинальную работу - это недорого!

Заключение:

 

Понятие иерархичности сложного формального языка, как в отношении иерархии Хомского, так и в отношении субрегулярных иерархий, является важным инструментом в экспериментах AGL. При планировании экспериментов они обеспечивают способ формулирования значимых, проверяемых гипотез, выявления соответствующих классов шаблонов, поиска минимальных пар языков, которые различают эти классы, и построения наборов стимулов, которые разрешают границы этих языков.
При интерпретации результатов экспериментов свойства классов сложности обеспечивают средство идентификации шаблона, к которому относится субъект, класс шаблонов, расширение субъекта, и, в конечном счете, средство идентификации этих признаков стимула, к которому применяются когнитивные механизмы.
Хотя некоторые различия между классами являются тонкими, а некоторые из анализов деликатными, существуют эффективные методы их различения, которые, как правило, несложно применять, и диапазон характеристик классов предоставляет множество инструментов, которые можно использовать при этом. Что еще более важно, возможности, выделяемые этими классами, весьма вероятно, будут важны при решении проблем, которые большая часть этого исследования предназначена для изучения.
Наконец, полностью абстрактные характеристики языковых классов, подобно многим из тех, что мы здесь представили, предоставляют информацию о характеристиках механизма обработки, которые обязательно разделяются всеми механизмами, способными распознавать языки в этих классах. Это обеспечивает основу для однозначных результатов о когнитивных механизмах распознавания образов.

 

Фрагмент текста работы:

 

ГЛАВА 1. СПЕЦИФИКА ИЗВЛЕЧЕНИЯ ИНФОРМАЦИИ В КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ

1.1. Особенности извлечения информации в компьютерной лингвистике

Формальный язык в представлении Н. Хомского — это набор последовательностей или строк в некотором конечном словаре S. При применении к естественным языкам словарь обычно отождествляется со словами, морфемами или звуками. Формальный язык представляет собой набор математических и алгоритмических инструментов необходимых для определения формальных языков конечными средствами, и для их математической обработки. Важно помнить, что ФЯ не связан ни со значениями строк, ни с количественными / статистическими аспектами, такими как частота или вероятность строк. Это никоим образом не говорит о том, что эти аспекты не важны для анализа наборов строк в реальном мире — это просто не то, чем традиционно занимается формальный язык.
Более того, формальный язык имеет дело с небольшими языками (¼ множествами строк), которые могут быть определены конечными средствами, даже если сам язык бесконечен. Стандартный способ дать такое конечное описание — грамматика. Для определения грамматики необходимо указать четыре вещи: конечный словарь символов (называемых терминалами), которые появляются в строках языка; второй конечный словарь дополнительных символов, называемый нетерминалами; специальный обозначенный нетерминал, называемый начальным символом; и конечный набор правил [4, c. 47].
Класс всех языков, которые могут быть определены некоторой формальной грамматикой, называется вычислимо перечислимым. Это может показать, что любой вид формальной алгоритмической процедуры, которая может быть точно определена, также может быть выражен некоторой грамматикой — будь то правила игры в шахматы, логика или манипуляции с памятью компьютерной программы. Фактически любой язык, который может быть определен машиной Тьюринга (или эквивалентным устройством), вычислимо перечислим, и наоборот.
Все вычислимо перечислимые языки полуразрешимы. Это означает, что существует машина Тьюринга, которая принимает строку w в качестве входных данных и выводит ответ «да» тогда и только тогда, когда w генерируется G. Если w не генерируется G, то машина либо выводит другой ответ, либо работает вечно.
Примерами языков с этим свойством являются набор компьютерных программ, которые останавливаются после конечного числа шагов, или набор доказуемых утверждений логики первого порядка. Машина Тьюринга может систематически перечислять все доказательства теорем одно за другим; если последняя строка доказательства равна рассматриваемой строке: выведите «да»; в противном случае переходите к следующему доказательству.
Контекстно-зависимые грамматики — это те грамматики, в которых левая часть каждого правила (a) никогда не длиннее правой части (b). Контекстно-зависимые языки — это языки, которые могут быть определены некоторой контекстно-зависимой грамматикой. Определение этого класса грамматик немедленно обеспечивает процедуру решения проблемы членства. Начиная с рассматриваемой строки w, существует множество способов применения правил к ней в обратном направлении. Ни одна из полученных строк не длиннее w. Повторение этой процедуры приводит либо к более коротким строкам, либо к циклу, который не требует дальнейшего рассмотрения. Таким образом, за конечное время можно решить, выводится ли w из S.
Хотя вопрос о том, генерируется ли данная строка w заданной контекстно-зависимой грамматикой G, в принципе решаем, вычисление этого ответа может быть алгоритмически настолько сложным, что для практических целей непригодно [5, c. 49].
Следует отметить, что существуют разрешимые языки, не зависящие от контекста (даже если они не имеют практической значимости в связи с естественными языками).

Важно! Это только фрагмент работы для ознакомления
Скачайте архив со всеми файлами работы с помощью формы в начале страницы

Похожие работы