Курсовая с практикой Иностранные языки Языкознание

Курсовая с практикой на тему Автоматическая обработка текстов

  • Оформление работы
  • Список литературы по ГОСТу
  • Соответствие методическим рекомендациям
  • И еще 16 требований ГОСТа,
    которые мы проверили
Нажимая на кнопку, я даю согласие
на обработку персональных данных
Фрагмент работы для ознакомления
 

Содержание:

 

Введение 3
Глава 1. Истоки компьютерной лингвистики и автоматической обработки текстов 5
1.1 Понятие компьютерной лингвистики 5
1.2 Автоматические способы обработки текстов 8
Глава 2 Проблемы автоматической обработки текстов 18
2.1 Трудности в работе систем обработки естественного языка и основные методы их решения 18
2.2 Автоматический перевод 24
Заключение 30
Список литературы 33

  

Введение:

 

Актуальность работы. В настоящее время основными проблемами лингвистики являются изучение лексики и семантики, а также быстрый автоматизированный перевод. К середине XX века, беспрерывный рост объемов производимой информации сделал крайне актуальными задачи поиска информации в огромных объемах данных, ее выбора и упорядочения по тем или иным признакам. В данных исследованиях невозможно обойтись без работы со словарями, энциклопедиями, архивами. Но, к сожалению, у учёных не всегда существует возможность доступа к необходимым информационным ресурсам. Помочь в этом современным лингвистам может такая отрасль науки, как компьютерная, прикладная лингвистика, которая занимается созданием разнообразных систем по обработке естественного языка. Но эта обработка невозможна без наличия лингвистических информационных ресурсов.
Появление вычислительной техники способствовало в 1960-е гг. созданию различных теорий в области лингвистики и представления знаний (Ю.Д. Апресян, М. Мински, Д.А. Поспелов, Р. Шенк, И. Уилкс, В.А. Звягинцев, Т. Виноград, А.К. Жолковский, Ч. Филмор и др.), развитию методов автоматической обработки текста.
В последние десятилетия появилось множество систем автоматической обработки текста, предназначенных для решения отдельных или небольшого набора задач. В связи с вышеизложенным, наиболее актуальным вопросом в современной прикладной лингвистике являются методы и анализ автоматической обработки текстов.
Объектом исследования является сам процесс автоматической обработки текстов.
Предметом исследования являются трудности в работе систем автоматической обработки текстов.
Целью данной курсовой работы является рассмотрение основных методов решения трудностей в работе систем обработки естественного языка.
Достижение поставленной цели предполагает решение следующих задач:
— рассмотреть понятия «компьютерная лингвистика» и «автоматическая обработка текстов»;
— проанализировать современные методы автоматической обработки текста;
— рассмотреть возникающие трудности систем в процессе автоматической обработки текстов;
— проанализировать тональность текстов в процессе автоматической обработки текстов.
Теоретико-методологической базой для дипломной работы послужили труды Е.И Большаковой, Э.С. Клышинского, Д.В. Ландэ, А.А. Носкова, О.В. Песковой, Е.В. Ягуновой, И.С. Николаева, О.В. Митрениной, Т.М. Ландо, А.В. Луканина, Р.Г. Пиотровского и других.
В работе использовались такие методы и приемы анализа как логический, дискурсивный, метод корпусной лингвистики.
Теоретическая значимость работы состоит в том, что полученные в ходе исследования выводы вносят определённый вклад в развитие компьютерной и корпусной лингвистики.
Структура работы. Курсовая работа состоит из введения, 2 глав, заключения и списка литературы.

Не хочешь рисковать и сдавать то, что уже сдавалось?!
Закажи оригинальную работу - это недорого!

Заключение:

 

Компьютерная лингвистика — это область знаний, связанная c решением задач автоматической обработки информации, представленной на естественном языке. Центральными научными проблемами компьютерной лингвистики является проблема моделирования процесса понимания смысла текстов (перехода от текста к формализованного представлением его смысла) и проблема синтеза речи (перехода от формализованного представления смысла к текстам на естественном языке).
Перед компьютерной лингвистикой стоят, прежде всего, задачи лингвистического обеспечения процессов сбора, накопления, обработки и поиска информации. К лингвистическим процессорам, как правило, относят автоматизированные системы обработки текстовой и речевой информации
При создании автоматизированных информационных систем возникает широкий круг проблем, связанных с программным, информационным, техническим и лингвистическим обеспечением системы. Под лингвистическим обеспечением системы понимается комплекс мероприятий, связанных с разработкой, ведением и использованием лингвистических средств, и сами эти средства. К лингвистических средств АИС принадлежат собственно языковые средства и процедуры обработки текстовой информации. Языковыми средствами АИС является естественный язык и ее производная — формализованный язык.
Автоматизированные информационные системы (АИС) и системы управления базами данных (СУБД). Автоматизированные информационные системы используют для автоматизации процессов накопления, обработки и поиска информации. Существуют два типа АИС: документальные и фактографические. Разница между ними заключается в том, что документальные системы сохраняют и обрабатывают обобщенные сведения о научно-технические документы, такие как библиографические описания, рефераты, а фактографические системы — сведения о признаках о объектов любой другой природы.
Возможность обработки большого количества информации с помощью компьютера существенно изменила не только процесс создания и издания словарей, но и само понятие «словарь», поскольку рядом со словарем бумажным появляется электронный словарь. На основе традиционных, заключенных собственноручно словарей с помощью компьютера можно создавать словари новых типов, содержащих качественно новую информацию о языковых объекты и были бы источником для дальнейших лингвистических исследований.
Разделяют машинную версию и машинную копию традиционного словаря. Наличие сложной структуры словаря, большого количества информации и лингвистических параметров требует тщательной разработки правил их записи в компьютерном варианте словаря, то есть формулировка грамматики записи. Именно наличие грамматики позволяет обрабатывать текст традиционного словаря с помощью компьютера.
Редактирования относится к таким разновидностей человеческого творчества, которая требует большой концентрации его физических и интеллектуальных сил. В основе этого процесса заключается критический анализ рукописи, целью которого является его обработки в соответствии с существующими языковых и литературных норм языка и оформления такого содержания, который бы помог читателю воспринять отредактированный текст лучше.
Одной из самых открытых проблем при обработке естественно-текстов является неоднозначность (многозначность) ее единиц, оказывается на всех ее уровнях и выражается в явлениях полисемии, омонимии и синонимии.
Благодаря новым методам глубокого обучения, сегодня можно получить качественные семантические представления для слов, фраз и предложений, причем даже без обучающей выборки. Все меньше усилий сейчас нужно для создания собственных семантических словарей и баз знаний, поэтому разрабатывать системы автоматической обработки текстов стало проще. Однако мы все еще очень далеки от адекватного решения задачи понимания взаимосвязанных событий, представленных в виде последовательности предложений или образов, а также диалогов. Все известные сегодня методы успешно работают или при решении задач «поверхностного» понимание языка, или при существенном ограничении предметной области

 

 

Фрагмент текста работы:

 

Глава 1. Истоки компьютерной лингвистики и автоматической обработки текстов

1.1 Понятие компьютерной лингвистики
Компьютерная лингвистика является новым направлением классической прикладной лингвистики, которая возникла, развивалась и развивается параллельно с традиционной лингвистикой. В компетенцию прикладной лингвистики входят: письмо (графика), методика обучения родному и иностранному языкам, лексикография, языковая политика — ликвидация неграмотности, выбор государственного языка и его поддержка, разработка национальной терминологии и тому подобное. Эта проблема актуальна и на современном этапе прикладной лингвистики.
Вместе с тем во второй половине ХХ века в прикладной лингвистике появился новый вектор, вызванный активными процессами интеграции гуманитарных, естественных, технических и математических наук. Результатом этого было осознание и определение общей для многих предметных областей проблемы — автоматизация обработки, обмена и хранения разнообразной информации, которая функционирует в обществе в текстовой форме. Специалисты практически всех отраслей знаний пользуются языком как универсальным средством оформления и смыслового представления знаний. Поскольку текстовая информация является естественной для человека формой коммуникации, лингвистическое обеспечение информационных систем становится главной задачей компьютерной лингвистики. В этой ситуации необходимо распределение компетенций между собственно лингвистикой и информационно-компьютерными технологиями. Профессиональный анализ смысла текстов — это прерогатива лингвистов, которые глубоко понимают систему языка во всех ее проявлениях. Многомерный порядок параметризованных лингвистами текстовой информации в базы данных и базы знаний, корпуса текстов, создания гипертекстовых сетей с возможностью навигации в больших массивах и т.д. — это прерогатива специалистов по информатике и кибернетике. Таким образом, компьютерная лингвистика — это лингвистика с применением информационно-компьютерных ресурсов.
В современном мире при проведении различных лингвистических исследований все более активно используется компьютерная лингвистика.

Важно! Это только фрагмент работы для ознакомления
Скачайте архив со всеми файлами работы с помощью формы в начале страницы

Похожие работы