Дипломная работа (ВКР) бакалавр, специалист - Информатика Машинное обучение

Дипломная работа (ВКР) — бакалавр, специалист на тему Разработка системы анализа текста для определения его эмоциональной окраски

  • Оформление работы
  • Список литературы по ГОСТу
  • Соответствие методическим рекомендациям
  • И еще 16 требований ГОСТа,
    которые мы проверили
Нажимая на кнопку, я даю согласие
на обработку персональных данных
Фрагмент работы для ознакомления
 

Содержание:

 

Список использованных сокращений и обозначений 3

Введение 4

ГЛАВА 1 Изучение основных аспектов отрасли сентимент-анализа и процессов оценки эмоциональной окраски сообщений 7

1.1 Понятие и суть сентимент-анализа сообщений 7

1.2 Особенности задачи классификации сообщений по их эмоциональной окраске 9

1.3 Анализ существующих методов решения задач классификации, в частности, сообщений по их эмоциональной окраске. 14

1.4 Поиск существующих решений-аналогов, предназначенных для определения эмоциональной окраски текстов. 34

1.5 Постановка задачи данной работы. 38

ГЛАВА 2 Подготовка алгоритмов и структур данных для процесса определения эмоциональной окраски текстов 40

2.1 Выбор модели процесса определения эмоциональной окраски текстов и ее оптимальных параметров 40

2.2 Описание методики обучения выбранной модели 47

2.3 Подготовка и описание набора данных для обучения модели. 52

2.4 Особенности процесса обучения выбранной модели 54

ГЛАВА 3 Проектирование системы анализа текста для определения его эмоциональной окраски и ее реализация 60

3.1 Прототипирование интерфейса пользователя разрабатываемой системы 60

3.2 Выбор инструментальных средств для проведения программной реализации 62

3.3 Реализация подсистемы взаимодействия с пользователем 67

3.4 Тестирование реализованного программного продукта и оценка эффективности его работы 72

Заключение 76

Список использованных источников 78

Приложение А. Код разработанной программы 81

  

Введение:

 


Глобальная сеть Интернет в процессе своего развития предоставляет своим пользователям все большие возможности по коммуникации друг с другом. Это позволяет людям организовываться в группы по интересам, обмениваться информацией, и, как следствие, легче изучать новые области знания, развивать свои творческие и профессиональные навыки, работать над общими масштабными проектами и целями. Однако, к сожалению, часть людей пытается использовать возможности сети с негативными (иногда даже криминальными) целями: для оскорбления и преследования других участников сообществ, для организации различных провокаций, увеличения уровня недовольства в обществе и т.п. Следует отметить, что человек в целом, являясь существом социальным, достаточно легко может перенимать мнения и модели поведения других людей, особенно если они эффектно и авторитетно высказаны, причем это могут быть как позитивные идеи, ведущие к развитию общества, так и негативные, имеющие деструктивный характер. Отсюда следует вывод, что сообщения в сети Интернет в целом должны цензурироваться, чтобы не допускать неприемлемых высказываний, например таких, которые нельзя озвучивать при традиционном общении людей лицом к лицу. При этом возникает проблема массовости таких сообщений и необходимости введения некоторого субъекта, который бы осуществлял их модерацию на подконтрольном ему ресурсе [1]. В большинстве случаев из экономических соображений таким субъектом не может быть живой человек (или, по крайней мере, он может лишь выполнять небольшую часть подобной работы, рассматривая самые сложные случаи), а это должна быть компьютерная программа. Именно программа должна осуществлять первичный анализ сообщений, проводить их оценку на степень агрессивности и враждебности и принимать меры в случае обнаружения каких-либо опасностей. В некоторых прикладных задачах может возникать потребность в определении степени лояльности пользователя, т.е. упор выполняется на поиск положительных (хвалебных, благодарственных) сообщений. Отметим, что отрасль на стыке лингвистики и информационных технологий, направленную на определение эмоциональной окраски текстов, в литературе часто называют сентимент-анализом [2]. Таким образом, задача автоматического определения эмоциональной окраски сообщений является чрезвычайно актуальной для современной глобальной сети Интернет, поэтому целесообразна разработка соответствующего программного обеспечения, что и выполняется в данной работе.

Целью данной работы является уменьшение доли ручного труда при анализе потоков информационных сообщений лицами, уполномоченными на выполнение данных процессов, которое достигается путем использования эффективного программного средства для сентимент-анализа.

Для достижения поставленных целей следует выполнить следующие задачи:

— проанализировать задачу сентимент-анализа потоков информационных сообщений, выделить ее проблемные участки, оценить целесообразность разработки собственного программного продукта;

— рассмотреть существующие методы (в частности, основанные на подходах из области искусственного интеллекта и машинного обучения) и программные средства для проведения сентимент-анализа, а также возможные инструменты для их разработки;

— с использованием рассмотренных средств разработать алгоритмическую базу (составить модель) и реализовать ее в соответствующем программном обеспечении;

— провести тестирование работы созданного программного обеспечения и оценить его эффективность.

Объектом исследования является процесс определения эмоциональной окраски текста.

Предмет исследования – методы и программные средства, позволяющие

Не хочешь рисковать и сдавать то, что уже сдавалось?!
Закажи оригинальную работу - это недорого!

Заключение:

 


Таким образом, в данной работе создано программное средство, позволяющее в автоматическом режиме проводить анализ и оценку эмоциональной окраски информационных сообщений, использование которого на практике может значительно снизить долю ручного труда, то есть необходимость пересмотра сообщений человеком. В работе было проведено:

— исследование самого процесса анализа текстовых сообщений, выделены их основные этапы и особенности;

— рассмотрены существующие методы определения эмоциональной окраски текстов и в качестве основного выбран лексемный метод (мешок слов);

— для применения лексемного метода необходим предварительный анализ дата-сета с большим количеством сообщений, промаркированных соответствующей меткой тональности, что необходимо для отбора тех слов, которые в большей степени влияют на окраску сообщения;

— в качестве конкретного средства классификации сообщений на основе вектора частотности встречаемых в нем лемм выбрана нейронная сеть прямого распространения; в работе рассмотрены соответствующие подходы и методы;

— выбраны подходящие инструментальные средства, позволившие осуществить реализацию разработки, то есть внедрение в программных кодах разработанных алгоритмов – язык Python и библиотека Keras/Tensorflow;

— выполнено тестирование созданного программного средства, показавшее стабильность его работы и адекватное выполнение поставленных на него задач по выставлению оценки эмоциональной окраски текстового информационного сообщения (на рассмотренном дата-сете RuSentiment).

Работу можно считать завершенной, разработанные теоретические рекомендации могут быть положены в основу будущего продолжения исследований, а созданный программный продукт может рекомендоваться к реальному практическому использованию для оценки эмоциональной окраски разнообразных текстов, например, сообщений, размещаемых в социальных сетях и на сайтах пользователями сети Интернет.

 

Фрагмент текста работы:

 

ГЛАВА 1 ИЗУЧЕНИЕ ОСНОВНЫХ АСПЕКТОВ ОТРАСЛИ СЕНТИМЕНТ-АНАЛИЗА И ПРОЦЕССОВ ОЦЕНКИ ЭМОЦИОНАЛЬНОЙ ОКРАСКИ СООБЩЕНИЙ

1.1 Понятие и суть сентимент-анализа сообщений

Задача определения эмоциональной окраски текстов (являющаяся основным предметом при проведении сентимент-анализа) относится к области NLP (Natural Language Processing – обработка естественного языка) [3]. В дальнейшем понятие «текст» в данной работе будем наделять следующими свойствами:

— представляется последовательностью символов, основную часть которых составляют буквы русского алфавита;

— кроме букв, сообщение может содержать знаки пунктуации, числа и некоторые спецсимволы, несущие дополнительное семантическое содержание, осуществляющие эмоциональную окраску или другую дополнительную, в т.ч. невербальную функцию;

— допускается использование коротких англоязычных слов или аббревиатур, имеющих общеизвестное (особенно в молодежной Интернет-среде) значение (например, WTF – как символ недовольства и возмущения, LOL – как выражение сильного смеха, и т.п.).

Тексты могут иметь различное происхождение, что важно для определения лиц, несущих ответственность (возможно частичную) за возникновение, обнародование и распространение этих текстов [4]. Так, сообщение может быть:

— набранным на клавиатуре ПК человеком-пользователем непосредственно в форме (веб-форме), предоставляемой тем ресурсом, где сообщение опубликовано;

— скопированное из другого первоисточника (с его указанием или без);

— сгенерированное специальной компьютерной программой, работающей в соответствии с алгоритмом и настройками, заложенными в нее человеком-разработчиком (например, программа-бот).

Указанные особенности могут нести важное значение (проясняют некоторые организационные, юридические, практические аспекты проблемы, к которым еще вероятно будем возвращаться по мере исследования), однако не имеют отношения к технической составляющей процесса оценки тональности текста [5]. Для этого используются методы из области NLP (к сожалению, эта аббревиатура совпадает с обозначением нейролингвистического программирования, однако поскольку отрасли психологии и ИТ мало пересекаются, обычно это не вызывает трудностей и из контекста всегда понятно, о каком именно NLP идет речь). Рассмотрим особенности этой дисциплины подробнее.

Естественный язык, которым пользуются люди в повседневной жизни, представляет собой довольно сложную систему, в которой часто допускается неоднозначная трактовка многих таких элементов, как предложение, выражение, словосочетание или даже отдельные слова. В первую очередь это касается слов омонимов, которые пишутся одинаково, но содержание несут совершенно разное. Соответственно, для того чтобы «понять», какой именно вариант из доступных для данного омонима, подразумевается в заданном контексте, следует ориентироваться в содержании всего предложения или даже текста.

Также характерной чертой природного языка является его чрезвычайно широкая вариативность, которая реализуется в возможности выразить совершенно разными, непохожими друг на друга словами одно и то же понятие, тезис, ситуацию, совокупность фактов и т.п. И чем больше объем информации следует передать словами, тем больше существует вариантов реализации такой передачи. В целом для каждого слова восточноевропейской языковой семьи можно подобрать не менее 2-3 синонимов (а часто и гораздо больше). Таким образом, предложение, состоящее из 10 слов допускает

Важно! Это только фрагмент работы для ознакомления
Скачайте архив со всеми файлами работы с помощью формы в начале страницы

Похожие работы