Дипломная работа (ВКР) — бакалавр, специалист на тему Разработка системы анализа текста для определения его эмоциональной окраски
-
Оформление работы
-
Список литературы по ГОСТу
-
Соответствие методическим рекомендациям
-
И еще 16 требований ГОСТа,которые мы проверили
Введи почту и скачай архив со всеми файлами
Ссылку для скачивания пришлем
на указанный адрес электронной почты
Содержание:
Список использованных сокращений и обозначений 3
Введение 4
ГЛАВА 1 Изучение основных аспектов отрасли сентимент-анализа и процессов оценки эмоциональной окраски сообщений 7
1.1 Понятие и суть сентимент-анализа сообщений 7
1.2 Особенности задачи классификации сообщений по их эмоциональной окраске 9
1.3 Анализ существующих методов решения задач классификации, в частности, сообщений по их эмоциональной окраске. 14
1.4 Поиск существующих решений-аналогов, предназначенных для определения эмоциональной окраски текстов. 34
1.5 Постановка задачи данной работы. 38
ГЛАВА 2 Подготовка алгоритмов и структур данных для процесса определения эмоциональной окраски текстов 40
2.1 Выбор модели процесса определения эмоциональной окраски текстов и ее оптимальных параметров 40
2.2 Описание методики обучения выбранной модели 47
2.3 Подготовка и описание набора данных для обучения модели. 52
2.4 Особенности процесса обучения выбранной модели 54
ГЛАВА 3 Проектирование системы анализа текста для определения его эмоциональной окраски и ее реализация 60
3.1 Прототипирование интерфейса пользователя разрабатываемой системы 60
3.2 Выбор инструментальных средств для проведения программной реализации 62
3.3 Реализация подсистемы взаимодействия с пользователем 67
3.4 Тестирование реализованного программного продукта и оценка эффективности его работы 72
Заключение 76
Список использованных источников 78
Приложение А. Код разработанной программы 81
Введение:
Глобальная сеть Интернет в процессе своего развития предоставляет своим пользователям все большие возможности по коммуникации друг с другом. Это позволяет людям организовываться в группы по интересам, обмениваться информацией, и, как следствие, легче изучать новые области знания, развивать свои творческие и профессиональные навыки, работать над общими масштабными проектами и целями. Однако, к сожалению, часть людей пытается использовать возможности сети с негативными (иногда даже криминальными) целями: для оскорбления и преследования других участников сообществ, для организации различных провокаций, увеличения уровня недовольства в обществе и т.п. Следует отметить, что человек в целом, являясь существом социальным, достаточно легко может перенимать мнения и модели поведения других людей, особенно если они эффектно и авторитетно высказаны, причем это могут быть как позитивные идеи, ведущие к развитию общества, так и негативные, имеющие деструктивный характер. Отсюда следует вывод, что сообщения в сети Интернет в целом должны цензурироваться, чтобы не допускать неприемлемых высказываний, например таких, которые нельзя озвучивать при традиционном общении людей лицом к лицу. При этом возникает проблема массовости таких сообщений и необходимости введения некоторого субъекта, который бы осуществлял их модерацию на подконтрольном ему ресурсе [1]. В большинстве случаев из экономических соображений таким субъектом не может быть живой человек (или, по крайней мере, он может лишь выполнять небольшую часть подобной работы, рассматривая самые сложные случаи), а это должна быть компьютерная программа. Именно программа должна осуществлять первичный анализ сообщений, проводить их оценку на степень агрессивности и враждебности и принимать меры в случае обнаружения каких-либо опасностей. В некоторых прикладных задачах может возникать потребность в определении степени лояльности пользователя, т.е. упор выполняется на поиск положительных (хвалебных, благодарственных) сообщений. Отметим, что отрасль на стыке лингвистики и информационных технологий, направленную на определение эмоциональной окраски текстов, в литературе часто называют сентимент-анализом [2]. Таким образом, задача автоматического определения эмоциональной окраски сообщений является чрезвычайно актуальной для современной глобальной сети Интернет, поэтому целесообразна разработка соответствующего программного обеспечения, что и выполняется в данной работе.
Целью данной работы является уменьшение доли ручного труда при анализе потоков информационных сообщений лицами, уполномоченными на выполнение данных процессов, которое достигается путем использования эффективного программного средства для сентимент-анализа.
Для достижения поставленных целей следует выполнить следующие задачи:
— проанализировать задачу сентимент-анализа потоков информационных сообщений, выделить ее проблемные участки, оценить целесообразность разработки собственного программного продукта;
— рассмотреть существующие методы (в частности, основанные на подходах из области искусственного интеллекта и машинного обучения) и программные средства для проведения сентимент-анализа, а также возможные инструменты для их разработки;
— с использованием рассмотренных средств разработать алгоритмическую базу (составить модель) и реализовать ее в соответствующем программном обеспечении;
— провести тестирование работы созданного программного обеспечения и оценить его эффективность.
Объектом исследования является процесс определения эмоциональной окраски текста.
Предмет исследования – методы и программные средства, позволяющие
Заключение:
Таким образом, в данной работе создано программное средство, позволяющее в автоматическом режиме проводить анализ и оценку эмоциональной окраски информационных сообщений, использование которого на практике может значительно снизить долю ручного труда, то есть необходимость пересмотра сообщений человеком. В работе было проведено:
— исследование самого процесса анализа текстовых сообщений, выделены их основные этапы и особенности;
— рассмотрены существующие методы определения эмоциональной окраски текстов и в качестве основного выбран лексемный метод (мешок слов);
— для применения лексемного метода необходим предварительный анализ дата-сета с большим количеством сообщений, промаркированных соответствующей меткой тональности, что необходимо для отбора тех слов, которые в большей степени влияют на окраску сообщения;
— в качестве конкретного средства классификации сообщений на основе вектора частотности встречаемых в нем лемм выбрана нейронная сеть прямого распространения; в работе рассмотрены соответствующие подходы и методы;
— выбраны подходящие инструментальные средства, позволившие осуществить реализацию разработки, то есть внедрение в программных кодах разработанных алгоритмов – язык Python и библиотека Keras/Tensorflow;
— выполнено тестирование созданного программного средства, показавшее стабильность его работы и адекватное выполнение поставленных на него задач по выставлению оценки эмоциональной окраски текстового информационного сообщения (на рассмотренном дата-сете RuSentiment).
Работу можно считать завершенной, разработанные теоретические рекомендации могут быть положены в основу будущего продолжения исследований, а созданный программный продукт может рекомендоваться к реальному практическому использованию для оценки эмоциональной окраски разнообразных текстов, например, сообщений, размещаемых в социальных сетях и на сайтах пользователями сети Интернет.
Фрагмент текста работы:
ГЛАВА 1 ИЗУЧЕНИЕ ОСНОВНЫХ АСПЕКТОВ ОТРАСЛИ СЕНТИМЕНТ-АНАЛИЗА И ПРОЦЕССОВ ОЦЕНКИ ЭМОЦИОНАЛЬНОЙ ОКРАСКИ СООБЩЕНИЙ
1.1 Понятие и суть сентимент-анализа сообщений
Задача определения эмоциональной окраски текстов (являющаяся основным предметом при проведении сентимент-анализа) относится к области NLP (Natural Language Processing – обработка естественного языка) [3]. В дальнейшем понятие «текст» в данной работе будем наделять следующими свойствами:
— представляется последовательностью символов, основную часть которых составляют буквы русского алфавита;
— кроме букв, сообщение может содержать знаки пунктуации, числа и некоторые спецсимволы, несущие дополнительное семантическое содержание, осуществляющие эмоциональную окраску или другую дополнительную, в т.ч. невербальную функцию;
— допускается использование коротких англоязычных слов или аббревиатур, имеющих общеизвестное (особенно в молодежной Интернет-среде) значение (например, WTF – как символ недовольства и возмущения, LOL – как выражение сильного смеха, и т.п.).
Тексты могут иметь различное происхождение, что важно для определения лиц, несущих ответственность (возможно частичную) за возникновение, обнародование и распространение этих текстов [4]. Так, сообщение может быть:
— набранным на клавиатуре ПК человеком-пользователем непосредственно в форме (веб-форме), предоставляемой тем ресурсом, где сообщение опубликовано;
— скопированное из другого первоисточника (с его указанием или без);
— сгенерированное специальной компьютерной программой, работающей в соответствии с алгоритмом и настройками, заложенными в нее человеком-разработчиком (например, программа-бот).
Указанные особенности могут нести важное значение (проясняют некоторые организационные, юридические, практические аспекты проблемы, к которым еще вероятно будем возвращаться по мере исследования), однако не имеют отношения к технической составляющей процесса оценки тональности текста [5]. Для этого используются методы из области NLP (к сожалению, эта аббревиатура совпадает с обозначением нейролингвистического программирования, однако поскольку отрасли психологии и ИТ мало пересекаются, обычно это не вызывает трудностей и из контекста всегда понятно, о каком именно NLP идет речь). Рассмотрим особенности этой дисциплины подробнее.
Естественный язык, которым пользуются люди в повседневной жизни, представляет собой довольно сложную систему, в которой часто допускается неоднозначная трактовка многих таких элементов, как предложение, выражение, словосочетание или даже отдельные слова. В первую очередь это касается слов омонимов, которые пишутся одинаково, но содержание несут совершенно разное. Соответственно, для того чтобы «понять», какой именно вариант из доступных для данного омонима, подразумевается в заданном контексте, следует ориентироваться в содержании всего предложения или даже текста.
Также характерной чертой природного языка является его чрезвычайно широкая вариативность, которая реализуется в возможности выразить совершенно разными, непохожими друг на друга словами одно и то же понятие, тезис, ситуацию, совокупность фактов и т.п. И чем больше объем информации следует передать словами, тем больше существует вариантов реализации такой передачи. В целом для каждого слова восточноевропейской языковой семьи можно подобрать не менее 2-3 синонимов (а часто и гораздо больше). Таким образом, предложение, состоящее из 10 слов допускает