Дипломная работа (ВКР) бакалавр, специалист - Информатика Информатика

Дипломная работа (ВКР) — бакалавр, специалист на тему Анализ эмоциональной окраски сообщений, написанных на английском языке

  • Оформление работы
  • Список литературы по ГОСТу
  • Соответствие методическим рекомендациям
  • И еще 16 требований ГОСТа,
    которые мы проверили
Нажимая на кнопку, я даю согласие
на обработку персональных данных
Фрагмент работы для ознакомления
 

Содержание:

 

Список использованных сокращений и обозначений 3

Введение 4

1 Анализ проблемы определения тональности информационных текстов 7

1.1 Понятие о сентимент-анализе и его связь с другими вопросами обработки естественных текстов (NLP) 7

1.2 Области применения сентимент-анализа текстов и возможные методы для решения соответствующих задач 10

1.3 Особенности эмоциональной окраски текстов, написанных на английском языке 16

1.4 Выделение нерешенных частей проблемы и постановка задачи исследования 24

2 Разработка проектных решений по созданию программы для анализа эмоциональной окраски сообщений 30

2.1 Рассмотрение существующих методов определения тональности сообщений 30

2.2 Выбор критериев и разработка алгоритма определения эмоциональной окраски сообщений на английском языке 34

2.3 Выбор инструментальных средств, которые целесообразно применить для создания разрабатываемой системы сентимент-анализа 43

2.4 Анализ необходимости привлечения дополнительных программных средств (библиотек, дата-сетов и т.п.) 49

3 Разработка программного обеспечения для определения эмоциональной окраски сообщений на английском языке 58

3.1 Проектирование пользовательского интерфейса программного обеспечения 58

3.2 Разработка базы данных системы анализа тональности текстовых сообщений 60

3.3 Особенности программной реализации отдельных частей 61

3.4 Разработка документации по эксплуатации программного средства 68

3.4.1 Руководство пользователя 68

3.4.2 Инструкция администратора 69

3.5 Тестирование и анализ результатов функционирования разработанной системы 70

Заключение 80

Список использованных источников 82

Приложение А. Код разработанной программы на языке C# 86

  

Введение:

 


Современные информационно-коммуникационные технологии (далее – ИКТ) предоставляют лицам, которые их используют, все более и более новые возможности, всю глубину и суть которых сложно оценить без наработки больших массивов статистических данных, что будут накапливаться годами. Так же трудно в оперативном режиме понимать, какие последствия будет иметь неконтролируемое использование социальных сетей неподготовленными к этому широкими массами пенсионеров, подростков, детей, людей, у которых слабо развито критическое мышление, и т.п. Однако, уже сейчас можно сказать, что социальные сети систематически используются для манипуляции общественным мнением и направлением его в нужном русле, формированием определенного представления, шаблона мышления, который постепенно, часто с помощью специальных психологических техник, внедряется в сознание широких масс, подменяя собственные мысли и отношение к определенным вопросам или проблемам.

Очевидно, эффективная деятельность по противодействию таким информационным влияниям должна осуществляться на разных уровнях, в т.ч. и путем анализа сообщений в группах социальных сетей (особенно если эти группы содержат значительное количество участников). И здесь возникает проблема нехватки человеческих ресурсов специальных служб, которые физически не могут обеспечивать мониторинг всех сообщений во всех группах всех социальных сетей, каналах мессенджеров, комментариях на веб-сайтах под новостями, и т.п. Однако, бесспорно, данная деятельность должна выполняться, чтобы не пропустить организацию опасного происшествия (преступления, террористического акта, мятежа и т.п.). Соответственно, чрезвычайно актуальна задача автоматизации анализа потоков информационных сообщений на предмет их тональности и определения степени их опасности (или более обще – их степени соответствия определенному критерию).

Следует отметить, что сентимент-анализ может применяться и для других, вполне рутинных целей, например, для автоматизированной оценки усвояемости учебного материала студентами университета, для учета мнения студентов о проведенных преподавателем занятиях и т.п.

Целью данной работы является уменьшение доли ручного труда при анализе потоков информационных сообщений лицами, уполномоченными на выполнение данных процессов, которое достигается путем использования эффективного программного средства для сентимент-анализа.

Для достижения поставленных целей следует выполнить следующие задачи:

— проанализировать задачу сентимент-анализа потоков информационных сообщений, выделить ее проблемные участки, оценить целесообразность разработки собственного программного продукта;

— рассмотреть существующие методы и программные средства для проведения сентимент-анализа, а также инструменты для их разработки;

— с использованием рассмотренных средств провести исследования модельных текстовых сообщений и оценить их эффективность;

— предоставить рекомендации по использованию программных средств сентимент-анализа в различных практических задачах.

Объектом исследования является процесс определения тональности информационного сообщения.

Предмет исследования – методы и программные средства, позволяющие осуществлять определение тональности информационного сообщения.

В работе рассматриваются методы математической статистики, общенаучные методы анализа и синтеза, методы и технологии отрасли программирования.

Практическое значение работы заключается в создании собственного программного продукта, который может использоваться в качестве вспомогательного средства

Не хочешь рисковать и сдавать то, что уже сдавалось?!
Закажи оригинальную работу - это недорого!

Заключение:

 


Таким образом, в данной работе создано программное средство, позволяющее в автоматическом режиме проводить анализ и оценку эмоциональной окраски текстовых сообщений, написанных на английском языке. Его использование может в значительной степени снизить долю ручного труда по выполнению указанной деятельности (то есть значительно уменьшается необходимость пересмотра сообщений человеком). В работе было проведено:

— исследование самого процесса анализа текстовых сообщений, выделены их основные этапы и особенности;

— рассмотрены существующие методы определения эмоциональной окраски и в качестве основного выбран лексемный метод;

— выполнено улучшение этого метода путем внедрения весовых коэффициентов всех лексем, выражающих достоверность, конкретность и обоснованность использования данной лексемы. Также предложено следить за использованием некоторых символов (редуцированных смайлов в виде круглых скобок, восклицательных знаков и знаков вопроса);

— выбраны подходящие инструментальные средства, позволившие осуществить реализацию разработки, то есть внедрение в программных кодах разработанных алгоритмов (а именно, выбран язык программирования C#, интегрированная среда разработки Microsoft Visual Studio 2022 Community, система управления базами данных MySQL);

— проведена разработка интерфейса пользователя, а также исходных кодов программы, структуры и наполнения базы данных, отладка и создание готового программного продукта;

— выполнено тестирование созданного программного средства, показавшее стабильность его работы и адекватное выполнение поставленных на него задач по выставлению оценки эмоциональной окраски текстового сообщения на английском языке (на длинных текстах).

Работу можно считать завершенной, разработанные теоретические рекомендации могут быть положены в основу будущего продолжения исследований, а созданный программный продукт может рекомендоваться к реальному практическому использованию для оценки текстов средней и большой длины на английском языке или других видов занятий.

 

Фрагмент текста работы:

 

1 АНАЛИЗ ПРОБЛЕМЫ ОПРЕДЕЛЕНИЯ ТОНАЛЬНОСТИ ИНФОРМАЦИОННЫХ ТЕКСТОВ

1.1 Понятие о сентимент-анализе и его связь с другими вопросами обработки естественных текстов (NLP)

Проблема определения тональности информационных сообщений (являющаяся основным предметом при проведении сентимент-анализа) относится к области NLP (Natural Language Processing – обработки естественного языка), поскольку речь идет исключительно о текстовых сообщениях (т.е. состоящих из печатных букв, набранных на клавиатуре персонального компьютера, далее – ПК). Конечно, в некоторых соцсетях, на отдельных сайтах и сервисах разрешается размещение и аудио сообщений, однако задача определения их тональности содержит еще один дополнительный этап технического характера, который следует выполнять перед определением тональности этого сообщения, а именно, распознавание языка: из аудио сигнала следует получить текст, который в этом сигнале присутствует. К сожалению, эта задача (распознавание речи из аудиосигнала) является очень сложной, содержит чрезвычайно много аспектов, и представляет собой вполне отдельную проблему отрасли ИТ, поэтому в данной работе анализ аудио сообщений выполняться не будет. В дальнейшем под словами «информационное сообщение» будем иметь в виду исключительно текстовое сообщение, то есть имеющее следующие свойства:

— представленное последовательностью символов, основную часть которых составляют буквы русского алфавита;

— кроме букв, сообщение может содержать знаки пунктуации, числа и некоторые спецсимволы, несущие дополнительное семантическое содержание, осуществляющие эмоциональную окраску или другую дополнительную, в т.ч. невербальную функцию.

Информационные сообщения могут иметь различное происхождение, что важно для определения лиц, несущих ответственность (возможно частичную) за возникновение, обнародование и распространение этого сообщения. Так, сообщение может быть:

— набранным на клавиатуре ПК человеком-пользователем непосредственно в форме (веб-форме), предоставляемой тем ресурсом, где сообщение опубликовано;

— скопированное из другого первоисточника (с его указанием или без);

— сгенерированное специальной компьютерной программой, работающей в соответствии с алгоритмом и настройками, заложенными в нее человеком-разработчиком (например, программа-бот).

Указанные особенности могут нести важное значение (проясняют некоторые организационные, юридические, практические аспекты проблемы, к которым еще вероятно будем возвращаться по мере исследования), однако не имеют отношения к технической составляющей процесса оценки тональности текста. Для этого используются методы из области NLP (к сожалению, эта аббревиатура совпадает с обозначением нейролингвистического программирования, однако поскольку отрасли психологии и ИТ мало пересекаются, обычно это не вызывает трудностей и из контекста всегда понятно, о каком именно NLP идет речь). Рассмотрим особенности этой дисциплины подробнее.

Естественный язык, которым пользуются люди в повседневной жизни, представляет собой довольно сложную систему, в которой часто допускается неоднозначная трактовка многих таких элементов, как предложение, выражение, словосочетание или даже отдельные слова. В первую очередь это касается слов омонимов, которые пишутся одинаково, но содержание несут совершенно разное. Соответственно, для того чтобы «понять», какой именно вариант из доступных для данного омонима, подразумевается в заданном контексте, следует ориентироваться в содержании всего предложения или даже текста.

Важно! Это только фрагмент работы для ознакомления
Скачайте архив со всеми файлами работы с помощью формы в начале страницы

Похожие работы