Дипломная работа (ВКР) — бакалавр, специалист на тему «Сентимент анализ информационных потоков»
-
Оформление работы
-
Список литературы по ГОСТу
-
Соответствие методическим рекомендациям
-
И еще 16 требований ГОСТа,которые мы проверили
Введи почту и скачай архив со всеми файлами
Ссылку для скачивания пришлем
на указанный адрес электронной почты
Содержание:
Введение. 3
1 Анализ проблемы определения тональности информационных
потоков. 6
1.1 Понятие о сентимент-анализе и его связь с другими
вопросами обработки естественных текстов (NLP) 6
1.2 Области применения сентимент-анализа текстов и
возможные методы для решения соответствующих задач. 9
1.3 Уточненная постановка задачи исследования. 15
2 Сравнительный анализ существующих программных средств
для проведения сентимент-анализа. 17
2.1 Рассмотрение функциональных возможностей и других
особенностей существующих приложений и сервисов для проведения сентимент-анализа 17
2.2 Исследование вопроса о необходимости создания
собственных программных реализаций. 19
2.2.1 Возможные инструментальные средства, которые
целесообразно применить для создания систем сентимент-анализа. 20
2.2.2 Анализ необходимости наличия дополнительных
программных средств (библиотек, дата-сетов и т.п.) 30
2.3 Сравнение решений для сентимент-анализа на основе
их характеристик 33
3 Результаты исследования эффективности распознавания
тональностей текстов с помощью рассмотренных средств. 34
3.1 Выбор и подготовка текстов для анализа. 34
3.2 Описание методики эксперимента. 34
3.3 Численные результаты распознавания тональности
подготовленных текстов 37
3.4 Предоставление рекомендаций по использованию различных
программных средств в зависимости от особенностей задач распознавания
тональности. 38
Заключение. 40
Список использованных источников. 41
Введение:
Современные
информационно-коммуникационные технологии (далее – ИКТ) предоставляют лицам,
которые их используют, все более и более новые возможности, всю глубину и суть
которых сложно оценить без наработки больших массивов статистических данных,
что будут накапливаться годами. Так же трудно в оперативном режиме понимать,
какие последствия будет иметь неконтролируемое использование социальных сетей
неподготовленными к этому широкими массами пенсионеров, подростков, детей, людей,
у которых слабо развито критическое мышление, и т.п. Однако, уже сейчас можно
сказать, что социальные сети систематически используются для манипуляции
общественным мнением и направлением его в нужном русле, формированием
определенного представления, шаблона мышления, который постепенно, часто с
помощью специальных психологических техник, внедряется в сознание широких масс,
подменяя собственные мысли и отношение к определенным вопросам или проблемам.
Очевидно, эффективная
деятельность по противодействию таким информационным влияниям должна
осуществляться на разных уровнях, в т.ч. и путем анализа сообщений в группах
социальных сетей (особенно если эти группы содержат значительное количество
участников). И здесь возникает проблема нехватки человеческих ресурсов специальных
служб, которые физически не могут обеспечивать мониторинг всех сообщений во
всех группах всех социальных сетей, каналах мессенджеров, комментариях на
веб-сайтах под новостями, и т.п. Однако, бесспорно, данная деятельность должна
выполняться, чтобы не пропустить организацию опасного происшествия (преступления,
террористического акта, мятежа и т.п.). Соответственно, чрезвычайно актуальна задача автоматизации анализа потоков
информационных сообщений на предмет их тональности и определения степени их
опасности (или более обще – их степени соответствия определенному критерию).
Следует отметить, что
сентимент-анализ может применяться и для других, вполне рутинных целей,
например, для автоматизированной оценки усвояемости учебного материала
студентами университета, для учета мнения студентов о проведенных
преподавателем занятиях и т.п.
Целью данной работы является уменьшение доли ручного труда при анализе потоков
информационных сообщений лицами, уполномоченными на выполнение данных
процессов, которое достигается путем использования эффективного программного
средства для сентимент-анализа.
Для достижения
поставленных целей следует выполнить следующие задачи:
— проанализировать задачу
сентимент-анализа потоков информационных сообщений, выделить ее проблемные
участки, оценить целесообразность разработки собственного программного продукта;
— рассмотреть
существующие методы и программные средства для проведения сентимент-анализа, а
также инструменты для их разработки;
— с использованием рассмотренных
средств провести исследования модельных текстовых сообщений и оценить их
эффективность;
— предоставить
рекомендации по использованию программных средств сентимент-анализа в различных
практических задачах.
Объектом исследования является процесс определения тональности информационного
сообщения.
Предмет исследования – методы и программные средства, позволяющие осуществлять
определение тональности информационного сообщения.
В работе рассматриваются методы математической статистики,
общенаучные методы анализа и синтеза, методы и технологии отрасли программирования.
Практическое значение работы заключается в создании собственного программного продукта,
который может использоваться в качестве вспомогательного средства в реальной
деятельности учебных заведений для автоматизации оценки работы преподавателей
студентами (за счет автоматического анализа их текстовых отзывов о посещенных
занятиях).
В перспективе возможно усовершенствование собственного программного
продукта, работающего по рассмотренным принципам и технологиям.
Заключение:
Таким образом, в данной
работе создано программное средство, позволяющее в автоматическом режиме
проводить анализ и оценку тональности информационных сообщений, использование
которого, в частности для автоматизированной оценки студентами качества
проводимых занятий, может значительно снизить долю ручного труда, то есть
необходимость пересмотра сообщений человеком, при увеличении качества учебного
процесса. В работе было проведено:
— исследование самого
процесса анализа текстовых сообщений, выделены их основные этапы и особенности;
— рассмотрены
существующие методы определения тональности и в качестве основного выбран
лексемный метод;
— выполнено улучшение
этого метода путем внедрения весовых коэффициентов всех лексем, выражающих
достоверность, конкретность и обоснованность использования данной лексемы.
Также предложено следить за использованием некоторых символов (редуцированных
смайлов в виде круглых скобок, восклицательных знаков и знаков вопроса);
— выбраны подходящие
программные средства, позволившие осуществить реализацию разработки, то есть
внедрение в программных кодах разработанных алгоритмов;
— выполнено тестирование
созданного программного средства, показавшее стабильность его работы и
адекватное выполнение поставленных на него задач по выставлению оценки
тональности текстового информационного сообщения (на длинных текстах).
Работу можно считать
завершенной, разработанные теоретические рекомендации могут быть положены в
основу будущего продолжения исследований, а созданный программный продукт может
рекомендоваться к реальному практическому использованию для оценки комментариев
студентов после прослушанной лекции или других видов занятий.
Фрагмент текста работы:
1 Анализ проблемы
определения тональности информационных потоков 1.1 Понятие о сентимент-анализе и его связь с
другими вопросами обработки естественных текстов (NLP) Проблема определения
тональности информационных сообщений (являющаяся основным предметом при проведении
сентимент-анализа) относится к области NLP (Natural Language Processing –
обработки естественного языка), поскольку речь идет исключительно о текстовых
сообщениях (т.е. состоящих из печатных букв, набранных на клавиатуре
персонального компьютера, далее – ПК). Конечно, в некоторых соцсетях, на
отдельных сайтах и сервисах разрешается размещение и аудио сообщений, однако
задача определения их тональности содержит еще один дополнительный этап
технического характера, который следует выполнять перед определением
тональности этого сообщения, а именно, распознавание языка: из аудио сигнала
следует получить текст, который в этом сигнале присутствует. К сожалению, эта
задача (распознавание речи из аудиосигнала) является очень сложной, содержит
чрезвычайно много аспектов, и представляет собой вполне отдельную проблему
отрасли ИТ, поэтому в данной работе анализ аудио сообщений выполняться не
будет. В дальнейшем под словами «информационное сообщение» будем иметь в виду
исключительно текстовое сообщение, то есть имеющее следующие свойства:
— представленное
последовательностью символов, основную часть которых составляют буквы русского
алфавита;
— кроме букв, сообщение
может содержать знаки пунктуации, числа и некоторые спецсимволы, несущие
дополнительное семантическое содержание, осуществляющие эмоциональную окраску
или другую дополнительную, в т.ч. невербальную функцию.