Магистерский диплом (ВКР) на тему Кластеризация пользователей социальных сетей на основе технологий искусственного интеллекта
-
Оформление работы
-
Список литературы по ГОСТу
-
Соответствие методическим рекомендациям
-
И еще 16 требований ГОСТа,которые мы проверили
Введи почту и скачай архив со всеми файлами
Ссылку для скачивания пришлем
на указанный адрес электронной почты
Содержание:
Введение……………………………………………………………………………………………. 3
1 Анализ проблемы кластеризации пользователей
социальных сетей и существующих методов ее решения…………………………………………………………………………….. 7
1.1 Формализация и суть общей задачи кластеризации объектов 7
1.2 Особенности прикладных задач, приводящих к
необходимости кластеризации пользователей социальных сетей…………………………………………………….. 12
1.3 Анализ существующих методов, применяемых для
кластеризации пользователей соцсетей и аналогичных объектов…………………………….. 15
1.4 Постановка задачи исследования………………………………………………. 20
1.5 Выводы по разделу………………………………………………………………….. 21
2 Разработка метода кластеризации пользователей
социальных сетей на основе технологий искусственного интеллекта……………………………………………….. 22
2.1 Выбор технологии искусственного интеллекта,
наиболее подходящей для кластеризации пользователей соцсетей……………………………………………. 22
2.2 Аналитическое описание технологии искусственных
нейронных сетей (в частности прямого распространения сигнала)…………………………………. 40
2.3 Выбор входных и выходных параметров для нейронной
сети, проводящей кластеризацию пользователей соцсетей…………………………………………… 51
2.4 Обоснование структуры нейронной сети для
кластеризации пользователей соцсетей………………………………………………………………………………………… 60
2.5 Выводы по разделу………………………………………………………………….. 63
3 Программная реализация метода кластеризации
пользователей соцсетей на базе искусственной нейронной сети…………………………………………………………… 65
3.1 Выбор и описание существующих инструментальных
средств для реализации искусственных нейронных сетей……………………………………………………… 65
3.2 Особенности выполнения реализации………………………………………… 70
3.3 Анализ эффективности нейронной сети для
кластеризации пользователей соцсетей………………………………………………………………………………………… 77
Выводы……………………………………………………………………………………………. 81
Список использованной литературы………………………………………………….. 83
Введение:
С развитием компьютерной техники и сетевых информационно-коммуникационных
технологий Интернет проник практически во все семьи, где есть люди среднего и,
тем более, молодого возраста. Даже многие пенсионеры осваивают компьютерную
технику (к которой в данном случае можно отнести и смартфоны) и потихоньку
приступают к пользованию Всемирной сетью Интернет. К сожалению, можно
констатировать, что идеи создателей глобальных сетей по всеобщему использованию
такой мировой библиотеки пока не стали реализовываться. Преимущественное
большинство населения предпочитает просмотр развлекательных передач перед
обучающими видео, а проведение времени в соцсетях отбирает теперь намного
больше времени, чем компьютерные игры 20 лет назад (и у гораздо большего
количества людей). Конечно, у социальных сетей есть и свои плюсы, однако, даже
не вдаваясь в морально-психологические аспекты вопроса, можно констатировать,
что их пользователями становятся все большее количество людей. Очевидно, что
когда существует возможность общения одного человека (или малой группы) с
массовой аудиторией пользователей, то такие возможности могут (и будут) использоваться
криминальными элементами, в частности международными террористами, серийными
убийцами, насильниками и т.п. В последние годы получил широкое распространение
феномен так называемых «групп смерти», где злоумышленники с помощью
психологических приемов склоняют молодежь (и даже детей) к нанесению себе
телесных повреждений и, как крайнее средство, — к самоубийствам. Очевидно, что
целесообразным является поиск таких отдельных личностей, а также их сообществ,
которые склонны к насилию, психологическому насилию или наоборот – к
депрессивному подавлению собственной личности и саморазрушению.
Помимо описанных «криминальных» потребностей по
кластеризации пользователей, существуют намного более значительные (по объемам
задействованных коллективов людей) экономические задачи из отрасли маркетинга.
Персонализированная реклама на сегодняшний день приносит владельцам сайтов
соцсетей, а также и популярных страниц в крупных сетях, большие доходы, исчисляемые
десятками тысяч долларов в месяц (для ресурсов с несколькими миллионами
подписчиков). Рекламодатели готовы платить такие, достаточно большие деньги,
так как в свою очередь получают хорошую отдачу от размещения подобной рекламы.
Очевидно, степень конверсии (как грубо можно назвать превращаемость просмотров
рекламы в конечные покупки) изначально зависит от того, кому будет показано механизмом
соцсети то, или иное рекламное объявление. Очевидно, что показ рекламы крепкого
алкоголя для женщин даст гораздо худший эффект, чем в случае показа мужчинам,
равно как и рекламирование средств личной гигиены для мужчин также будет давать
нулевой результат. Отсюда очевидно, что задача разбиения пользователей соцсетей
на классы (классификация и кластеризация – различие между ними будет
рассмотрено ниже подробнее) является чрезвычайно актуальной в основном для отрасли маркетинга, но также и для служб,
занимающихся безопасностью в самых разнообразных смыслах этого понятия. Следует
отметить, что одними из лучших на сегодняшний день способов кластеризации
являются методы из области искусственного интеллекта, поэтому именно их
рассмотрение наиболее целесообразно в рамках такого исследования.
Целью работы
является улучшение механизмов разбиения пользователей соцсетей на группы, что
может быть полезно для увеличения эффективности рекламных объявлений, или для
поиска потенциально опасных пользователей или их групп, и может достигаться за
счет применения технологий отрасли искусственного интеллекта. Для достижения
цели, нужно проработать следующие частные задачи
исследования:
— провести анализ понятия кластеризации объектов и
рассмотреть существующие методы группировки пользователей соцсетей;
Заключение:
Фрагмент текста работы:
1 Анализ проблемы кластеризации пользователей
социальных сетей и существующих методов ее решения 1.1 Формализация
и суть общей задачи кластеризации объектов Перед проектированием алгоритмов проведения некоторого
процесса, очевидно, следует рассмотреть его суть, дать определение, выделить
основные пути реализации (если существует возможность многовариантного
выполнения).
В первую очередь, следует отметить, что существуют две
родственные задачи разбиения совокупности объектов на классы: классификации и
кластеризации. Отличие заключается в том, что при классификации производится
циклический перебор всех имеющихся объектов и отнесение каждого из них к одному
из заранее известных (наперед заданных, еще до рассмотрения объектов данной
совокупности) классов. При кластеризации наоборот: никаких заранее определенных
классов не существует, а сама суть задачи как раз и состоит в их оптимальном
выделении (наиболее эффективном для данной предметной области). При такой
постановке иногда число классов, которые нужно выделить, наперед задано, иногда
нет, что определяет алгоритмические особенности данного процесса.
Здесь и далее отдельные классы будем обозначать Ci, а набор классов в целом – С:
С = C1 È C2 È … È Ci È … È CN = (1.1)
где N – количество
классов;
È
— теоретико-множественная операция объединения, результатом которой является
множество, состоящее из всех элементов, входящих во все объединяемые множества.
Отягчающим аспектом задачи кластеризации (с точки зрения ее
алгоритмической и вычислительной сложности) является то, что получаемые разбиения
на классы могут существенным образом меняться для одной и той же совокупности
объектов, при использовании разных наборов данных, описывающих каждый объект. Добавление
(или изъятие) даже одного свойства из набора характеристик, с помощью которых
можно описывать объекты совокупности, может приводить к полному их
перегруппированию по сравнению с первоначальным разбиением (и даже к изменению целесообразного
количества классов N). Итак, выбор структуры набора
входных данных для кластеризации объектов является одним из ключевых этапов
всего процесса.
Задача кластеризации решается на наборах данных об
однотипных объектах окружающего мира (реального или цифрового). Например, это
может быть:
— описание особенностей нескольких тысяч покупок,
совершенных в определенном Интернет-магазине (описывается в какое время
пользователь зашел на сайт, сколько времени всего провел на сайте, сколько
просмотрел страниц, какие группы товаров просматривал и в какой
последовательности, и, наконец, какие в итоге совершил покупки);
— описание десятков таких опасных природных явлений,
как торнадо (где сформировались, сколько длились, максимальная сила ветра,
атмосферное давление на границе и в эпицентре, и т.п.);
— набор числовых характеристик определенного технического
процесса (например, эксплуатации и выхода из строя определенной электронной
платы, которые можно описать временем бесперебойной эксплуатации, средней
температурой эксплуатации, качеством напряжения и частоты питающих цепей, и
т.д.).
Во всех приведенных примерах, которые при их попарном
сравнении кажутся достаточно далекими друг от друга, присутствуют следующие
особенности:
— явления, которые описываются, являются достаточно
сложными, по крайней мере отсутствуют их простые общепринятые модели;