Дипломная работа (ВКР) — бакалавр, специалист на тему Кластеризация. Алгоритм Spectral clustering (язык программирования C#)
-
Оформление работы
-
Список литературы по ГОСТу
-
Соответствие методическим рекомендациям
-
И еще 16 требований ГОСТа,которые мы проверили
Введи почту и скачай архив со всеми файлами
Ссылку для скачивания пришлем
на указанный адрес электронной почты
Содержание:
Введение. 1
Глава 1 . Предметная область. 2
1.1. Технологии BigData. 2
1.2. Технологии DataMining. 2
1.3. Алгоритм кластеризацииa. 2
1.4. Цели и задачи дипломного проектирования. 2
Выводы по 1-й главе. 2
Глава 2 . Средства разработки.. 2
2.1. Среда разработки Python. 2
2.2. Алгоритм
кластеризации. 2
2.3. Количественная
оценка качества кластеризации. 2
2.4. Примеры применения
на практике и его особенности. 2
Выводы по 2-й главе. 2
Глава 3 . Проектная часть. 2
3.1. Функциональная
схема. 2
3.2. Структурная схема. 2
3.3. Интерфейс
пользователя. 2
3.4. Программная
реализация алгоритма. 2
3.5. Реализация ввода
данных. 2
3.6. Реализация вывода
данных. 2
Выводы по 3-й главе. 2
4.1. Тестирование на
Ирис. 3
4.2. Сравнение работы
алгоритма. 3
4.3. Руководство
пользователя. 3
4.4. Описание
выходных файлов. 3
Выводы по 4-й главе. 3
ЗАКЛЮЧЕНИЕ…………………………………………………………………………………
СПИСОК
ЛИТЕРАТУРЫ… 3
Введение:
Спектральная кластеризация — это метод с корнями в
теории графов, где этот подход используется для идентификации сообществ узлов в
графе на основе соединяющих их ребер. Этот метод является гибким и позволяет
кластеризовать не графовые данные. Спектральная кластеризация использует
информацию из собственных значений (спектра) специальных матриц, построенных из
графика или набора данных. Мы узнаем, как построить эти матрицы,
интерпретировать их спектр и использовать собственные векторы для назначения
наших данных кластерам.
Спектральная кластеризация также связана с кластеризацией
DBSCAN , которая находит связанные по плотности компоненты. Связанные
компоненты соответствуют оптимальным спектральным кластерам (без сечения
краев); а DBSCAN использует асимметричный соседний граф с удаленными ребрами,
когда исходные точки не являются плотными. Таким образом, DBSCAN — это частный
случай спектральной кластеризации, но тот, который позволяет использовать более
эффективные алгоритмы (в худшем случае , во многих практических случаях гораздо
быстрее с индексами).
В качестве альтернативы вычислению только одного
собственного вектора вычисляютсяkсобственных
векторовдля некоторогоk, а затем
используется другой алгоритм (например,k-means)
для кластеризации точек по соответствующимkкомпонентам этих собственных
векторов.
Эффективность спектральной кластеризации можно
повысить, если решение соответствующей проблемы на собственные значения
выполнить безматричным способом , то есть без явных манипуляций или даже
вычисления матрицы подобия, как, например, валгоритме
Ланцоша.
Для больших графов второе собственное значение графа
(нормализованное) часто плохо ограничено матрицей Лапласа, что приводит к более
медленной сходимости собственных значений итеративными решателями.предварительное кондиционирование
является ключевой технологией, ускоряющей сходимость, например, в методе
свободной матрицы LOBPCG . Спектральная кластеризация была успешно применена к
большим графам, сначала определив их структуру сообщества , а затем
кластеризовав сообщества[3].
Спектральная кластеризация тесно связана с нелинейным
уменьшением размерности , и методы уменьшения размерности, такие как локально
линейное встраивание, могут использоваться для уменьшения шумовых ошибок или
выбросов. Эта проблема эквивалентна проблеме спектральной кластеризации, когда
ограничения на идентичность ослаблены. В частности, k- взвешенная
проблема среднего может быть переформулирована как проблема спектральной
кластеризации (разбиения графа) и наоборот. Результатом алгоритмов являются
собственные векторы, которые не удовлетворяют требованиям идентичности для
индикаторных переменных, определенных . Поэтому требуется постобработка
собственных векторов эквивалентности между задачами.[6]Преобразование
задачи спектральной кластеризации в k- взвешенное ядро
означает, что вычислительная нагрузка значительно снижается.
Объект исследования состоит в обзоре
способов кластеризации больших данных на основе программирования графов и
использования метода к-средних.
Предмет исследования составляет
спектральная кластеризация больших данных.
Целью работы состоит в разработке и
реализации алгоритма спектральной кластеризации на языке программирования Python.
Задачи работы:
1. Обзор особенностей спектральной
кластеризации
2. Разработка алгоритма спектральной
кластеризации
3. Практическая реализация алгоритма
4. Тестирование программы
5. Определение перспектив доработки
Работа состоит из введения, четырех глав,
заключения, списка литературы, приложений, 9 рисунков.
Заключение:
Од ни м из ве ду щи х ме то до в ан ал из а да нн ых яв ля ет ся кл ас те ри за ци я. За да че й кл ас те ри за ци и яв ля ет ся ра зб ие ни я со во ку пн ос ти об ъе кт ов на од но ро дн ые гр уп пы (кл ас те ры ил и кл ас сы), а це ль ю — по ис к су ще ст ву ющ их ст ру кт ур. Ре ша ет ся да нн ая за да ча пр и по мо щи ра зл ич ны х ме то до в, вы бо р ме то да до лж ен ба зи ро ва ть ся на ис сл ед ов ан ии ис хо дн ог о на бо ра да нн ых. Сл ож но ст ью кл ас те ри за ци и яв ля ет ся не об хо ди мо ст ь ее эк сп ер тн ой оц ен ки.
На да нн ый мо ме нт су ще ст ву ет бо ль шо е ко ли че ст во ме то до в кл ас те ри за ци и. Та к, на пр им ер, на иб ол ее оч ев ид ны м яв ля ет ся пр им ен ен ие ме то до в ма те ма ти че ск ой ст ат ис ти ки. Но ту т во зн ик ае т пр об ле ма с ко ли че ст во м да нн ых, иб о ст ат ис ти че ск ие ме то ды хо ро шо ра бо та ют пр и бо ль шо м об ъе ме ап ри ор ны х да нн ых, а у на с мо же т бы ть ог ра ни че нн ое их ко ли че ст во. По эт ом у ст ат ис ти че ск ие ме то ды не мо гу т га ра нт ир ов ат ь ус пе шн ый ре зу ль та т, чт о де ла ет их ма ло эф фе кт ив ны ми в ре ше ни и мн ог их пр ак ти че ск их за да ч.
Др уг им пу те м ре ше ни я эт ой за да чи мо же т бы ть пр им ен ен ие не йр он ны х се те й, чт о яв ля ет ся на иб ол ее пе рс пе кт ив ны м по дх од ом. Мо жн о вы де ли ть ря д пр еи му ще ст в ис по ль зо ва ни я не йр он ны х се те й:
— во зм ож но по ст ро ен ие уд ов ле тв ор ит ел ьн ой мо де ли на не йр он ны х се тя х да же в ус ло ви ях не по лн от ы да нн ых;
— ис ку сс тв ен ны е не йр он ны е се ти ле гк о ра бо та ют в ра сп ре де ле нн ых си ст ем ах с бо ль шо й па ра лл ел из ац ие й в си лу св ое й пр ир од ы;
— по ск ол ьк у ис ку сс тв ен ны е не йр он ны е се ти по дс тр аи ва ют св ои ве со вы е ко эф фи ци ен ты, ос но вы ва яс ь на ис хо дн ых да нн ых, эт о по мо га ет сд ел ат ь вы бо р зн ач им ых ха ра кт ер ис ти к ме не е су бъ ек ти вн ым.
Кл ас те ри за ци я яв ля ет ся за да че й, от но ся ще йс я к ст ра те ги и "об уч ен ие бе з уч ит ел я", т.е. не тр еб уе т на ли чи я зн ач ен ия це ле вы х пе ре ме нн ых в об уч аю ще й вы бо рк е. Дл я не йр ос ет ев ой кл ас те ри за ци и да нн ых мо гу т ис по ль зо ва ть ся ра зл ич ны е мо де ли се те й, но на иб ол ее эф фе кт ив ны м яв ля ет ся ис по ль зо ва ни е се те й Ко хо не на ил и са мо ор га ни зу ющ их ся ка рт.
Фрагмент текста работы:
Глава
1 . Предметная область
1.1. Технологии BigData
Большие данные (англ.big
data)
— серия подходов, инструментов и методов обработки структурированных инеструктурированных
данныхогромных объёмов и значительного многообразия для
получения воспринимаемых человеком результатов, эффективных в условиях
непрерывного прироста, распределения по многочисленным узламвычислительной
сети,
сформировавшихся в конце2000-х годов,
альтернативных традиционнымсистемам
управления базами данныхи решениям классаBusiness
Intelligence.
Исходя из определенияBig Data, можно
сформулировать основные принципы работы с такими данными:
1.Горизонтальная масштабируемость.
Поскольку данных может быть сколь угодно много – любая система, которая
подразумевает обработку больших данных, должна быть расширяемой. В 2 раза вырос
объём данных – в 2 раза увеличили количество железа в кластере и всё продолжило
работать.
2.Отказоустойчивость. Принцип горизонтальной
масштабируемости подразумевает, что машин в кластере может быть много.
Например, Hadoop-кластер Yahoo имеет более 42000 машин (поэтойссылкеможно
посмотреть размеры кластера в разных организациях). Это означает, что часть
этих машин будет гарантированно выходить из строя. Методы работы с большими
данными должны учитывать возможность таких сбоев и переживать их без каких-либо
значимых последствий.
3.Локальность данных.В больших распределённых
системах данные распределены по большому количеству машин. Если данные
физически находятся на одном сервере, а обрабатываются на другом – расходы на
передачу данных могут превысить расходы на саму обработку. Поэтому одним из
важнейших принципов проектирования BigData-решений является принцип локальности
данных – по возможности обрабатываем данные на той же машине, на которой их
храним.
Принцип работы технологии big data основан на
максимальном информировании пользователя о каком-либо предмете или явлении.
Задача такого ознакомления с данными – помочь взвесить все «за» и «против»,
чтобы принять верное решение. В интеллектуальных машинах на основе массива
информации строится модель будущего, а дальше имитируются различные варианты и
отслеживаются результаты.
Современные аналитические агентства запускают миллионы
подобных симуляций, когда тестируют идею, предположение или решают проблему.
Процесс автоматизирован.
К источникам big data относят:
· ин те рн ет – бл ог и, со цс ет и, са йт ы, СМ И и ра зл ич ны е фо ру мы;
· ко рп ор ат ив ну ю ин фо рм ац ию – ар хи вы, тр ан за кц ии, ба зы да нн ых;
· по ка за ни я сч ит ыв аю щи х ус тр ой ст в – ме те ор ол ог ич ес ки е пр иб ор ы, да тч ик и со то во й св яз и и др уг ие.
· Пр ин ци пы ра бо ты с ма сс ив ам и да нн ых вк лю ча ют тр и ос но вн ых фа кт ор а:
· Ра сш ир яе мо ст ь си ст ем ы. По д не й по ни ма ют об ыч но го ри зо нт ал ьн ую ма сш та би ру ем ос ть но си те ле й ин фо рм ац ии. То ес ть вы ро сл и об ъе мы вх од ящ их да нн ых – ув ел ич ил ис ь мо щн ос ть и ко ли че ст во се рв ер ов дл я их хр ан ен ия.
Ус то йч ив ос ть к от ка зу. По вы ша ть ко ли че ст во ци фр ов ых но си те ле й, ин те лл ек ту ал ьн ых ма ши н со ра зм ер но об ъе ма м да нн ых мо жн о до бе ск он еч но ст и. Но эт о не оз на ча ет, чт о ча ст ь ма ши н не бу де т вы хо ди ть из ст ро я, ус та ре ва ть. По эт ом у од ни м из фа кт ор ов ст аб ил ьн ой ра бо ты с бо ль ши ми да нн ым и яв ля ет ся от ка зо ус то йч ив ос ть се рв ер ов.
Ло ка ли за ци я. От де ль ны е ма сс ив ы ин фо рм ац ии хр ан ят ся и об ра ба ты ва ют ся в пр ед ел ах од но го вы де ле нн ог о се рв ер а, чт об ы эк он ом ит ь вр ем я, ре су рс ы, ра сх од ы на пе ре да чу да нн ых.