Дипломная работа (ВКР) бакалавр, специалист - Информатика Программирование

Дипломная работа (ВКР) — бакалавр, специалист на тему Кластеризация. Алгоритм Spectral clustering (язык программирования C#)

  • Оформление работы
  • Список литературы по ГОСТу
  • Соответствие методическим рекомендациям
  • И еще 16 требований ГОСТа,
    которые мы проверили
Нажимая на кнопку, я даю согласие
на обработку персональных данных
Фрагмент работы для ознакомления
 

Содержание:

 

Введение. 1

Глава 1 . Предметная область. 2

1.1.   Технологии BigData. 2

1.2.   Технологии DataMining. 2

1.3. Алгоритм кластеризацииa. 2

1.4. Цели и задачи дипломного проектирования. 2

Выводы по 1-й главе. 2

Глава 2 . Средства разработки.. 2

2.1.   Среда разработки Python. 2

2.2.   Алгоритм
кластеризации. 2

2.3.   Количественная
оценка качества кластеризации. 2

2.4.   Примеры применения
на практике и его особенности. 2

Выводы по 2-й главе. 2

Глава 3 . Проектная часть. 2

3.1.   Функциональная
схема. 2

3.2.   Структурная схема. 2

3.3.   Интерфейс
пользователя. 2

3.4.   Программная
реализация алгоритма. 2

3.5.   Реализация ввода
данных. 2

3.6.   Реализация вывода
данных. 2

Выводы по 3-й главе. 2

4.1.   Тестирование на
Ирис. 3

4.2.   Сравнение работы
алгоритма. 3

4.3.   Руководство
пользователя. 3

4.4.   Описание
выходных файлов. 3

Выводы по 4-й главе. 3

ЗАКЛЮЧЕНИЕ…………………………………………………………………………………

СПИСОК
ЛИТЕРАТУРЫ… 3

  

Введение:

 

Спектральная кластеризация — это метод с корнями в
теории графов, где этот подход используется для идентификации сообществ узлов в
графе на основе соединяющих их ребер. Этот метод является гибким и позволяет
кластеризовать не графовые данные. Спектральная кластеризация использует
информацию из собственных значений (спектра) специальных матриц, построенных из
графика или набора данных. Мы узнаем, как построить эти матрицы,
интерпретировать их спектр и использовать собственные векторы для назначения
наших данных кластерам.

Спектральная кластеризация также связана с кластеризацией
DBSCAN , которая находит связанные по плотности компоненты. Связанные
компоненты соответствуют оптимальным спектральным кластерам (без сечения
краев); а DBSCAN использует асимметричный соседний граф с удаленными ребрами,
когда исходные точки не являются плотными. Таким образом, DBSCAN — это частный
случай спектральной кластеризации, но тот, который позволяет использовать более
эффективные алгоритмы (в худшем случае , во многих практических случаях гораздо
быстрее с индексами).

В качестве альтернативы вычислению только одного
собственного вектора вычисляютсяkсобственных
векторовдля некоторогоk, а затем
используется другой алгоритм (например,k-means)
для кластеризации точек по соответствующимkкомпонентам этих собственных
векторов.

Эффективность спектральной кластеризации можно
повысить, если решение соответствующей проблемы на собственные значения
выполнить безматричным способом , то есть без явных манипуляций или даже
вычисления матрицы подобия, как, например, валгоритме
Ланцоша.

Для больших графов второе собственное значение графа
(нормализованное) часто плохо ограничено матрицей Лапласа, что приводит к более
медленной сходимости собственных значений итеративными решателями.предварительное кондиционирование
является ключевой технологией, ускоряющей сходимость, например, в методе
свободной матрицы LOBPCG . Спектральная кластеризация была успешно применена к
большим графам, сначала определив их структуру сообщества , а затем
кластеризовав сообщества[3].

Спектральная кластеризация тесно связана с нелинейным
уменьшением размерности , и методы уменьшения размерности, такие как локально
линейное встраивание, могут использоваться для уменьшения шумовых ошибок или
выбросов. Эта проблема эквивалентна проблеме спектральной кластеризации, когда
ограничения на идентичность ослаблены. В частности, k- взвешенная
проблема среднего может быть переформулирована как проблема спектральной
кластеризации (разбиения графа) и наоборот. Результатом алгоритмов являются
собственные векторы, которые не удовлетворяют требованиям идентичности для
индикаторных переменных, определенных . Поэтому требуется постобработка
собственных векторов эквивалентности между задачами.[6]Преобразование
задачи спектральной кластеризации в k- взвешенное ядро
​​означает, что вычислительная нагрузка значительно снижается.

Объект исследования состоит в обзоре
способов кластеризации больших данных на основе программирования графов и
использования метода к-средних.

Предмет исследования составляет
спектральная кластеризация больших данных.

Целью работы состоит в разработке и
реализации алгоритма спектральной кластеризации на языке программирования Python.

Задачи работы:

1. Обзор особенностей спектральной
кластеризации

2. Разработка алгоритма спектральной
кластеризации

3. Практическая реализация алгоритма

4. Тестирование программы

5. Определение перспектив доработки

Работа состоит из введения, четырех глав,
заключения, списка литературы, приложений, 9 рисунков.

Не хочешь рисковать и сдавать то, что уже сдавалось?!
Закажи оригинальную работу - это недорого!

Заключение:

 

Од ни м из ве ду щи х ме то до в ан ал из а да нн ых яв ля ет ся кл ас те ри за ци я. За да че й кл ас те ри за ци и яв ля ет ся ра зб ие ни я со во ку пн ос ти об ъе кт ов на од но ро дн ые гр уп пы (кл ас те ры ил и кл ас сы), а це ль ю — по ис к су ще ст ву ющ их ст ру кт ур. Ре ша ет ся да нн ая за да ча пр и по мо щи ра зл ич ны х ме то до в, вы бо р ме то да до лж ен ба зи ро ва ть ся на ис сл ед ов ан ии ис хо дн ог о на бо ра да нн ых. Сл ож но ст ью кл ас те ри за ци и яв ля ет ся не об хо ди мо ст ь ее эк сп ер тн ой оц ен ки.

На да нн ый мо ме нт су ще ст ву ет бо ль шо е ко ли че ст во ме то до в кл ас те ри за ци и. Та к, на пр им ер, на иб ол ее оч ев ид ны м яв ля ет ся пр им ен ен ие ме то до в ма те ма ти че ск ой ст ат ис ти ки. Но ту т во зн ик ае т пр об ле ма с ко ли че ст во м да нн ых, иб о ст ат ис ти че ск ие ме то ды хо ро шо ра бо та ют пр и бо ль шо м об ъе ме ап ри ор ны х да нн ых, а у на с мо же т бы ть ог ра ни че нн ое их ко ли че ст во. По эт ом у ст ат ис ти че ск ие ме то ды не мо гу т га ра нт ир ов ат ь ус пе шн ый ре зу ль та т, чт о де ла ет их ма ло эф фе кт ив ны ми в ре ше ни и мн ог их пр ак ти че ск их за да ч.

Др уг им пу те м ре ше ни я эт ой за да чи мо же т бы ть пр им ен ен ие не йр он ны х се те й, чт о яв ля ет ся на иб ол ее пе рс пе кт ив ны м по дх од ом. Мо жн о вы де ли ть ря д пр еи му ще ст в ис по ль зо ва ни я не йр он ны х се те й:

— во зм ож но по ст ро ен ие уд ов ле тв ор ит ел ьн ой мо де ли на не йр он ны х се тя х да же в ус ло ви ях не по лн от ы да нн ых;

— ис ку сс тв ен ны е не йр он ны е се ти ле гк о ра бо та ют в ра сп ре де ле нн ых си ст ем ах с бо ль шо й па ра лл ел из ац ие й в си лу св ое й пр ир од ы;

— по ск ол ьк у ис ку сс тв ен ны е не йр он ны е се ти по дс тр аи ва ют св ои ве со вы е ко эф фи ци ен ты, ос но вы ва яс ь на ис хо дн ых да нн ых, эт о по мо га ет сд ел ат ь вы бо р зн ач им ых ха ра кт ер ис ти к ме не е су бъ ек ти вн ым.

Кл ас те ри за ци я яв ля ет ся за да че й, от но ся ще йс я к ст ра те ги и "об уч ен ие бе з уч ит ел я", т.е. не тр еб уе т на ли чи я зн ач ен ия це ле вы х пе ре ме нн ых в об уч аю ще й вы бо рк е. Дл я не йр ос ет ев ой кл ас те ри за ци и да нн ых мо гу т ис по ль зо ва ть ся ра зл ич ны е мо де ли се те й, но на иб ол ее эф фе кт ив ны м яв ля ет ся ис по ль зо ва ни е се те й Ко хо не на ил и са мо ор га ни зу ющ их ся ка рт.

 

Фрагмент текста работы:

 

Глава
1 . Предметная область

1.1. Технологии BigData

Большие данные (англ.big
data)
— серия подходов, инструментов и методов обработки структурированных инеструктурированных
данныхогромных объёмов и значительного многообразия для
получения воспринимаемых человеком результатов, эффективных в условиях
непрерывного прироста, распределения по многочисленным узламвычислительной
сети,
сформировавшихся в конце2000-х годов,
альтернативных традиционнымсистемам
управления базами данныхи решениям классаBusiness
Intelligence.

Исходя из определенияBig Data, можно
сформулировать основные принципы работы с такими данными:

1.Горизонтальная масштабируемость.
Поскольку данных может быть сколь угодно много – любая система, которая
подразумевает обработку больших данных, должна быть расширяемой. В 2 раза вырос
объём данных – в 2 раза увеличили количество железа в кластере и всё продолжило
работать.

2.Отказоустойчивость. Принцип горизонтальной
масштабируемости подразумевает, что машин в кластере может быть много.
Например, Hadoop-кластер Yahoo имеет более 42000 машин (поэтойссылкеможно
посмотреть размеры кластера в разных организациях). Это означает, что часть
этих машин будет гарантированно выходить из строя. Методы работы с большими
данными должны учитывать возможность таких сбоев и переживать их без каких-либо
значимых последствий.

3.Локальность данных.В больших распределённых
системах данные распределены по большому количеству машин. Если данные
физически находятся на одном сервере, а обрабатываются на другом – расходы на
передачу данных могут превысить расходы на саму обработку. Поэтому одним из
важнейших принципов проектирования BigData-решений является принцип локальности
данных – по возможности обрабатываем данные на той же машине, на которой их
храним.

Принцип работы технологии big data основан на
максимальном информировании пользователя о каком-либо предмете или явлении.
Задача такого ознакомления с данными – помочь взвесить все «за» и «против»,
чтобы принять верное решение. В интеллектуальных машинах на основе массива
информации строится модель будущего, а дальше имитируются различные варианты и
отслеживаются результаты.

Современные аналитические агентства запускают миллионы
подобных симуляций, когда тестируют идею, предположение или решают проблему.
Процесс автоматизирован.

К источникам big data относят:

· ин те рн ет – бл ог и, со цс ет и, са йт ы, СМ И и ра зл ич ны е фо ру мы;

· ко рп ор ат ив ну ю ин фо рм ац ию – ар хи вы, тр ан за кц ии, ба зы да нн ых;

· по ка за ни я сч ит ыв аю щи х ус тр ой ст в – ме те ор ол ог ич ес ки е пр иб ор ы, да тч ик и со то во й св яз и и др уг ие.

· Пр ин ци пы ра бо ты с ма сс ив ам и да нн ых вк лю ча ют тр и ос но вн ых фа кт ор а:

· Ра сш ир яе мо ст ь си ст ем ы. По д не й по ни ма ют об ыч но го ри зо нт ал ьн ую ма сш та би ру ем ос ть но си те ле й ин фо рм ац ии. То ес ть вы ро сл и об ъе мы вх од ящ их да нн ых – ув ел ич ил ис ь мо щн ос ть и ко ли че ст во се рв ер ов дл я их хр ан ен ия.

Ус то йч ив ос ть к от ка зу. По вы ша ть ко ли че ст во ци фр ов ых но си те ле й, ин те лл ек ту ал ьн ых ма ши н со ра зм ер но об ъе ма м да нн ых мо жн о до бе ск он еч но ст и. Но эт о не оз на ча ет, чт о ча ст ь ма ши н не бу де т вы хо ди ть из ст ро я, ус та ре ва ть. По эт ом у од ни м из фа кт ор ов ст аб ил ьн ой ра бо ты с бо ль ши ми да нн ым и яв ля ет ся от ка зо ус то йч ив ос ть се рв ер ов.

Ло ка ли за ци я. От де ль ны е ма сс ив ы ин фо рм ац ии хр ан ят ся и об ра ба ты ва ют ся в пр ед ел ах од но го вы де ле нн ог о се рв ер а, чт об ы эк он ом ит ь вр ем я, ре су рс ы, ра сх од ы на пе ре да чу да нн ых.

Важно! Это только фрагмент работы для ознакомления
Скачайте архив со всеми файлами работы с помощью формы в начале страницы

Похожие работы