Курсовая с практикой Информатика Хранилище и системы интеллектуального анализа данных

Курсовая с практикой на тему Data Maining метод опорных данных

  • Оформление работы
  • Список литературы по ГОСТу
  • Соответствие методическим рекомендациям
  • И еще 16 требований ГОСТа,
    которые мы проверили
Нажимая на кнопку, я даю согласие
на обработку персональных данных
Фрагмент работы для ознакомления
 

Содержание:

 

Введение 4
1. Сущность интеллектуального метода анализа данных 5
1.1. Основные понятия интеллектуального метода анализа данных 5
1.2. Data mining метод опорных данных 13
2. Сфера применения метода опорных данных Data mining 17
Заключение 23
Список использованной литературы 25

  

Введение:

 

Data mining, то есть интеллектуальный анализ данных (ИАД) представляет собой процесс аналитического исследования информационных массивов большого объема с целью выявления различных систематических взаимосвязей и закономерностей между имеющимися в этих массивах переменными, которые впоследствии можно использовать при работе с новыми совокупностями данных.
В основе современной технологии ИАД лежит использование концепции паттернов (шаблонов), которые отражают фрагменты многоаспектных взаимоотношений, имеющихся внутри данных. Данные паттерны — это закономерности, которые характерны для подвыборок данных, которые могут выражаться в компактной и понятной для пользователя форме. Процедура поиска паттернов производится посредством ряда методов, не ограниченных рамками умозрительных предположений о структуре выборке и видах распределения значений исследуемых показателей.
Сейчас технология ИАД (она же — Data Mining) используется практически во всех сферах деятельности человека, где накоплены ретроспективные данные.
Целью данной работы является изучение особенностей использования Data Mining метода опорных данных.
Для достижения поставленных целей необходимо решить ряд задач:
• Изучить основные понятия интеллектуального метода анализа данных,
• Рассмотреть сущность Data mining метода опорных данных,
• Изучить сферы применения метода опорных данных Data mining.

Не хочешь рисковать и сдавать то, что уже сдавалось?!
Закажи оригинальную работу - это недорого!

Заключение:

 

Исходя из рассмотренного в работе материала, можно сделать вывод о том, что data mining — это процесс, при помощи которого из старых данных можно извлечь нечто новое и нетривиальное. Методы, используемые в данном случае, основываются на разработках в области искусственного интеллекта и статистики, используются при работе с базами данных. В результате, благодаря анализу уже имеющихся данных, выявляются новые закономерности, которые помогают обнаружить новую информацию.
Интеллектуальный анализ данных широко применяется в мировом сообществе при проведении исследований во многих областях, например, в генетике, биоинформатике, астрономии, медицине, экономике, образовании, информатике и других. Чтобы проводить эффективные эксперименты, получая конкурентоспособные и доказательные результаты, специалисты должны обладать знаниями и навыками в области интеллектуального анализа данных.
Сегодня известны статистические методы и кибернетические методы. Первые базируются на уже накопленных знаниях и данных, вторые – в основном, на разных математических подходах. Статистические методы Data Mining включают в себя: анализ исходных данных, многомерный статистически анализ, анализ связей и анализ временных рядов. Кибернетические методы Data Mining объединяют методы, основанные на математике и применении искусственного интеллекта. Вот некоторые методы интеллектуального анализа данных:
• Кластеризация – или поиск и объединение похожих структур и объектов. Слово «кластер» в переводе обозначает скопление или гроздь. Кластеризация не помогает делать выводы, а только находит и объединяет объекты с общими свойствами.
• Еще одним популярным методом является Алгоритм k-средних (k-means) (или быстрый кластерный анализ). Алгоритм k-средних помогает определить гипотезы относительно количества кластеров. При этом значение k может зависеть от ранее проведенных исследований, предположений или даже интуиции.
• Еще один популярный метод – байесовские сети: графические структуры, которые представляют вероятностные отношения между огромным массивом переменных. Байесовские сети служат для создания вероятностного вывода на основе этих переменных.
• искусственные нейронные сети. Очень популярная тема в последнее время – и они у всех на слуху. Прежде чем воспользоваться нейронной сетью, ее нужно «научить». От того, насколько правильно, верно и точно будет обучена сеть, зависит ее эффективность в решении тех или иных задач. Обучает сеть – человек, аналитик. Поэтому грамотные специалисты по обучению нейронных сетей очень востребованы на рынке.

   

Фрагмент текста работы:

 

1. Сущность интеллектуального метода анализа данных
1.1. Основные понятия интеллектуального метода анализа данных
Прежде чем изучать сущность ИАС необходимо рассмотреть такие ключевые понятия как база данных (БД), модель базы данных, хранилище данных.
В информатике, понятие база данных — это набор данных для информационных сетей и пользователей, хранящихся в особом, организованном виде. Вид хранения данных определяется заданной структурой (схемой) базы данных и правилами ее управления.
Сами по себе, базы данных бесполезны, если нет возможности ими управлять. Под управлением базой данных понимаем возможность индивидуального или коллективного добавления информации, ее сортировку, частичное или полное копирование и перемещение, объединение двух или нескольких баз данных. Для управления базами данных созданы программные продукты, являющиеся программным обеспечением баз данных. Называются они СУБД – системы управления базами данных.
Именно с СУБД имеют дело конечные потребители. Современные СУБД позволяют обрабатывать не только тексты или графику, но и медиафайлы (аудио и видео файлы). Любой программный продукт имеет свой язык, при помощи которого он управляется. Не исключение и СУБД. Один из основных языков для общения с СУБД является язык SQL (structured query language — язык структурированных запросов).
Стоит отметить, что по характеру использования СУБД делятся на однопользовательские (для одного пользователя – локального компьютера) и много пользовательские (для сетей) [15].
Выделяются следующие виды баз данных по структуре:
• иерархические;
• сетевые;
• реляционные.
Под иерархической понимается такая база данных, в которой хранение данных и их структурирование осуществляется по принципу разделения элементов на родительские и дочерние. Преимуществом таких баз является лёгкость в чтении запрашиваемой информации и её быстрое предоставление пользователю.
Компьютер способен быстро ориентироваться в ней. Иерархический принцип взят за основу в структурировании файлов и папок в операционной системе Windows, а реестр хранит информацию о параметрах работы тех или иных приложений в структурированном иерархическим способом виде. Все интернет-ресурсы также построены по иерархическому принципу, так как при его использовании ориентироваться в рамках сайта очень легко [10, 37 c.]. В качестве примера можно привести базу данных на языке XML, содержащую в себе очерки о состоянии сельского хозяйства в регионах России. В этом случае родительским элементом выступит государство, далее пойдёт разделение на субъекты, а в рамках субъектов будет своё разветвление. В данном случае от верхнего элемента к нижнему идёт строго одно обращение.
Под сетевой базой данных понимается модифицированная иерархическая. Её особенность заключается в том, что элементы могут быть связаны с друг другом в нарушение иерархии. То есть дочерний элемент одновременно может иметь несколько предков. В этом случае также примером выступает база данных на основе языка XML.
СУБД MySQL работает только с реляционными базами данных. Реляционные базы данных наиболее просты для первичного изучения. Кроме этого они используются на всех хостингах и серверах для массового пользования. Реляционные базы данных – это простые таблицы, в которых есть информационные строки и столбцы. Пересечение строки и столбца называют ячейкой. Вся база данных состоит из нескольких или многих таблиц, причем, все таблицы между собой взаимодействуют.
Во время проектирования базы данных следует учесть следующие два фактора:
• база данных должна быть компактной и не содержать избыточных компонентов;
• обработка базы данных должны происходить просто.
Проблема в том, что эти факторы друг другу противоречат. А ведь проектирование — важнейший момент при составлении базы данных и дальнейшей работе с ней. Заниматься им рекомендуется администратору сервера, обладающему определённым опытом. В крупных проектах задействовано множество таблиц, которых может быть более сотни. При этом обойтись без них невозможно, если человек имеет дело с важным и сложным проектом. Перед составлением таблицы следует составить диаграмму или схему, в которой содержится информация о видах хранимой информации, а также о типе данных, который лучше всего подойдёт для таких целей.
Модель данных является некоторой абстракцией, которая прикладывается к конкретным данным и позволяет трактовать их, как информацию, т.е. сведения содержат не только набор определенных данных, но и связи между ними. Иначе говоря, моделью данных (МД) описывается определенный набор родовых понятий и признаков, которыми обладают все конкретные системы управления базами данных (СУБД) и управляемые ими базы данных (БД), если они используют эту модель. Наличие модели данных дает возможность сравнить конкретные реализации с помощью одного общего языка [13, 142-143 c.].
Физическая модель данных работает с категориями, которые касаются организации внешней памяти и структур хранения, которые используются в данной операционной среде. В настоящее время в качестве физических моделей применяют разные методы размещения данных, которые основаны на файловых структурах: организации файлов прямого и последовательного доступов, индексных и инвертированных файлов, файлов, использующих разные способы кэширования, взаимосвязанных файлов.
Помимо этого, современными БД широко используются страничные организации данных. Физические модели данных, которые основаны на страничной организации, наиболее перспективны в наши дни. Максимальный интерес вызван моделями данных, которые используются на концептуальном уровне. По отношению к ним внешние модели называют подсхемами и используют те же абстрактные категории, что и концептуальные модели данных.
Процесс ИАД, как правило, проходит в несколько стандартных этапов [9,56-57 c.]:
1) понимание сущности задачи анализа и ее чёткая формулировка,
2) подготовка данных для проведения процедуры автоматизированного анализа;
3) использование подходящих методик ИАД и построение моделей;
4) проверка правильности построенных в процессе анализа моделей;
5) интерпретация построенных моделей человеком.
Как можно заметить, этапы интеллектуального анализа данных схожи с этапами выполнения любой исследовательской работы (формулирование темы, целей и задач исследования, теоретическое и экспериментальное исследования, анализ и формулирование результатов исследований, внедрение и проверка эффективности результатов проведенного исследования). Отличие заключается в том, что окончательная оценка эффективности полученных результатов выходит за рамки непосредственно самого процесса ИАД и возможна после их практического применения.
Рассмотрим особенности планирования реализации механизма data mining. Первым шагом является постановка задачи. Для ее решения понадобится база данных, в которой предположительно можно обнаружить какие-то связи между данными, которые помогут найти решение для задачи — раскрыть какие-то новые знания. Следует понимать, что конечные знания действительно должны быть новыми, а не подтверждать то, что уже было известно. В то же время они должны обладать определенной ценностью и быть доступными для интерпретации.
Далее выбираются методы, которые будут использованы для этого процесса. Методы зависят от того, идет ли речь об изучении имеющихся данных для того, чтобы представить скрытые в них закономерности, или же необходимо на их основе сделать какие-то прогнозы для случаев, где данные еще не существуют. В первом случае могут быть использованы кластерный анализ, построение регрессионной модели или поиск ассоциативных правил между объектами, а во втором — регрессионный анализ, кластеризация объектов, анализ временных рядов.
Не стоит забывать о том, таким образом были сформированы задачи для data mining, возможно, в процессе его реализации не раз придется столкнуться с необходимостью создавать отдельные алгоритмы для машины, согласно которым, она будет работать с данными и выводить результат. По завершении работы машина представляет свой анализ, а пользователю необходимо лишь интерпретировать полученные данные и вывести из них решение для поставленной ранее задачи.
Все существующие методы ИАД по принципу работы с исходными данными можно разделить на два объемных класса [14, 32-33 c.]:
• методы рассуждений, основанные на анализе прецедентов. Данные в данном случае хранятся в детализированном виде и непосредственно используются в прогностическом моделирования или при анализе исключений. Основной проблемой использования данных методов является наличие трудности их применения при анализе данных больших объемов. При этом стоит заметить, что именно при анализе данных большего объема методы ИАД способны приносят наибольшую пользу.
• методы, базирующиеся на нахождении закономерностей в процессе свободного поиска. В данном случае данные на первом этапе анализа извлекаются из входной информации и преобразуются в определенные конструкции формального вида (в зависимости от выбранного метода анализа), то есть производиться выявление закономерностей в данных в процессе свободного поиска, что отсутствует при использовании методов рассуждений. При проведении прогностического моделирования и анализе исключений применяются результаты данного этапа ИАД. Результаты эти имеют более компактный вид, чем сами входные информационные массивы [16]. При этом полученные в результате построения модели ИАД конструкции могут быть как интерпретируемыми («прозрачными»), так и нетрактуемыми (так называемыми «черными ящиками»).
Data Mining — анализ данных для обнаружения в них скрытых знаний. Знания — совокупность фактов, закономерностей и эвристических правил, с помощью которых решается задача. Свойства знаний:
• Структурированность
• Удобство доступа
• Лаконичность
• Непротиворечивость
• Наличие процедур обработки.
Обнаруживаемые знания должны быть нетривиальны, полезны, понятны человеку и новы. Представление знаний в Data Mining:
• Правила
• Деревья решений
• Кластеры
• Математические функции.
Задачи Data Mining [18]:
• Классификация (определение принадлежности объекта к одному из классов)
• Регрессия (определение неизвестного параметра объекта по известным)
• Поиск ассоциативных правил (нахождение зависимостей между отдельными объектами)
• Прогнозирование и оценивание (предсказание будущих или пропущенных значений)
• Кластеризация (поиск отдельных классов и выявление их характеристик)
• Визуализация (создание графического представления).
Концепция хранилищ данных (ХД) — разделение данных оперативной обработки (ОИД) и данных для задач анализа. Свойства ХД:
• Предметная ориентация (можно описать одно и то же с разных точек зрения и хранить только нужные для анализа данные)
• Единый формат данных
• Хронология (привязка данных ко времени)
• Неизменяемость (только чтение).

Важно! Это только фрагмент работы для ознакомления
Скачайте архив со всеми файлами работы с помощью формы в начале страницы

Похожие работы