Дипломная работа (бакалавр/специалист) на тему Исследование и анализ методов оптимизации архивного хранения больших объёмов данных.
-
Оформление работы
-
Список литературы по ГОСТу
-
Соответствие методическим рекомендациям
-
И еще 16 требований ГОСТа,которые мы проверили
Введи почту и скачай архив со всеми файлами
Ссылку для скачивания пришлем
на указанный адрес электронной почты
Содержание:
Введение………………………………………………………………………. 5
1 Принципы построения хранилищ больших данных……………………… 6
1.1 Понятие хранилища данных……………………………………………… 6
1.2 Принципы построения хранилищ данных………………………………. 14
1.3 Технологии управления информацией………………………………….. 21
1.4 Понятие баз данных и их разработка……………………………………. 29
2 Используемые технологии…………………………………………………. 39
2.1 Многообразие выбора…………………………………………………….. 39
2.2 Архитектура и конфигурация……………………………………………. 50
3 Анализ и оптимизация системы хранения больших данных…………….. 61
3.1 Хранилища больших объёмов данных………………………………….. 61
3.2 Оптимизация хранения данных…………………………………………. 66
Заключение……………………………………………………………………. 70
Список использованных источников………………………………………… 73
Введение:
Каждый день в учреждениях и организациях создаётся и поступает огромное количество документов. У них есть различная значимость, конкретный срок для хранения, они могут много раз быть востребованы по окончании работы с ними. Чтобы хранить большой объём данных, необходимо иметь оптимизированную систему организации хранения документов. Соблюдение различных правил и использование методов оптимизации хранения данных даёт возможность надёжно их хранить, а также легко и быстро находить любые документы.
Целью дипломной работы является исследование и анализ методов оптимизации архивного хранения больших объёмов данных.
Согласно цели работы, сформулированы следующие задачи:
1. Рассмотреть понятие хранилища данных.
2. Изучить принципы построения хранилищ данных.
3. Рассмотреть технологии управления информацией.
4. Изучить понятие баз данных и их разработку.
5. Проанализировать многообразие выбора.
6. Исследовать архитектуру и конфигурацию
7. Провести анализ и оптимизацию системы хранения больших данных.
Заключение:
В настоящее время рынок розничной торговли активно развивается (продажи товаров и услуг, онлайн-услуги банков и страховых компаний и т.д.). В связи с этим количество информации, которая может быть эффективно обработана и проанализирована, увеличивается, - говорит Алексей Ходорков. - Все наиболее перспективные области торговли требуют автоматизации процессов. из одного филиала в другой, что, в свою очередь, требует, чтобы организация имела достаточно хорошее хранилище и управляла сбором данных. Несмотря на постоянно растущий объем данных, оснащение большинства компаний ресурсами хранения довольно неплохо.
В сфере бизнеса или личной жизни вам часто приходится работать с информацией из разных источников, каждый из которых связан с определенным типом бизнеса. Чтобы координировать всю эту информацию, вам нужны некоторые организационные знания и навыки. Microsoft Access объединяет данные из многих источников в единую реляционную базу данных. С помощью форм, опросов и отчетов, которые вы создаете, вы можете быстро и эффективно обновлять информацию, получать ответы на вопросы, находить нужную информацию, анализировать данные, распечатывать отчеты, диаграммы и этикетки с доставкой. В базе данных данные для каждого источника хранятся в отдельной таблице.
Когда вы работаете с данными в нескольких таблицах, между таблицами создаются отношения. Запрос создается для поиска и выбора данных, соответствующих определенным критериям. Запросы также позволяют обновлять или удалять несколько записей одновременно, запускать встроенные и специальные сообщения. Формы используются для просмотра, ввода или редактирования данных непосредственно в электронной таблице. Форма позволяет выбирать данные из одной или нескольких таблиц и отображать их с использованием стандартного или созданного пользователем макета.
Отчеты используются для анализа или печати данных определенным образом. Например, вы можете создать отчет, который группирует данные и сводки, или вы можете распечатать отчет с адресными метками. Вы можете получить доступ ко всем его объектам в окне базы данных. Для просмотра определенных типов объектов выберите соответствующую вкладку. Используйте кнопки, чтобы открывать и редактировать существующие объекты и создавать новые. С помощью разработанной базы данных вы сможете быстро и эффективно получать информацию о препаратах. Удобный интерфейс, с одной стороны, облегчает навигацию по программе, не требуя от пользователя специальных навыков работы с электронными компьютерами, с другой - предоставляет пользователю оперативную информацию.
По словам Ивана Ерехинского, оснащение российских компаний устройствами хранения доступа (с использованием протоколов Fibre Channel и iSCSI) в настоящее время является практически глобальным, и это относится ко всем сегментам - от маломатричных до действительно больших систем на уровне предприятия. - Кроме того, темпы внедрения новых технологий, таких как FCoE, практически не хуже, чем в мире. Ситуация несколько хуже для устройств Network Attached Storage (NAS) и Content Addressable Storage (CAS) - их уровень проникновения в России в несколько раз ниже, чем в Европе, особенно в США.
В связи с основными тенденциями на рынке систем хранения, роль систем хранения в центрах обработки данных существенно меняется: современные системы хранения оснащены более интеллектуальными функциями, которые упрощают управление информационными ресурсами для ИТ-персонала. Сегодня нет необходимости убеждать кого-либо в преимуществах виртуализации, но большинство компаний уже виртуализировали некоторые из своих ИТ-систем и начали аналогичную работу в своих центрах обработки данных, таким образом постепенно готовя путь к переходу на облачную инфраструктуру. Этот факт также подтверждается статистикой - приоритетами ИТ-директоров в 2019 году. Это были: виртуализация на 3-м месте в 2018 году. Перемещение на 1 и облачные службы 14-2. Имейте в виду, что IDC также дает оптимистичный прогноз для облачных технологий. Его эксперты прогнозируют, что к 2020 году 15% данных в цифровой вселенной будут создаваться, храниться и обрабатываться в облаке.
Программно-определяемое хранилище (SDS) - это основанный на политике способ программного управления распределением ресурсов и задачами хранения данных независимо от оборудования. SDS обычно включает в себя инструмент виртуализации хранения, который изолирует устройства хранения от программного обеспечения.
Хранение данных больше не зависит от местоположения. Во всем мире способность эффективно искать, получать и использовать информацию считается естественной. Многое, если большая часть этой информации находится в облаке или поступает из облака, поэтому сегодня вам нужно научиться тому, чтобы этот важный путь к успеху - возможность доступа к данным - был оптимизирован и не стал слабым звеном в вашей цепочке данных. Методы и программное обеспечение для оптимизации данных и баз данных и для управления хранением виртуализированных данных с использованием программного обеспечения могут быть инструментом для достижения этой цели.
Фрагмент текста работы:
1 Принципы построения хранилищ больших данных
1.1 Понятие хранилища данных
Хранилище данных - это тип системы управления данными, которая предназначена для включения и поддержки действий бизнес-аналитики (BI), особенно аналитики. Хранилища данных предназначены исключительно для выполнения запросов и анализа и часто содержат большие объемы исторических данных. Данные в хранилище данных обычно получают из широкого спектра источников, таких как файлы журналов приложений и приложения транзакций.
Хранилище данных централизует и консолидирует большие объемы данных из нескольких источников. Его аналитические возможности позволяют организациям получать ценные бизнес-идеи из своих данных, чтобы улучшить процесс принятия решений. Со временем он создает исторический отчет, который может оказаться неоценимым для исследователей данных и бизнес-аналитиков. Благодаря этим возможностям хранилище данных можно считать «единственным источником правды» организации.
Хранилище данных - это, интегрированный, редко изменяющийся хронологический набор данных, организованный для хранения, обработки и дальнейшего использования. Субъективная ориентация означает, что хранилище данных объединяет информацию, которая отражает различные аспекты конкретной темы. Интеграция требует, чтобы данные, хранящиеся в этом хранилище, были преобразованы в единый формат. Историческая поддержка означает, что все данные в этом хранилище соответствуют следующим временным интервалам. Помимо работы с одним источником данных, у менеджеров и аналитиков должны быть удобные способы визуализации данных, компиляции, поиска тенденций и прогнозирования. [1]
Несмотря на разнообразие аналитических функций, можно выделить типичные методы анализа данных, каждый из которых соответствует определенному набору инструментов. Вместе с хранилищем данных эти инструменты являются идеальным решением для автоматизации аналитических операций и создания деловой информационно-аналитической системы.
Рисунок 1.1 – Структура хранилища данных
Хранилища данных используют дизайн, отличный от стандартных операционных баз данных. Последние оптимизированы для поддержания строгой точности данных в данный момент за счет быстрого обновления данных в реальном времени. Хранилища данных, напротив, предназначены для долгосрочного просмотра данных. Они компенсируют объем транзакции и вместо этого специализируются на агрегировании данных.
Для чего используются хранилища данных?
Многие типы бизнес-данных анализируются через хранилища данных. Необходимость в хранилище данных часто становится очевидной, когда аналитические требования идут вразрез с текущей производительностью операционных баз данных. Выполнение сложного запроса к базе данных требует, чтобы база данных вошла во временное фиксированное состояние. Это часто несостоятельно для транзакционных баз данных. Хранилище данных используется для выполнения аналитической работы, позволяя транзакционной базе данных свободно концентрироваться на транзакциях.
Другими преимуществами хранилища данных являются возможность анализа данных из нескольких источников и согласование различий в схеме хранения с использованием процесса ETL.
Каковы недостатки хранилища данных?
Хранилища данных являются дорогостоящими в масштабировании и не справляются с обработкой необработанных, неструктурированных или сложных данных. Однако хранилища данных по-прежнему являются важным инструментом в эпоху больших данных. 
Типичное хранилище данных часто включает в себя следующие элементы:
- реляционная база данных для хранения и управления данными;
- решение для извлечения, загрузки и преобразования (ELT) для подготовки данных к анализу;
- статистический анализ, отчетность и возможности интеллектуального анализа данных;
- инструменты анализа клиентов для визуализации и представления данных бизнес-пользователям;
- другие, более сложные аналитические приложения, которые генерируют действенные;
- информация с применением алгоритмов машинного обучения и искусственного интеллекта (ИИ). [1]
Организации, которые используют хранилище данных для помощи своим аналитикам и бизнес-аналитикам, видят ряд существенных преимуществ:
- Улучшение данных - добавление источников данных в хранилище данных позволяет организациям собирать согласованные и релевантные данные из этого источника. Им не нужно задаваться вопросом, будут ли данные доступными или противоречивыми, когда они поступают в систему. Это обеспечивает более высокий уровень качества данных и целостности данных для принятия обоснованных решений.
- Более быстрые решения - данные на складе находятся в таких согласованных форматах, что они готовы для анализа. Он также обеспечивает аналитическую силу и более полный набор данных для принятия решений на основе неопровержимых фактов. Таким образом, лицам, принимающим решения, больше не нужно отвечать на догадки, неполные данные или данные низкого качества и риск, приводящий к медленным и неточным результатам. 
Данные обрабатываются, редактируются и принимаются, чтобы пользователи могли получить доступ к данным, хранящимся в базе данных, через корпоративные носители, клиенты SQL и документы. Хранилища данных объединяют данные из разных источников в единую базу данных.
Объединяя всю эту информацию в одном месте, организация способна полностью анализировать своих клиентов. Это поможет убедиться, что она проверила всю доступную информацию. Хранилище данных позволяет анализировать данные. [2]
Три основных типа хранилищ данных:
1. Корпоративное хранилище данных:
Корпоративное хранилище данных предоставляет центральную базу данных для поддержки принятия решений по всему предприятию.
2. Оперативное хранилище данных:
ODS (Оперативное хранилище данных) - оно имеет широкий охват предприятия, но в отличие от реального хранилища данных предприятия, данные обновляются практически в реальном времени и используются для повседневной деловой активности.
3. Data Mart:
Datamart является подмножеством хранилища данных и поддерживает определенный регион, бизнес-единицу или бизнес-функцию.
Хранилища данных и витрины данных построены на основе моделирования многомерных данных, где таблицы фактов связаны с таблицами измерений. Это наиболее полезно для пользователей для доступа к данным, поскольку базу данных можно представить в виде куба нескольких измерений. Хранилище данных предоставляет возможность нарезки и нарезки куба по каждому из его измерений. [2]
Рисунок 1.2 – Типы хранилищ данных
Хранилища данных предлагают всеобъемлющее и уникальное преимущество, позволяющее организациям анализировать большие объемы вариантных данных и извлекать из них значительную ценность, а также вести исторический учет.
Четыре уникальные характеристики (описанные ученым-компьютерщиком Уильямом Инмоном, который считается отцом хранилища данных) позволяют хранилищам данных предоставлять это всеобъемлющее преимущество. Согласно этому определению хранилища данных могут быть:
- Предметно-ориентированными. Они могут анализировать данные о конкретной теме или функциональной области (например, о продажах).
- Интегрированными. Хранилища данных обеспечивают согласованность различных типов данных из разнородных источников.
- Энергонезависимыми. Когда данные находятся в хранилище данных, они стабильны и не изменяются.
- Время-вариантными. Анализ хранилища данных смотрит на изменения во времени.
Хорошо спроектированное хранилище данных будет выполнять запросы очень быстро, обеспечивать высокую пропускную способность и обеспечивать достаточную гибкость для конечных пользователей, чтобы они могли «нарезать ломтики» или уменьшать объем данных для более тщательного изучения в соответствии с различными требованиями - будь то при высокой уровень или на очень хорошем, детальном уровне. Хранилище данных служит функциональной основой для сред промежуточного ПО BI, которые предоставляют конечным пользователям отчеты, информационные панели и другие интерфейсы.
Когда организация намеревается спроектировать хранилище данных, она должна начать с определения конкретных бизнес-требований, согласования объема и разработки концептуального проекта. Затем организация может создать как логический, так и физический дизайн хранилища данных. Логический дизайн включает в себя отношения между объектами, а физический дизайн - лучший способ хранения и извлечения объектов. Физический дизайн также включает в себя процессы транспортировки, резервного копирования и восстановления.
Любой дизайн хранилища данных должен учитывать следующее:
Конкретное содержание данных;
Отношения внутри и между группами данных;
Системная среда, которая будет поддерживать хранилище данных;
Типы необходимых преобразований данных;
Частота обновления данных.
Характеристики хранилищ данных:
- активность появляется на местном уровне
- основная часть оперативной обработки
- локальный сайт автономен
- каждое локальное хранилище данных имеет свою уникальную архитектуру и содержимое данных.
- данные являются уникальными и имеют первостепенное значение только для этой местности
- большая часть записи является локальной и не тиражируется
- любое пересечение данных между локальными хранилищами данных является косвенным
- локальное хранилище обслуживает различные технические сообщества
- область локальных хранилищ данных ограничена локальным сайтом
- локальные склады также содержат исторические данные и интегрированы только на локальном сайте.
Основным фактором в дизайне являются потребности конечных пользователей. Большинство конечных пользователей заинтересованы в проведении анализа и рассмотрении данных в совокупности, а не в виде отдельных транзакций. Однако часто конечные пользователи не знают, чего хотят, пока не возникнет конкретная потребность. Таким образом, процесс планирования должен включать в себя достаточно разведки, чтобы предвидеть потребности. Наконец, проект хранилища данных должен предоставлять возможности для расширения и развития, чтобы идти в ногу с растущими потребностями конечных пользователей. [3]
Существует два типа хранилищ данных на основе хоста, которые могут быть реализованы:
1) Основанные на хосте хранилища мэйнфреймов, которые находятся в большой базе данных. Поддерживается надежной и надежной структурой с высокой пропускной способностью, такой как IBM system / 390, системы UNISYS и Data General sequent, и базами данных, такими как Sybase, Oracle, Informix и DB2.
2) Хранилища данных локальной сети на основе хостов, где доставка данных может осуществляться либо централизованно, либо из среды рабочей группы. Размер хранилищ данных базы данных зависит от платформы.
Инструменты извлечения и преобразования данных позволяют автоматизировать извлечение и очистку данных из производственных систем. Неприменимо для прямого доступа инструментов запросов к этим категориям методов по следующим причинам:
1. Огромная нагрузка сложных запросов к хранилищам может оказать слишком сильное вредное влияние на приложение, ориентированное на обработку критически важных транзакций (TP). 
2. Эти системы TP разрабатываются в своей базе данных для пропускной способности транзакций. Во всех методах база данных предназначена для оптимальной обработки запросов или транзакций. Сложный бизнес-запрос требовал объединения многих нормализованных таблиц, и в результате производительность, как правило, будет низкой, а конструкции запроса будут в значительной степени сложными. 
3. Нет уверенности в том, что данные в двух или более производственных методах будут согласованными.
Организации могут получить больше от своих аналитических усилий, выйдя за пределы простых баз данных и погрузившись в мир хранилищ данных. Поиск подходящего складского решения, отвечающего потребностям бизнеса, может существенно изменить то, насколько эффективно компания обслуживает своих клиентов и развивает свою деятельность.