Курсовая с практикой на тему Анализ рынка больших данных
-
Оформление работы
-
Список литературы по ГОСТу
-
Соответствие методическим рекомендациям
-
И еще 16 требований ГОСТа,которые мы проверили
Введи почту и скачай архив со всеми файлами
Ссылку для скачивания пришлем
на указанный адрес электронной почты
Содержание:
Введение. 3
1. Теоретический обзор рынка Big Data. 5
1.1. Большое количество данных. большая аналитика. большая
визуализация 5
1.2. Источники и клиенты больших данных. 8
2. Аналитический обзор рынка Big Data. 12
2.1. Практические примеры типа Big Data. 12
2.2. Инструменты для разных типов больших данных. 15
Заключение. 19
Список использованной литературы.. 21
Введение:
На данный момент нет метрики для больших данных. Нам
нужно представить его, чтобы понять, какие виды больших данных существуют и как
обращаться с этими разными видами больших данных. Только создание технологии,
обеспечивающей обработку и хранение разнородных, некоррелированных данных
большого объема, можно считать прорывным результатом, соответствующим мировому
уровню.
Для эффективного решения этих проблем предлагается новое
определение этого понятия, а именно «большие данные» характеризуются ситуацией,
когда актуальны условия для реализации теоремы CAP.
Данные можно обрабатывать и извлекать из них некоторую
полезную информацию. Итак, мы можем определить BigData как набор технологий
обработки информации для получения информации. Важно отметить, что объемы
данных, обрабатываемых через BigData, постоянно растут, как и скорость их
обработки. На данный момент BigData — это не только гиганты ИТ-мира, но и
системы, с которыми сталкивается каждый, кто работает в ИТ-сфере.
Актуальность темы исследования обусловлена тем, что в
настоящее время проблема «больших данных» — одна из самых, если не самая
актуальная в информатике. Его решение подразумевает возможность обработки
некоррелированных и разнородных данных большого объема, реализацию их
интеграции из распределенных источников методами консолидации или федерализации
и обеспечение безопасности доступа и хранения этих данных. Только создание
технологии, обеспечивающей обработку и хранение разнородных, некоррелированных
данных большого объема, можно считать прорывным результатом, соответствующим
мировому уровню. Для эффективного решения этих проблем предлагается новое
определение этого понятия, а именно «большие данные» характеризуются ситуацией,
когда актуальны условия для реализации теоремы CAP.
Теорема CAP — это эвристическое утверждение, что в любой
реализации распределенных вычислений невозможно обеспечить следующие три
свойства: согласованность, доступность и допуск на разделение. Таким образом, в
зависимости от того, какие свойства нельзя реализовать, мы имеем дело с разными
типами «больших данных». А это, в свою очередь, означает, что стандартный
подход, основанный на концепции MapReduce, имеет ограниченную область
применения.
В работе обсуждаются различные возможности реализации
обработки данных в разных случаях, и делается вывод о необходимости создания
экосистемы «больших данных».
Методология исследования –еоретические разработки и
практические методы с помощью которых решались поставленные задачи.
Структура. Курсовая работа состоит из введения, двух
глав, заключения, использованных источников и литературы.
Заключение:
Таким образом, данные всегда были большими. Интенсивно
появляются новые, все более и более совершенные инструменты сбора, хранения и
обработки больших данных. Хотелось бы, чтобы нам удалось выполнить эти операции
в режиме реального времени. Это требует развития соответствующих направлений
прикладной математики и информатики (актуальный запрос от технологий и практики
к современной науке).
Также существует острая потребность в массовом обучении
специалистов по большим данным, большой аналитике и большой визуализации (с
упором на конкретные области применения). Однако этого недостаточно: необходимо
накапливать знания (в соответствующих областях науки) и создавать модели для
компактного и адекватного описания изучаемых явлений и процессов (с учетом
решаемой проблемы). Другими словами, желательно продвинуться с уровня Браге до
уровня Ньютона во всех возможных областях приложений больших данных. В
противном случае мы обречены обращаться с деталями, не видя леса за деревьями.
Более того, опережающее развитие технологий стало
проблемой масштаба цивилизации, которую должны учитывать ученые и инженеры (в
том числе в области больших данных и большого контроля), а также потребители
соответствующих методов и инструментов, созданных ими.
Из краткого обзора выше мы видим, что предложенное
определение работает в том смысле, что
1. Мы можем создать новую спецификацию типов BigData,
которая может помочь с выбором инструментов для их обработки;
2. DataAPI — существенная часть инструментария, поскольку
это важный механизм как для интеграции с другими системами, так и для доступа к
данным и результатам их обработки;
3. Дальнейшие исследования в этой области, безусловно,
связаны с построением экосистемы BIG DATA, которая поможет определить, с какими
типами данных мы имеем дело и какие инструменты подходят для их эффективной
обработки;
4. По-прежнему требуется большое количество тестов как
для определения пределов различных типов данных, так и для выбора подходящих
программных стеков для определенных типов данных;
5. Предлагаемая мера помогает на первом этапе
исследования, но мы считаем, что она должна быть более подробной, чтобы
охватить проблемы соответствия различных типов данных архитектуре обработки.
Фрагмент текста работы:
1. Теоретический обзор рынка Big Data 1.1. Большое количество данных. большая аналитика.
большая визуализация В информационных технологиях большие данные (возможно,
этот термин впервые упоминается в специальном выпуске журнала Nature [14])
представляют собой направление теоретических и практических исследований по
разработке и применению методов и средств обработки больших объемов
неструктурированных данных. Обработка больших данных включает их1: — получение;
— коробка передач; — хранение (включая запись и извлечение); — обработка
(преобразование, моделирование, вычисления и анализ); — использование (в том
числе визуализация) в практической, научной, образовательной и других видах
человеческой деятельности. В узком толковании термин «большие данные» иногда
охватывает только технологии их получения, передачи и хранения. В этом случае
обработка больших данных (включая построение и анализ соответствующих моделей)
называется большой аналитикой (включая большие вычисления), а визуализация
соответствующих результатов (в зависимости от когнитивных способностей
пользователя) называется большой визуализацией.
Ключевая роль принадлежит объекту и субъекту
(«заказчику»); последнее требует знания о состоянии и динамике первого. Однако
иногда существует пропасть между данными, полученными об объекте, и знаниями,
необходимыми субъекту. Первичные данные должны быть предварительно обработаны,
т. е. преобразованы в более или менее структурированную информацию.
Впоследствии из этой информации извлекаются необходимые знания в зависимости от
конкретной задачи, решаемой субъектом.
В частности, субъект может использовать эти знания для
управления объектом, а именно, для целенаправленного воздействия на объект,
чтобы обеспечить его требуемое поведение. В частном случае (неодушевленный
предмет) управление может быть автоматическим.
Возможно, скоро термин «большой контроль» станет обычным
для обозначения контроля, основанного на больших данных, большой аналитике и,
возможно, большой визуализации.
Качественный анализ многочисленных публикаций по большим
данным приводит к субъективной экспертной оценке автора текущего распределения
внимания исследователей и разработчиков (но не пользователей!) К проблемам
обработки больших данных.
Однако является ли текущее положение дел разумным? С
одной стороны, ответ положительный. Действительно, технологии пошли именно по
этому пути развития; кроме того, для анализа и визуализации данных требуется
сбор и хранение данных (без сомнения, с возможностью быстрого доступа и
обработки).
С другой стороны, существующий «дисбаланс» является
следствием следующего. В настоящее время человечество осознает потенциальную
полезность любых данных, но не до конца понимает, что делать с растущим потоком
данных. Эта проблема не кажется новой, поскольку в последнее время появился
класс подобных проблем цивилизационного масштаба, формально называемых
проблемами развития опережающих технологий. Чтобы прояснить эту идею,
рассмотрим взаимосвязь между наукой, технологиями и практикой.
В разные периоды развития человечества наука часто
инициировала создание и внедрение тех или иных технологий; иногда цепочка была
«обратной» (сейчас мы и наблюдаем именно такую картину!). Действительно,
обращайтесь к истории.