Реферат на тему Особенности реальных данных
-
Оформление работы
-
Список литературы по ГОСТу
-
Соответствие методическим рекомендациям
-
И еще 16 требований ГОСТа,которые мы проверили
Введи почту и скачай архив со всеми файлами
Ссылку для скачивания пришлем
на указанный адрес электронной почты
Содержание:
-
Введение 3
1 Определение данных и их классификация. Особенности реальных данных 4
2 Примеры реальных данных и работа с ними 13
Заключение 17
Список использованных источников 18
Введение:
-
Анализ данных как наука имеет очень важное прикладное значение, так как именно анализ данных позволяет понять взаимосвязи между явлениями, выяснить причины их изменения и т.п. В данном случае, крайне важную роль играют сами данные, с которыми имеет дело исследователь. Поскольку все мы живем в реальном мире, то интересным представляется анализ реальных данных, то есть данных, которые являются характеристикой реальных явлений. Очень часто, такого рода, данные оказываются в распоряжении исследователя с некоторой долей случайности и вне структуры. В чем состоит особенность таких данных? В чем их преимущество и недостаток? И, самый главный вопрос, какой смысл можно извлечь из, такого рода, данных.
Попытаемся дать ответы на поставленные вопросы в данной работе.
Целью реферата является определение особенностей реальных данных.
К задачам реферата относятся:
— определение видов реальных данных;
— определение особенностей реальных данных, как их преимуществ и недостатков, по сравнению, с другими видами данных.
Заключение:
-
Реальные данные – это данные, характеризующие изменения реального объекта или явления, в то время, как идеальные данные имеют дело только с теоретическими объектами и явлениями, которые не могут быть представлены практически на данный момент времени.
К особенностям реальных данных можно отнести следующие положения:
— реальные данные могут быть получены практически в любом виде и структуре, поэтому их классификация очень широка, в отличие, от идеальных данных, где структура изначально соответствует нужному исследованию;
— реальные данные нуждаются в проверке их валидности, так как получены в результате изменения реального объекта или явления, где всегда есть некоторая доля случайности;
— реальные данные, в большинстве случаев, не являются конфиденциальными, в отличие, от идеальных данных;
— работа с реальными данными более трудозатратна, так как требуется некоторое время на выбор метода их анализа и их структурирование для того, чтобы этот метод применить.
Фрагмент текста работы:
-
1 Определение данных и их классификация. Особенности реальных данных
К данным относятся наблюдения относительно окружающей действительности, которые получены и зафикисированы определенным образом.
В зависимости от того, какие цели преследовались, собранные данные можно условно разделить на первичные и вторичные.
Данные, собранные для целей исходного исследования, называются первичными. Данные, собранные в ходе другого исследования, но использующие для исходного – называются вторичными. В большинстве случаев, вначале анализируются вторичные данные, в силу того, что их легче собрать, если этих данных не хватает, то исследователь приступает к сбору первичных данных.
В силу определения вторичных данных, а, именно того обстоятельства, что они изначально собраны для другого исследования, выделяют критерии оценки их качества, которые представлены в следующей таблице:
Наименование критерия Ключевые факторы
Процедура и методика сбора Метод сбора данных, процент ответов, способ формирования выборки, размер выборки, объем и логика анкеты, полевой этап, анализ данных.
Ошибки и точность Сравнение данных, полученных из разных источников.
Своевременность Временной промежуток между сбором данных и их публикацией, частота обновления (если исследование предполагает несколько этапов).
Степень соответствия цели исследования х
Содержание данных Ключевые переменные, шкалы измерения, исследуемые связи.
Надежность Компетентность, достоверность, репутация и надежность источника информации.Помимо представленной классификации данных, существует еще множество других классификаций. Например, по сущностным характеристикам данных, согласно которой данные условно могут быть поделены на качественные и количественные.
В связи с этим, возникает вопрос: могут ли данные быть редуцированы к форме чисел, или может ли их представление быть выражено только с помощью слов? Необходимо говорить о важности делать различие между, такого рода, данными, так как они отличаются по способам получения, применяемым методам, анализу и т.д.
Подавляющее число научных данных представлено при помощи чисел, что позволяет проводить над ними различного рода манипуляции, используя методы математической статистики. Такие данные называются количественными. Основной проблемой сбора количественных данных является выбор измерительного инструментария и других методов, которые позволяют вычленить из большой совокупности данных по теме, нужные данные для исследования. Также является крайне важным то, что выбранные инструменты измерения должны соответствовать требованиям надежности и валидности. В науке выделяют следующие виды измерительных шкал – номинальную, порядковую, метрическую. Вид шкалы определяется целями исследования.
Помимо количественных данных, которые могут быть представлены в виде чисел, существует большое количество данных, которые нельзя редуцировать в числа. Такие данные носят название качественных. Касаемо вербальных концептов и взаимосвязей, для качественных данных они меньше, чем для количественных. Данное обстоятельство сильно влияет на качество сбора данных, так как имеет место большая зависимость от определения взаимосвязи слов, их интерпретации, разработки понятийного аппарата и т.д.
В случае качественных данных отсутствуют шаблоны анализа, поэтому этот вопрос нуждается в рефлексии исследователя и зависит от целей исследования.
Классификация данных по способу получения представлена следующими категориями:
Наблюдение. Фиксация случаев, ситуаций или событий, известных из собственного опыта, в том числе с использованием специальных средств (например, камеры, диктофона, микроскопа и т.д.).
Участие. Данные получаются благодаря опыту, который может рассматриваться как интенсивная форма наблюдения (например, опыт обучения управлению автомобилем сообщит такие нюансы относительно авто, которые невозможно получить, лишь наблюдая за ним извне).
Измерение. Фиксация величины или количества какого-либо параметра (например, демографическая статистика, измерение физических величин и т.д.).
Интерегация. Данные получаются посредством вопросов к людям (информация относительно убеждений людей, их мотивации и т.д.).
По способу применения методов и инструментария данные также могут быть поделены на следующие категории:
Структурированные.
Неструктурированные.
На естественном языке.
Машинные.
Графовые.
Аудио, видео и графика.
Потоковые.
Все эти типы данных представляют интерес, и их стоит рассмотреть подробнее.
Структурированные данные, в силу своего названия, имеют определенную структуру, вследствие чего, их удобно хранить в виде фиксированного значения(поля) в определенной записи.
Однако, изначально структурированные данные достаточно редки и требуют определенных усилий, чаще в реальности имеют место быть неструктурированные данные, которые характеризуются отсутствием постоянного характера и связью с контекстом. Такого рода данные могут не подходить под исходную модель, поэтому их требуется приводить к определенному виду.
Например, сообщение электронной почты можно отнести к неструктурированным данным, так как, несмотря на то, что, казалось бы, есть определенная структура в виде имя отправителя, получателя, заголовок письма и т.д., невозможно структурировать тело письма и упоминание одной и той же информации в разных формах. Проблема еще больше усугубляется осознанием того, что язык может быть представлен огромным количеством диалектов и т.д.
Данный пример также применим к демонстрации данных на естественном языке, которые являются разновидностью неструктурированных данных. Анализ такого рода данных еще более сложна, так как помимо знания диалектов, требуется знание лингвистических особенностей, в частности, в интерпретации. И, в данном случае, выбор методов для анализа еще больше сужается.
На данный момент времени самые передовые методы пока не в состоянии расшифровать произвольный фрагмент текста, хотя есть определенные успехи в распознавании сущностей, тематических областей, эмоциональной окраски языка.
Машинными данные являются те данные, которые сгенерированы машиной (компьютер, приложение, устройство), исключая влияние человека.
На настоящий момент времени популярность машинных данных все возрастает, так как с течением времени увеличивается технологизация общества.
Wikibon предсказывает, что рыночная стоимость промышленного Интернета (термин, предложенный компанией Frost&Sullivan для обозначения совокупности сложного физического оборудования с сетевыми датчиками и программным обеспечением) к 2020 году составит приблизительно 540 миллиардов долларов.
По оценкам IDC (International Data Corporation), количество узлов сети к 2020 году в 26 раз превысит численность населения. Эта сеть часто называется Интернетом вещей.
Для анализа машинных данных применяются инструменты, обладающие таким необходимым свойством, как высокая масштабируемость, в силу больших объемов исходных данных.
К примерам машинных данных относятся журналы веб-серверов, записи детализации звонков, журналы сетевых событий и телеметрии (см.рис.1).Рис. 1
Как видно из рисунка, представленные данные соответствует структуре классической базы данных. Такого рода данные не являются лучшим вариантом для классификации как «сетевые данные» с высокой степенью связности.
Термин «графовые данные» может быть истолкован неоднозначно, так как, в общем-то, практически любые данные могут быть представлены в формате графа.
В данном случае, под графом понимается математическое понятие графа, который представляет собой структуру, предназначенную для моделирования попарных отношений между объектами структуры.
Для хранения такого рода информации в теории графов используются узлы, ребра и свойства представления и хранения. Графовой структурой прекрасно могут быть описаны социальные сети. Также графовая структура позволяет вычислять такие метрики, как кратчайший путь, влияние объектов и т.д.
В качестве примеров графовых данных можно привести веб-сайты социальных сетей: список лиц, которых может знать пользователь, список читателей, друзей, гостей блога и т.д.
Также данные структуры позволяет анализировать их совокупность, например, перекрывающиеся графы, которые могут быть построены на одних и тех же узлах. Необходимо отметить, что в данном случае, экспоненциально возрастает сложность обработки таких данных на компьютере.
Аудио, видео и графика — типы данных, ставящие непростые задачи перед специалистом data science. Задачи, тривиальные с точки зрения человека (например, распознавание объекта на картинке), оказываются сложными для компьютера. В 2014 году компания MLBAM (Major League Baseball Advanced Media) объявила, что объем записываемых видеоматериалов для одного бейсбольного матча будет увеличен приблизительно до 7 Тбайт с целью проведения оперативного анализа. Высокоскоростные камеры на стадионах записывают движения мяча и спортсменов для того, например, чтобы вычислять в реальном времени траекторию движения защитника.
Недавно компании DeepMind[2, c. 92] удалось создать алгоритм, который способен обучаться играть в видеоигры. Алгоритм получает на входе содержимое экрана и учится интерпретировать эти данные в сложном процессе глубокого обучения. Это замечательное достижение, и компания Google приобрела DeepMind для разработки искусственного интеллекта. Алгоритм обучения получает данные, генерируемые компьютерной игрой, т. е. потоковые данные.
Потоковые данные могут принимать почти любую из перечисленных форм, однако, у них имеется одно дополнительное свойство. Данные поступают в систему при возникновении некоторых событий, а не загружаются в хранилище данных большими массивами. И хотя формально они не являются отдельной разновидностью данных, мы выделяем их в особую категорию, потому что вам придется приспособить свой рабочий процесс для работы с потоковой информацией.
Примерами потоковых данных могут служить раздел «Что происходит?» в Твиттере, прямые трансляции спортивных и музыкальных мероприятий и данные биржевых котировок.В случае структурированных данных очевидны их преимущества – это отсутствие временных затрат на построение структуры и выбор метода анализа, так как часто в каждом методе анализа данных требуется своя определенная структура.
И если анализ структурированной информации дает ответ на вопрос «Что происходит?», то анализ неструктурированных поясняет: «Почему это происходит?». С точки зрения науки, гораздо интересным представляется вопрос о причине произошедшего, чем о его факте, так как в случае реальных данных, факт свершения какого-либо явления может быть зафиксирован пятью чувствами человека.
Однако, раскрыть потенциал неструктурированных данных достаточно трудно. Недавнее исследование 451 Research, проведенное по заказу специализирующейся в области «подвижной» аналитики компании Logtrust, показало, что предприятия, в основном, делают упор на инициативы со структурированными данными (89%). Проекты с неструктурированными данными вызывают куда меньший интерес — ими занимается 43% опрошенных.
Однако, игнорирование неструктурированной информации оставляет существенное количество данных вне поля зрения аналитических бизнес-инструментов, которое потенциально могло бы подтолкнуть организации к росту.
К примеру, если структурированные данные содержат информацию об операционной деятельности либо показатели доходности, то неструктурированные могут нести более глубокую смысловую нагрузку — они позволяют понять, что о компании думают клиенты, проанализировать их отзывы, учесть желания и, таким образом, повысить их лояльность[4, c. 205].
IDG Research[1, c. 122] прогнозирует, что к 2022 г. 93% всех цифровых данных будут неоднородными, что окажет серьезное воздействие, как на текущие, так и будущие процессы управления данными, а также потребует нового подхода к их защите. 78% организаций мало или совсем не представляют, что происходит с их неструктурированными данными (кто, зачем и с какой целью с ними соприкасается), что в итоге выливается в проблемы с обеспечением их конфиденциальности. Эта проблема приобрела особенное значение в свете ввода в действие нового регламента GDPR Евросоюза в области обработки и защиты персональных данных и других законодательных актов.
Сложности с обеспечением конфиденциальности — не единственная проблема неструктурированных данных. Учитывая их относительную открытость и распространенность по всей инфраструктуре организации и различным устройствам, они более уязвимы к кибератакам, чем структурированные сородичи, что делает их привлекательной добычей для хакеров. Избежать многих проблем, а также получить более ясное представление о структуре и потоках неструктурированных данных помогут инструменты визуализации данных[5].
Таким образом, реальные данные – это данные, характеризующие изменения реального объекта или явления, в то время, как идеальные данные имеют дело только с теоретическими объектами и явлениями, которые не могут быть представлены практически на данный момент времени.
К особенностям реальных данных можно отнести следующие положения:
— реальные данные могут быть получены практически в любом виде и структуре, поэтому их классификация очень широка, в отличие, от идеальных данных, где структура изначально соответствует нужному исследованию;
— реальные данные нуждаются в проверке их валидности, так как получены в результате изменения реального объекта или явления, где всегда есть некоторая доля случайности;
— реальные данные, в большинстве случаев, не являются конфиденциальными, в отличие, от идеальных данных;
— работа с реальными данными более трудозатратна, так как требуется некоторое время на выбор метода их анализа и их структурирование для того, чтобы этот метод применить.
Так как, в большинстве случаев, реальные данные представлены в неструктурированном виде, то основным вопросом остается следующий: как вычленить из имеющегося массива некий общий паттерн, который поможет понять причину происходящего явления и предложить новый способ его использования.