Дипломная работа (ВКР) — бакалавр, специалист на тему Исследование зависимостей в статистическом анализе количественных переменных
-
Оформление работы
-
Список литературы по ГОСТу
-
Соответствие методическим рекомендациям
-
И еще 16 требований ГОСТа,которые мы проверили
Скачать эту работу всего за 1490 рублей
Ссылку для скачивания пришлем
на указанный адрес электронной почты
на обработку персональных данных
Содержание:
Введение 3
Глава 1 Статистическое исследование зависимостей количественных переменных 6
1.1 Основные типы зависимостей случайных величин 6
1.2 Корреляционный анализ количественных признаков и его связь с другими разделами математической статистики 16
1.3 Программные средства для изучения зависимости количественных переменных 17
1.4 Постановка задачи исследования 22
Глава 2 Основные методы исследования зависимостей значений случайных величин в корреляционном анализе 24
2.1 Коэффициент корреляции как мера степени тесноты связи между количественными переменными 24
2.2 Проверка гипотезы о статистической значимости линейной связи 26
2.3 Измерение степени тесноты связи при нелинейной зависимости случайных величин 27
2.4 Анализ типов зависимости количественных признаков 28
Глава 3 Практическая реализация программного обеспечения методов статистического анализа зависимостей количественных переменных 36
3.1 Обоснование выбора технологий и средств разработки 36
3.2 Прототипирование интерфейса пользователя программного обеспечения 48
3.3 Особенности реализации отдельных элементов разрабатываемого программного обеспечения 50
3.4 Тестирование разработанного программного обеспечения 54
3.5 Анализ результатов применения созданного программного обеспечения 64
Заключение 68
Список использованных источников 70
Приложение А. Исходный код разработанного программного обеспечения на языке Python 73
Введение:
Окружающий мир так же, как и абстрактные понятия, выдуманные человеком и существующие в его сознании, могут быть описаны или выражены в числовой форме. Процесс создания числовой модели процесса, объекта или системы можно назвать формализацией. Конечно, некоторые величины лучше поддаются формализации (как, например, объективные физические величины, такие как температура, давление и т.п.), в то время, как другие формализуются крайне трудно (например, эстетическая красота пейзажа, честность человека и т.п.), однако, на сегодняшний день разработаны методы и подходы для формализации (перевода в числовую форму) как угодно сложных абстрактных понятий (например, с помощью экспертных оценок, нечеткой логики и т.п.). Таким образом, можно констатировать, что практически все характеристики, которые может использовать человек, подлежат численным оценкам, в результате чего можно говорить о количественных переменных. И вот когда разные и, возможно, достаточно далекие друг от друга по своей природе величины квантифицированы, оказывается, что между некоторыми из них существуют определенные зависимости, а между иными величинами таких зависимостей нет. Очевидно, что знания о реально существующей между разными величинами x и y зависимости y = f(x) являются чрезвычайно ценными и позволяют экономить время и ресурсы, необходимые для определения одной величины y, если уже известно значение величины x. Для этого достаточно воспользоваться указанной зависимостью, а не тратить силы на непосредственное определение зависимой переменной из опытов или других исследований.
Следует отметить, что особенно перспективным на сегодняшний день кажется исследование на предмет имеющихся скрытых зависимостей внутри данных, полученных на основании технологии BIG DATA (т.е. от автоматических сенсоров и измерительных программно-технических средств, в т.ч. и в рамках развития технологий Интернета вещей IoT).
Приведенные рассуждения прямым образом обуславливают актуальность тематики данной работы, так как очевидно, что исследование зависимостей между количественными величинами необходимо проводить с помощью именно статистических методов.
Целью работы является повышение эффективности поиска зависимостей между количественными переменными, чего можно достигнуть путем анализа и определенной систематизации соответствующих статистических методов, а также путем разработки соответствующего программного обеспечения.
Задачи работы следующие:
а) анализ научной отрасли статистического исследования зависимостей количественных переменных;
б) рассмотрение методов исследования зависимостей в корреляционном анализе и выбор базы для дальнейшей программной реализации;
в) разработка проектных решений и реализация программного обеспечения методов статистического анализа зависимостей количественных переменных.
Объект исследования – поиск зависимостей в статистическом анализе количественных переменных.
Предмет исследования – методы и средства для осуществления поиска указанных зависимостей.
Практическое значение работы состоит в разработке рабочего программного продукта, с помощью которого можно проводить поиск и анализ зависимостей между количественными величинами на основе методов корреляционного анализа.
Методы, примененные в работе: методы математической статистики являются основным инструментом, используемым в данной работе, а именно – регрессионный и корреляционный анализ; предлагается использование методов кластерного анализа для определения наличия зависимости количественных величин на отдельных областях изменения независимых переменных; для построения программной реализации использованы методы отрасли технологий программирования.
Перспективы развития работы: в будущем возможен поиск и реализация в программных кодах других признаков зависимости количественных величин, кроме тех, что применены в данной работе.
Заключение:
Таким образом, в данной работе рассмотрена проблема исследования зависимостей в статистическом анализе количественных переменных. В первую очередь, рассмотрены виды существующих зависимостей и проведена их небольшая классификация, согласно которой можно выделять линейные и нелинейные, одномерные и многомерные, локальные и глобальные статистические зависимости. Для определения самих зависимостей используются методы регрессионного анализа подробно рассмотренные в работе на примере одномерной и многомерной линейной регрессии, а также квадратичной одномерной регрессии. Для разных вариантов установленных регрессий нужно использоваться средства подтверждения их адекватности, которыми могут выступать коэффциенты корреляции и детерминации.
В работе обоснована целесообразность использования таких инструментов, как математические пакеты (в частности, MathCad), а также, как альтернативного варианта – языков высокого уровня, и, в частности, такого популярного на сегодня языка общего назначения, как Python. С использованием выбранных инструментов в работе созданы программные продукты для расчета величин, характеризующих зависимости количественных величин (в частности – расчет коэффициентов корреляции и детерминации). Для полученных программных продуктов проведено тестирование, выбор вариантов которого подробно обоснован в данной работе.
Результаты выполнения исследования могут быть полезны, как систематизированный источник информации при изучении тем регрессионный и кластерный анализ студентами или исследователями из прикладных отраслей, которым понадобились статистические расчеты зависимостей количественных величин. Также разработанный программный продукт может быть полезен для оценки степени зависимостей пользователями, не имеющими лицензий на крупные математические пакеты вроде MathCad, а также пользователями, не являющимися специалистами в области математики и информационных технологий (т.е. таких, для которых важна простота интерфейса разработанного ПО и максимальное удобство в эксплуатации, например, биологов, социологов, политологов и т.п.).
Фрагмент текста работы:
ГЛАВА 1 СТАТИСТИЧЕСКОЕ ИССЛЕДОВАНИЕ ЗАВИСИМОСТЕЙ КОЛИЧЕСТВЕННЫХ ПЕРЕМЕННЫХ
1.1 Основные типы зависимостей случайных величин
В первую очередь, следует сказать, что в данной работе будет рассматриваться традиционный случай поиска зависимости двух величин (а не трех или более). При этом будем говорить о зависимостях именно случайных величин, что по сути является уточнением, а не ограничением, так как строго говоря, любая измеряемая величина является случайной (хотя бы за счет погрешностей измерения и других действующих факторов). Случайные величины могут быть зависимы в большей или меньшей степени, что наглядно проще всего характеризовать с помощью двухмерного графика, где каждая точка соответствует одному акту измерения (или моменту времени), а ее координаты равны значениям двух рассматриваемых величин (между которыми исследуется связь) при этом измерении (или в соответствующий момент времени). Примеры разных по своей сути диаграмм рассеивания можно видеть на рис. 1.1.
а) б) в) г)
Рис 1.1 Варианты диаграмм рассеивания: а – достаточно сильная прямая зависимость между величинами; б – достаточно сильная обратная зависимость; в – слабая прямая зависимость; г – отсутствие линейной связи
На рис. 1.1 особое внимание следует обратить на вариант г, где на первый взгляд связь между величинами отсутствует, однако, точно можно