Курсовая с практикой на тему Обработка статистической информации в программах Statistica и SPSS
-
Оформление работы
-
Список литературы по ГОСТу
-
Соответствие методическим рекомендациям
-
И еще 16 требований ГОСТа,которые мы проверили
Введи почту и скачай архив со всеми файлами
Ссылку для скачивания пришлем
на указанный адрес электронной почты
Содержание:
Введение.. 3
Глава
1. Теоретические Сведения.. 6
1.1
История вопроса. 6
1.2. Общие сведения о программе
SPSS. 7
1.3.
Общие сведения о программе STATISTICA.. 8
1.4.
Как происходит обработка и анализ статистической информации с помощью
программного обеспечения?. 9
1.5.
Возможности программы SPSS. 11
1.6.
Возможности программы STATISTICA.. 13
1.7.
Подводя итог. 15
Глава
2. практическое применение Программ SPSS и STATISTICA.. 18
2.1.
Меню и представление данных. 18
2.2.
Построение диаграммы рассеяния и линии регрессии. 20
2.3.
Добавление новой переменной и построение гистограмм.. 24
Заключение.. 27
Список
литературы… 29
Введение:
Определим
статистическую информацию как информацию, полученную в результате
статистического наблюдения. Статистическое наблюдение, в свою очередь,
определим как организованный (научно) сбор количественных данных о явлениях и
процессах, происходящих в различных областях деятельности, с помощью учета
первичных данных о каждом отдельном случае или факте, относящемся к изучаемому
явлению. Результатом статистического наблюдения является набор исходных данных –
первый этап любой статистической работы.
С
развитием мира статистической информации становится все больше и больше. В XXI веке
появляется даже особый термин «Big data», – специально обозначающий
данные огромных объёмов и значительного многообразия.
В
таком наполненном информацией мире статистическая информация просто не может
обрабатываться вручную, и даже для личного пользования используются специальные
программные решения для статистической обработки и удобного в ряде случаев
графического представления данных. Два из таких программных решений,
насчитывающие многолетнюю историю, «STATISTICA» и «SPSS Statistics» и будут
рассмотрены ниже.
В
первой главе [1] ясно разделяются понятия обработки и анализа данных «Очевидно,
что в случае простой визуализации собранной информации мы имеем дело лишь с обработкой
социологических данных. Если ставятся задачи построения определенной модели
изучаемого социального явления и проверки соответствия этой модели имеющимся
данным, можно говорить именно об анализе данных».
Мы
планируем не очень тщательно подойти к указанному разграничению, подразумевая
то, что обычно подготовка и обработка информации все же подразумевают
последующий анализ, однако в первую очередь нас будет интересовать именно
визуализация данных.
Касательно
актуальности рассматриваемых программ следует отметить, что вторая принадлежит
на данный момент одному из гигантов IT-индустрии, компании IBM, и
по меньшей мере являлась отраслевым стандартом, а другая широко используется
для анализа каких-то экономических систем и зачастую преподается в курсах
«Экономики», «Эконометрики» и смежных дисциплин в Российской Федерации.
Таким
образом, актуальность излагаемой темы несомненна и гипотеза о том, что обработка статистической информации в
программах STATISTICA и SPSS является хорошим решением кажется не подлежащей
сомнению.
Объектом изучения данной работы является
обработка статистической информации.
Предметом изучения – обработка
статистической информации в программах STATISTICA и SPSS.
Методы исследования:
· сбор и анализ литературных источников по предмету;
· изучение возможностей и особенностей указанных программных
продуктов;
· практическое использование некоторой (малой, обусловлено
объемом) части функционала с целью демонстрации и сравнения соответствующих
возможностей программного обеспечения.
Целью данной курсовой работы является
изучение обработки статистической информации в программах STATISTICA
и SPSS, удобство применения, сопоставление возможностей и полученных
результатов.
Задачи:
1. изучить сведения об обработке статистической
информации;
2. изучить сведения об программах STATISTICA и SPSS;
3. изучить особенности указанных программ;
4. показать пример использования данных программ для задачи
обработки статистической информации.
В работе мы руководствовались простым
принципом, а именно: лучший способ изучения какой-либо вещи – это
непосредственное знакомство с ней.
Таким образом, ознакомившись с
некоторым количеством литературы по предмету (следует упомянуть следующий
список: Бююль А., Цёфель П., «SPSS. Искусство обработки информации», «STATISTICA
искусство анализа данных на компьютере» Владимира Боровикова) мы использовали
лишь незначительное количество источников. Основой же изложенного материала послужило собственное
описание программ и их справка.
Область обработки статистической информации активно и
быстрыми темпами развивается, в частности можно упомянуть «Big data», представление инфографики в трансляциях спортивных
состязаниях, новые показатели футбольной статистики, вроде ожидаемого количества
забитых голов (xG) (тут можно упомянуть сайт WhoScored.com) и т. д.
Заключение:
Целью
данной курсовой работы являлось изучение обработки
статистической информации в программах STATISTICA и SPSS, удобство применения,
сопоставление возможностей и полученных результатов.
В ходе проделанной работы были получены
следующие результаты:
1. программы STATISTICA и
SPSS являются эффективными и многогранными средствами обработки статистической
информации;
2. Импорт данных в данных
в целом довольно удобен и имеет значительное число возможностей, однако
предполагает и некоторые собственные особенности, например, SPSS
не приемлет названия переменных с пробелами;
3. указанные программы
значительно упрощают проведение расчетов, содержат в себе множество
инструментов и имеют удобную для представления графику;
4. Возможности данных
программ сопоставимы, программы хоть и имеют свою специфику, в зависимости от
области позиционирования, но на данный момент STATISTICA выпускает
линейку различных продуктов для специфических задач и отраслей, а SPSS
использует надстройки.
В
заключении можно сказать, что в результате проделанной работы все поставленные
цели были достигнуты и задачи решены. Был дан общий обзор направленности
инструментов обработки статистической информации в
программах STATISTICA и SPSS, в практической части была параллельно рассмотрена
некая обработка данных в обеих программах, были сопоставлены возможности, а
полученные результаты представлены в работе в графическом виде.
Также были представлены некоторые
сведения об обработке статистической информации и указанных программах,
выделены особенности, в частности, контрольные карты, однако, учитывая
богатство функционала говорить о них несколько затруднительно.
Продемонстрирован пример использования данных программ для задачи обработки
статистической информации и получено наглядное представление о ходе работы в
программах.
В качестве сфер применения программ
можно отметить социальную, экономическую, математическую статистику,
производственную, data mining,
маркетинг и т.д.
Фрагмент текста работы:
Глава 1. Теоретические
Сведения
1.1 История вопроса
Под
статистикой в [2] рассматривается общественная наука, имеющая целью сбор, упорядочивание,
анализ и сопоставление числового представления фактов, относящихся к самым
разнообразным массовым явлениям.
Таким
образом, мы имеем дело с четырьмя основными разделами статистики:
· разработка приёмов статистического наблюдения (т.е. сбора
сведений) и анализа статистических данных;
· сбор статистических сведений, т.е. первичных данных об
изучаемом объекте;
· сводка и группировка и представление полученных данных,
именно сюда в основном и включается интересующая нас обработка статистической
информации;
· статистическое исследование и анализ полученных данных: выяснение
закономерностей в представленных данных и их интерпретация.
Статический
учёт, очевидно, велся издревле, пусть и не имея достаточного научного
обоснования. Если раньше записи делались зарубками на столбах, узелками, а
потом и непосредственно записями в специальные учетные книги, то, разумеется,
представление и анализ таких данных были по меньшей мере затруднены. Появление
вычислительных машин как средств хранения и обработки статистических данных
было, разумеется, настоящим прорывом в рассматриваемой области, и перенос
анализа и громоздких расчетов с огромным числом данных был исключительно делом
времени и подходящего программного обеспечения. Две из таких программ и
разбираются в настоящей работе. Рассмотрим данные программы подробнее, исходя
из их порядка появления на свет.
1.2. Общие сведения о программе SPSS
SPSS Statistics – это аббревиатура от Statistical
Package for the Social Sciences. На
сайте IBM программа характеризуется как «мощная
программная платформа статистического анализа с надежным набором функций,
которые помогают организациям извлекать ценную информацию из своих данных».
Первая версия программы была разработана Норманом Наем, Хедли Халлом и
Дейлом Бентом еще в 1965-1968 гг. на перфокартах!, используя язык Fortran, затем этот пакет развивался в рамках
Чикагского университета и в 1975-м выделился в отдельную компанию SPSS Inc. Программа
изначально имела внутренний язык команд, и была выпущена под Windows в 1992-м, что на два года раньше пакета STATISTICA и являлось большим шагом вперед и адаптацией под рядового пользователя
(даже сейчас мы видим гораздо более специфическое использование диалоговых
окон, чем в STATISTICA) в общем-то
характеризовалась как «отраслевой стандарт» в различных источниках, кои мы не
отыскали за давностию лет.
В седьмой версии стала применяться технология «мобильных таблиц»,
которая позволяла перестраивать таблицы удобным образом, что стало значительным
новшеством для того времени, и на момент выхода книги Бююля
и Цёфеля называлась как «самое распространённое программное обеспечение для
статистического анализа во всём мире».
Начиная с 14-й версии программа могла быть управляема извне с помощью Python или Visual Basic, и связываться с языком R. Современные версии пишутся с помощью Java.
В 2009-м компания была продана и SPSS продолжила свое развитие после приобретения
крупным холдингом IBM, однако в отличии от пакета STATISTICA версии выходят с завидной регулярностью и последняя версия была представлена
буквально на днях под названием «IBM® SPSS® Statistics 28», хотя судить о
качестве вносимых изменений мы затрудняемся.
В практической части используется версия 26.0.
1.3.
Общие сведения о программе STATISTICA
Statistica – программный пакет для статистического анализа,
разработанный компанией StatSoft, реализующий функции анализа данных,
управления данными, data mining и визуализации данных с привлечением статистических методов.
Система STATISTICA разработана компанией StatSoft Inc., основанной в 1984
г. в городе Тулса (Tulsa, Oklahoma, USA). Первые же ее продукты были
ориентированы на статистический анализ социологических данных. Первый
коммерческий продукт — STATISTICAl Supplement for Lotus 1-2-3, появился в 1985
г. Потом фирма переходит на выпуск продуктов под Macintosh, DOS, и, наконец под Windows
Конкурентное преимущество пакет получил в 1991 г., используя так
называемый графически-ориентированный подход к анализу данных. За счет
оптимизации скорость обработки была во много раз быстрее, чем у конкурентных
решений.
В STATISTICA 5.0 появился внутренний язык программирования STATISTICA
Basic, а версия 5.5 была переведена на русский язык, пакет все более усложнялся
и предоставлял все больше инструментов, в версии 6 отчеты стали автоматически
создаваться в форматах, совместимыми с основными редакторами документов.
Компания своевременно следовала за трендами и добавляла необходимый
пользователям инструментарий, вроде STATISTICA Data Miner.
Однако, в 2014 году фирма Statsoft была поглощена корпорацией Dell, и
продукт стал носить название Dell Statistica, а в 2017 года
Statistica была приобретена компанией TIBCO. Последняя версия программы
STATISTICA 13.0 вышла в 2016-м году, в данный момент для приобретения доступна
версия 13.3, обновление для нее вышло в 2018-м году. Все это вызывает некоторое
беспокойство за дальнейшее развитие продукта.
В практической части используется версия 12.5.
1.4. Как
происходит обработка и анализ статистической информации с помощью программного
обеспечения?
Предположим, у нас уже имеются некоторые данные, собранные
тем или иным способом и записанные на электронный носитель в форме файла
какого-либо формата, т.е. сама по себе статистическая информация, таким образом
пользователь работает по следующему алгоритму:
1. (входные данные) Определение структуры данных.
2. Ввод данных в программу в соответствии с их структурой и
требованиями программы.
3. Задание метода обработки данных в соответствии с задачами
исследования
4. Получение результата обработки данных.
5. Интерпретация результата обработки (результаты анализа).
Хорошая схема исследования приведена в [3]: