Основы статистического анализа данных. Ряды данных. Вычисление основных статистических характеристик выборки
1. Что такое анализ и выделяющие этапы анализа данных?
Анализ данных — раздел математики и информации тики, занимающейся разработкой методов проработанные данных независимо от их природы.
Для анализа данных требуются знания предметной области и знания математики и статистики. Понимание предметной области позволяет определить, какие проблемы нуждаются в первоочередном решении. Знание математики и статистики позволяют формализуют и решение, перевести его в алгоритм и оценить, какова вероятность получить результат; для этого используют средства компьютерной техники.
Различают четыре этапа обработки данных:
· Получение;
· Обработка;
· Результат обработки;
· Интерпретация.
Сначала данные необходимо подготовить, то есть собрать и отобрать те, которые нужные для модели обработки. Далее строится модель обработки и анализируются его результаты. Последний этап — это интерпретация и презентация результатов. Здесь нужно продемонстрировать вопрос, на который искали ответ, какие данные использовали и получившие в результате. При сборе данных используют разные уровни их измерения.
К примеру, различают значение в определенной точке (8; 3,6); можно рассматривать разные интервалы ([1,6] [0,15]) и разные отношения (86%, 14%).
2 В чем суть статистического подхода к обработке данных?
Когда мы делаем измерения, всегда существует вероятность погрешности. Многоразовое измерение и сохранение при этом соответствующих результатов приводит к накоплению данных, обрабатываемых специальными методами, изучаемые в статистике. Такие данные называются статистическими данным. Статистические данные - совокупность упорядоченных, классифицированных данных о некотором массовом явлении или процессе. Статистические данные позволяют не только охватить картину определенного питание в настоящее время, но и планировать необходимые действия на будущее. Да, статистические данные о занятости населения позволяют определить, какую количество специалистов и какой квалификации следует готовить, в каком регионе следует строить то или иное предприятие. Большое множество объектов, являющихся предметом статистического исследования, называют генеральной совокупностью. Например, если исследуются предвыборные предпочтения, генеральной совокупностью может быть население страны. Однако исследователь, как правило, не имеет возможности оперировать всей генеральной совокупностью. Например, опросить каждого граждане-в страны невозможно. В то же время исследуют выборку — некоторое множество объектов, выбранных из генеральной совокупности, и, проанализировав ее, делают выводы о свойствах генеральной совокупности в целом. Да, исследовав предпочтения 10 000 избирателей, можно сделать достаточно точные выводы о предпочтениях избирателей всей страны. В замене исследования большого множества объектов исследованием значительно меньшей его частью и дальнейшем «распространении» результатов исследования на все множество заключается сущность статистического подхода к обработке данных.
3. Как строят ряды данных?
Имея в распоряжении данные статистического распределения, характеризующие то или иное явление, прежде всего необходимо их упорядочить, то есть предоставить характер системности. Статистический ряд распределения – это упорядоченные статистические данные. Простейшим видом статистического ряда распределения есть ранжированный ряд, то есть ряд чисел, расположенных в порядка роста или убывания признака, изменяющегося. Такой ряд не позволяет судить о закономерностях, заложенных в расправленных данных: около какой величины группируется большинство показателей; какие есть от
отклонение от этой величины; какова общая картина распределения. С этой целью данные группируют, показывая, как часто встречаются отдельные наблюдения в общем их количестве. Ряды распределения единиц совокупности по признакам, имеющим количественное выражение, называются вариационными рядами. В таких рядах значение признаки (варианты) расположены в порядке возрастания или убывания. В вариационном ряду распределения различают два элемента: вариант и частота.
Варианта – это отдельное значение группированного признака; частота — число, показывающее, сколько раз случается каждый вариант Таким образом, вариационный ряд распределения — это такой ряд, в котором варианты расположены в порядке возрастания или убыли, указаны их частоты или частицы. Вариационные ряды бывают дискретными и интервальными. Дискретные вариационные ряды — это такие ряды распределения, в которых варианты как величина количественного признака может приобретать только определенное значение. Варианты разнятся между собой на одну или несколько единиц.
Интервальные вариационные ряды – такие ряды распределения, в которых значение варианты даны в виде интервалов, т.е. значения признаков могут отрезняться друг от друга на сколь угодно малую величину. При построении вариационного ряда непрерывного признака невозможно указать каждое значение варианты, поэтому совокупность распределяется по интервалам. Последние могут быть ровными и неравными.
Например, сведения о распределении областей по численности населения на 1 декабря 2017 г., по данным.
Для построения дискретного ряда распределения следует выписать все возможные значение признака, а затем подсчитать, сколько раз каждое из них попадается в выборке – это будут частоты. В Microsoft Excel для подсчета частот можно использовать функцию COUNTIF(СЧЕИЕСЛИ)
4. Что является основными статистическими характеристиками выборки?
Основными статистическими характеристиками выборки является среднее, мода и медиана, которые еще называют мерами центральной тенденции. Они покажут общие или типичные характеристики распределения данных по определенным изменений. Среднее, мода и медиана – это отдельные значения, представляющие весь набор данных, типичный для всех значений в группе. Рассмотрим каждую из них. Для вычисления среднего значения достаточно добавить все значения в распределении и разделить на количество наблюдений.
Медиану можно определить как точку на ряде распределения (упорядоченный набор значений переменной для различных наблюдений — например, от наименований к наибольшему значению) — к этой точке расположена половина всех значений, и после этой точки тоже половина значений. То есть медиана это значение, делящее упорядоченный ряд пополам. Если количество значений нечетна, то берется одно из значений — то, что стоит в распределении ровно по центру. Когда значений четное количество, то берут два центральных значения и находят их среднее. Мода — это наиболее часто встречающееся значение. Как правило, она представляет наиболее типичное значение.
Например, по информации ЗАГС, самыми популярными именами, которыми родители называли своих новорожденных детей в 2017 г., стали Анастасия,София, Анна, Артем, Максим и Александр. Эти имена моды среди всех имен. На моду никогда не влияют экстремальные значения в распределении, а влияют экстремальные частоты, насколько часто то или иное значение переменной встречается в распределении.
© ООО «Знанио»
С вами с 2009 года.