Совокупность предметов или явлений, объединенных каким-либо общим признаком или свойством качественного или количественного характера, называется объектом наблюдения.
Всякий объект статистического наблюдения состоит из отдельных элементов - единиц наблюдения.
Результаты статистического наблюдения представляют собой числовую информацию - данные. Статистические данные - это сведения о том, какие значения принял интересующий исследователя признак в статистической совокупности.
Если значения признака выражаются числами, то признак называется количественным.
Если признак характеризует некоторое свойство или состояние элементов совокупности, то признак называется качественным.
Если исследованию подлежат все элементы совокупности (сплошное наблюдение), то статистическую совокупность называютгенеральной.
Вариационные ряды и их характеристики.docx
Вариационные ряды и их характеристики
Совокупность предметов или явлений, объединенных какимлибо общим признаком или свойством
качественного или количественного характера, называется объектом наблюдения.
Всякий объект статистического наблюдения состоит из отдельных элементов единиц наблюдения.
Результаты статистического наблюдения представляют собой числовую информацию
данные. Статистические данные это сведения о том, какие значения принял интересующий
исследователя признак в статистической совокупности.
Если значения признака выражаются числами, то признак называется количественным.
Если признак характеризует некоторое свойство или состояние элементов совокупности, то признак
называется качественным.
Если исследованию подлежат все элементы совокупности (сплошное наблюдение), то статистическую
совокупность называютгенеральной.
Если исследованию подлежит часть элементов генеральной совокупности, то статистическую совокупность
называют выборочной (выборкой). Выборка из генеральной совокупности извлекается случайно, так чтобы
каждый из n элементов выборки имел равные шансы быть отобранным.
Значения признака при переходе от одного элемента совокупности к другому изменяются (варьируют),
поэтому в статистике различные значения признака также называют вариантами. Варианты обычно
обозначаются малыми латинскими буквами x, y, z.
Порядковый номер варианта (значения признака) называется рангом. x1 1й вариант (1е значение признака),
x2 2й вариант (2е значение признака), xi iй вариант (iе значение признака).
Упорядоченный в порядке возрастания или убывания ряд значений признака (вариантов) с соответствующими
им весами называется вариационным рядом (рядом распределения).
В качестве весов выступают частоты или частости.
Частота (mi) показывает сколько раз встречается тот или иной вариант (значение признака) в статистической
совокупности.
Частость или относительная частота (wi) показывает, какая часть единиц совокупности имеет тот или
иной вариант. Частость рассчитывается как отношение частоты того или иного варианта к сумме всех частот
ряда.
. (6.1)
Сумма всех частостей равна 1.
. (6.2)
Вариационные ряды бывают дискретными и интервальными.
Дискретные вариационные ряды строят обычно в том случае, если значения изучаемого признака могут
отличаться друг от друга не менее чем на некоторую конечную величину.
В дискретных вариационных рядах задаются точечные значения признака.
Общий вид дискретного вариационного ряда указан в таблице 6.1.
Таблица 6.1
Значения признака (xi)
Частоты (mi)
x1
m1
x2
m2
…
…
xk
mk
где i = 1, 2, … , k.
Интервальные вариационные ряды строят обычно в том случае, если значения изучаемого признака могут
отличаться друг от друга на сколь угодно малую величину.
В интервальных вариационных рядах значения признака задаются в виде интервалов.
Общий вид интервального вариационного ряда показан в таблице 6.2.
Значения признака
Частоты (mi)
а1 а2
m1
…
…
аl1 – аl
ml
Таблица 6.2
а2 а3
m2 где i = 1, 2, … , l.
В интервальных вариационных рядах в каждом интервале выделяют верхнюю и нижнюю границы интервала.
Разность между верхней и нижней границами интервала называют интервальной разностью или длиной
(величиной) интервала.
Величина первого интервала k1 определяется по формуле:
k1 = а2 а1;
второго: k2 = а3 а2; …
последнего: kl = al al1.
В общем виде интервальная разность ki рассчитывается по формуле:
ki = xi (max) xi (min). (6.3)
Если интервал имеет обе границы, то его называют закрытым.
Первый и последний интервалы могут быть открытыми, т.е. иметь только одну границу.
Например, первый интервал может быть задан как "до 100", второй "100110", … , предпоследний "190
200", последний "200 и более". Очевидно, что первый интервал не имеет нижней границы, а последний
верхней, оба они открытые.
Часто открытые интервалы приходится условно закрывать. Для этого обычно величину первого интервала
принимают равной величине второго, а величину последнего величине предпоследнего. В нашем примере
величина второго интервала равна 110100=10, следовательно, нижняя граница первого интервала условно
составит 10010=90; величина предпоследнего интервала равна 200190=10, следовательно, верхняя граница
последнего интервала условно составит 200+10=210.
Кроме этого, в интервальном вариационном ряде могут встречаются интервалы разной длины. Если интервалы
в вариационном ряде имеют одинаковую длину (интервальную разность), их называют равновеликими, в
противном случае неравновеликими.
При построении интервального вариационного ряда часто встает проблема выбора величины интервалов
(интервальной разности).
Для определения оптимальной величины интервалов (в том случае, если строится ряд с равными интервалами)
применяютформулу Стэрджесса:
, (6.4)
где n число единиц совокупности,
x(max) и x(min) наибольшее и наименьшее значения вариантов ряда.
Для характеристики вариационного ряда наряду с частотами и частостями используются накопленные частоты
и частости.
Накопленные частоты (частости) показывают сколько единиц совокупности (какая их часть) не
превышают заданного значения (варианта) х.
Накопленные частоты (vi) по данным дискретного ряда можно рассчитать по следующей формуле:
. (6.5)
Для интервального вариационного ряда это сумма частот (частостей) всех интервалов, не превышающих
данный.
Дискретный вариационный ряд графически можно представить с помощью полигона распределения частот
или частостей.
При построении полигона распределения по оси абсцисс откладываются значения признака (варианты), а по
оси ординат частоты или частости. На пересечении значений признака и соответствующих им частот
(частостей) откладываются точки, которые, в свою очередь, соединяются отрезками. Получающаяся таким
образом ломаная называется полигоном распределения частот (частостей).
Интервальные вариационные ряды графически можно представить с помощью гистограммы, т.е. столбчатой
диаграммы.
При построении гистограммы по оси абсцисс откладываются значения изучаемого признака (границы
интервалов).
В том случае, если интервалы одинаковой величины, по оси ординат можно откладывать частоты или
частости.
Если же интервалы имеют разную величину, по оси ординат необходимо откладывать значения абсолютной
или относительной плотности распределения.
Абсолютная плотность отношение частоты интервала к величине интервала: где: f(a)i абсолютная плотность iго интервала;
mi частота iго интервала;
ki величина iго интервала (интервальная разность).
Абсолютная плотность показывает, сколько единиц совокупности приходится на единицу интервала.
Относительная плотность отношение частости интервала к величине интервала:
; (6.6)
; (6.7)
где: f(о)i относительная плотность iго интервала;
wi частость iго интервала.
Относительная плотность показывает, какая часть единиц совокупности приходится на единицу интервала.
И дискретные и интервальные вариационные ряды графически можно представить в виде кумуляты и огивы.
При построении кумуляты по данным дискретного ряда по оси абсцисс откладываются значения признака
(варианты), а по оси ординат накопленные частоты или частости. На пересечении значений признака
(вариантов) и соответствующих им накопленных частот (частостей) строятся точки, которые, в свою очередь,
соединяются отрезками или кривой. Получающаяся таким образом ломаная (кривая) называется кумулятой
(кумулятивной кривой).
При построении кумуляты по данным интервального ряда по оси абсцисс откладываются границы интервалов.
Абсциссами точек являются верхние границы интервалов. Ординаты образуют накопленные частоты
(частости) соответствующих интервалов. Часто добавляют еще одну точку, абсциссой которой является
нижняя граница первого интервала, а ордината равна нулю. Соединяя точки отрезками или кривой, получим
кумуляту.
Огива строится аналогично кумуляте с той лишь разницей, что на оси абсцисс наносятся точки,
соответствующие накопленным частотам (частостям), а по оси ординат значения признака (варианты). Числовые характеристики вариационного ряда
Одной из основных числовых характеристик ряда распределения (вариационного ряда) является средняя
арифметическая.
Существует две формулы расчета средней арифметической: простая и взвешенная.
Простую среднюю арифметическую обычно используют, когда данные наблюдения не сведены в
вариационный ряд либо все частоты равны единице или одинаковы.
где xi iе значение признака;
n объем ряда (число наблюдений; число значений признака).
В том случае, если частоты отличны друг от друга, расчет производится по формуле средней
арифметической взвешенной:
; (6.8)
где xi iе значение признака;
mi частота iго значения признака;
k число значений признака (вариантов).
При расчете средней арифметической в качестве весов могут выступать и частости. Тогда формула расчета
средней арифметической взвешенной примет следующий вид:
; (6.9)
(6.10)
где xi iе значение признака;
wi частость iго значения признака;
k число значений признака (вариантов).
Колеблемость изучаемого признака можно охарактеризовать с помощью различных показателей вариации. К
числу основных показателей вариации относятся: дисперсия, среднее квадратическое отклонение,
коэффициент вариации.
Дисперсию можно рассчитать по простой и взвешенной формуле.
Простая имеет вид:
А взвешенная:
. (6.11)
. (6.12)
Среднее квадратическое отклонение рассчитывается по формуле:
(6.13) Коэффициент вариации рассчитывается по формуле:
. (6.14)
Пример 6.1 При обследовании 50 членов семей рабочих и служащих установлено следующее
количество членов семьи: 5; 3; 2; 1; 4; 6; 3; 7; 9; 1; 3; 2; 5; 6; 8; 2; 5; 2; 3; 6; 8; 3; 4; 4; 5; 6; 5; 4; 7; 5; 6;
4; 8; 7; 4; 5; 7; 8; 6; 5; 7; 5; 6; 6; 7; 3; 4; 6; 5; 4.
а) Составьте вариационный ряд распределения частот;
б) Постройте полигон распределения частот, кумуляту;
в) Определите средний размер (среднее число членов) семьи;
г) Охарактеризуйте колеблемость размера семьи с помощью показателей вариации (дисперсии,
среднего квадратического отклонения, коэффициента вариации).
Объясните полученные результаты, сделайте выводы.
Решение. а) В данной задаче изучаемый признак является дискретно варьирующим, т.к. размер
семей не может отличаться друг от друга менее чем на одного человека. Следовательно,
необходимо построить дискретный вариационный ряд.
Чтобы построить вариационный ряд, необходимо подсчитать: сколько раз встречаются те или
иные значения признака, и упорядочить их в порядке возрастания или убывания.
Значения изучаемого признака размер семьи обозначим xi, частоты mi.
Произведем упомянутые расчеты и запишем полученные результаты в таблице:
xi
mi
1
2
2
4
3
6
4
8
5
10
6
9
7
6
8
4
9
1
б) Дискретный вариационный ряд графически можно представить с помощью полигона
распределения частот или частостей.
Построим полигон распределения частот: Для того чтобы построить кумуляту, необходимо рассчитать накопленные частоты или частости.
Накопленная частота первого варианта х1 = 1 равна самой частоте этого варианта, т.е. двум: v1 =
2.
Накопленная частота второго варианта х2 = 2 равна сумме частот первого и второго вариантов,
т.е. v2 = 2 + 4 = 6.
Далее, аналогично:
v3 = 12; v4 = 20; v5 = 30; v6 = 39; v7 = 45; v7 = 49; v8 =50.
Построим кумуляту:
в) Рассчитаем средний
размер (среднее число
членов) семьи. Так как
частоты отличны друг от
друга, расчет средней
арифметической
произведем по формуле
(6.9).
Средний размер семьи 5,06 человека.
г) Так как частоты неодинаковы, для расчета дисперсии размера семьи используем формулу
(6.12). Дисперсия размера семьи 3,6964 чел2.
Найдем среднее квадратическое отклонение размера семьи по формуле (6.13).
Среднее квадратическое отклонение размера семьи 1,9226 чел.
Найдем коэффициент вариации размера семьи по формуле (6.14).
Коэффициент вариации составляет 38%. Так как коэффициент вариации больше 35%, можно
сделать вывод о том, что изучаемая совокупность семей является неоднородной, чем и
объясняется высокая колеблемость размера семьи в данной совокупности.
Ввиду неоднородности семей, попавших в выборку, использование средней арифметической для
характеристики наиболее типичного уровня размера семьи не вполне оправданно средняя
арифметическая нетипична для изучаемой совокупности. В качестве характеристик наиболее
типичного уровня размера семьи в данной совокупности лучше использовать моду или медиану.
Пример 6.2 Имеются данные о годовой мощности предприятий цементной промышленности :
Предприятия с годовой мощностью, тыс.
тонн
Количество предприятий
до 500
500 – 1000
1000 – 2000
2000 – 3000
свыше 3000
27
11
8
8
2
а) Постройте гистограмму, кумуляту;
б) Рассчитайте среднюю мощность предприятий;
в) Найдите дисперсию, среднее квадратическое отклонение, коэффициент вариации.
Объясните полученные результаты, сделать выводы.
Решение. а) Данные о годовой мощности предприятий цементной промышленности представлены в
виде интервального вариационного ряда значения признака заданы в виде интервалов. При этом
первый и последний интервалы открытые: оба интервала не имеют одной из границ. Наконец, данный интервальный вариационный ряд с неравными интервалами: интервальные разности
(разность между верхней и нижней границами интервала) интервалов неодинаковы.
Условно закроем границы открытых интервалов.
Интервальная разность второго интервала равна: 1000 500 = 500. Следовательно, нижняя
граница первого интервала составит: 500 500 = 0.
Интервальная разность предпоследнего интервала равна: 3000 2000 = 1000. Следовательно,
верхняя граница последнего интервала составит: 3000 + 1000 = 4000.
В результате, получим следующий вариационный ряд:
xi
0 500
500 1000
1000 2000
2000 3000
3000 4000
mi
27
11
8
8
2
Учитывая неодинаковую величину интервалов, для построения гистограммы рассчитаем
абсолютные плотности распределения по формуле (6.6).
Построим гистограмму:
Гистограмма
f(a)
0,05 0,04
0,03
0,02
0,01
0
x
400
0
300
0
50
0
50
0
1
150
0
100
0
150
0
150
0
200
0
200
0
Для того чтобы построить кумуляту, необходимо рассчитать накопленные частоты или частости.
Накопленная частота нижней границы первого варианта х=0 равна нулю. Накопленная частота
верхней границы первого интервала равна частоте этого интервала, т.е. 27.
Накопленная частота верхней границы второго интервала равна сумме частот первого и второго
интервалов, т.е. 27 + 11 = 38.
Далее, аналогично:
38 + 8 = 46; 46 + 8 = 54; 54 + 2 = 56.
Построим кумуляту:
б) Рассчитаем среднюю мощность
предприятий цементной
промышленности.
Так как частоты интервалов
разные, используем для расчета
средней арифметической формулу
(6.9). При расчете числовых
характеристик интервального
вариационного ряда в качестве
значений признака принимаются
середины интервалов.
Рассчитаем середины интервалов:
Теперь расчет средней арифметической примет вид: Средняя мощность предприятий цементной промышленности составила 964,2857 тыс. тонн.
Следует отметить, что использование с той или иной целью средней арифметической,
рассчитанной по данным интервального ряда с открытыми интервалами, может привести к
серьезным ошибкам. Это связано с тем, что открытые интервалы закрываются условно, в
действительности значения признака у объектов, попадающих в открытые интервалы, могут
выходить далеко за их условные границы.
В связи с этим, для оценки наиболее типичного уровня изучаемого признака по данным
интервального ряда с открытыми интервалами лучше использовать моду или медиану.
в) Оценим колеблемость мощности предприятий цементной промышленности.
Так как частоты неодинаковы, для расчета дисперсии используем формулу (6.12)
Дисперсия мощности предприятий 862563,7755 (тыс. тонн)2.
Найдем среднее квадратическое отклонение мощности предприятий по формуле (6.13)
Среднее квадратическое отклонение мощности предприятий 928,7431 тыс. тонн.
Найдем коэффициент вариации по формуле (6.14)
Коэффициент вариации годовой мощности предприятий цементной промышленности составляет
96,31%. Так как коэффициент вариации больше 35%, можно сделать вывод о том, что изучаемая
совокупность предприятий является неоднородной, в ее состав вошли и крупные и мелкие
предприятия, что и обусловило высокую колеблемость годовой мощности.
Следовательно, использование средней арифметической для характеристики наиболее типичного
уровня годовой мощности предприятий цементной промышленности неверно средняя
арифметическая нетипична для изучаемой совокупности. Это еще раз подтверждает
необходимость использования моды или медианы для характеристики наиболее типичного уровня
годовой мощности данной совокупности предприятий цементной промышленности.
Основы математической теории выборочного метода.
3.1. Общие сведения о выборочном методе:
генеральная и выборочная совокупность; преимущества выборочного метода;
ошибки репрезентативности;
виды выборок и способы отбора.
3.2. Понятие оценки параметров. Свойства оценок:
несмещенность;
состоятельность;
эффективность.
3.3. Методы нахождения оценок.
3.3.1. Метод моментов.
3.3.2. Метод максимального правдоподобия.
3.3.3. Метод наименьших квадратов (МНК).
3.4. Понятие интервального оценивания.
3.4.1. Доверительная вероятность (надежность оценки)
.
3.4.2. Доверительный интервал для генеральной средней.
3.4.3. Доверительный интервал для генеральной доли.
3.4.4. Доверительные интервалы для генеральной дисперсии и генерального СКО.
Вариационные ряды и их характеристики
Вариационные ряды и их характеристики
Вариационные ряды и их характеристики
Вариационные ряды и их характеристики
Вариационные ряды и их характеристики
Вариационные ряды и их характеристики
Вариационные ряды и их характеристики
Вариационные ряды и их характеристики
Вариационные ряды и их характеристики
Вариационные ряды и их характеристики
Вариационные ряды и их характеристики
Материалы на данной страницы взяты из открытых истончиков либо размещены пользователем в соответствии с договором-офертой сайта. Вы можете сообщить о нарушении.