Статистика- наука о сборе, измерении и анализе массовых количественных данных.
Существует:
медицинская статистика
экономическая статистика
социальная статистика и др…
Зависимости устанавливаются экспериментальным путем:
сбор данных
анализ
обощение
Рассмотрим пример из области медицинской статистики
Известно, что наиболее сильное влияние на бронхиально-легочные заболевания оказывает угарный газ — оксид углерода.
Поставив цель определить эту зависимость, специалисты по медицинской статистике проводят сбор данных. Они собирают сведения из разных городов о средней концентрации угарного газа в атмосфере и о заболеваемости астмой (число хронических больных на 1000 жителей). Полученные данные можно свести в таблицу, а также представить в виде точечной диаграммы
Из полученных данных можно сделать вывод: при концентрации угарного газа до 3 мг/м3 его влияние на заболеваемость астмой несильное. С дальнейшим ростом концентрации наступает резкий рост заболеваемости
Статистические данные всегда являются приближенными, усредненными. Поэтому они носят оценочный характер, но верно отражают характер зависимости величин.
И еще одно важное замечание: для достоверности результатов, полученных путем анализа статистических данных, этих данных должно быть много.
А как построить математическую модель данного явления?
Очевидно, нужно получить формулу, отражающую зависимость количества хронических больных Р от концентрации угарного газа С (т.е. функцию зависимости Р от С). Вид такой функции неизвестен, ее следует искать методом подбора по экспериментальным данным.
Понятно, что график искомой функции должен проходить близко к точкам экспериментальных данных. Строить функцию так, чтобы ее график точно проходил через все данные точки, не имеет смысла. Во-первых, математический вид такой функции может оказаться слишком сложным. Во-вторых, уже говорилось о том, что экспериментальные значения являются приближенными.
Основные требования к искомой функции:
- она должна быть достаточно простой для использования ее в дальнейших вычислениях;
график функции должен проходить вблизи экспериментальных точек так, чтобы отклонения этих точек от графика были минимальны и равномерны.
Полученная таким образом функция называется в статистике регрессионной моделью.
Регрессионная модель – это функция, описывающая зависимость между количественными характеристиками сложных систем.
График регрессионной модели называется трендом (trend – направление, тенденция).
Два этапа получения регрессионной модели
1) подбор вида функции:
y = ax + b - линейная функция;
y = ax2 + bx + c - квадратичная функция (полином второй степени); a, b, c - параметры
y=a ln(x) +b - логарифмическая функция;
y = aebx- экспоненциальная функция;
y = axb - степенная функция.
вычисление параметров функции:
метод наименьших квадратов (18 век нем. К. Гаусс) - сумма квадратов отклонений y-координат всех экспериментальных точек от y-координат графика функции должна быть минимальной.
Алгоритм построения регрессионной модели по МНК с помощью MS Excel (линейный тренд)
Построить таблицу по данным зависимости.
Построить точечную диаграмму. (В качестве подписи к оси OX выбрать название тренда - «Линейный», остальные надписи и легенду можно игнорировать).
Щелкнуть по полю диаграммы; выполнить команду Макет – Линия тренда – Дополнительные параметры линии треда;
В открывшемся окне на вкладке Тип выбрать Линейный тренд;
В окне Параметры и установить галочки на флажках показывать уравнения на диаграмме и поместить на диаграмме величину достоверности ампроксикации R^2
щелкнуть OK.
По регрессионной математической модели можно прогнозировать процесс путем вычислений (т.е. оценить уровень заболеваемости астмой не только для тех значений концентрации угарного газа, которые были получены путем измерений, но и для других значений).
Это очень важно с практической точки зрения. Например, если в городе планируется построить завод, который будет выбрасывать в атмосферу угарный газ, то, рассчитав его возможную концентрацию, можно предсказать, как это отразится на заболеваемости астмой жителей города.
Прогнозирование по регрессионной модели:
Прогнозирование по регрессионной модели возможно 2 способами:
1 способ
Восстановление значений – прогноз в пределах экспериментальных значений независимой переменной.
Для прогноза берем уравнение того графика, у которого R2 ближе всего к 1
Выберем для нашего примера в качестве наиболее подходящей квадратичную зависимость. Построим следующую электронную таблицу:
Подставляя в ячейку А2 значение концентрации угарного газа, в ячейке В2 будем получать прогноз заболеваемости. Вот пример восстановления значения:
2 способЭкстраполяция – прогнозирование за пределами экспериментальных данных
Как это выглядит при использовании квадратичного тренда для С(концентрация) = 7, показано на рисунке.
В ряде случаев с экстраполяцией надо быть осторожным.
Ограничения при экстраполяции !
Применимость регрессионной модели ограничена, т.к. экстраполяция строится на гипотезе, что
за пределами экспериментальной области закономерность зависимости сохраняется.
На практике – разным областям данных могут лучше соответствовать разные модели.
Вывод: применять экстраполяцию можно только в областях данных, близких к экспериментальной
Коротко о главном
Регрессионная модель может использоваться для прогнозирования значений параметров в точках, не являющихся экспериментальными.
Расчет зависимой величины в пределах экспериментальных значений независимого параметра называется восстановлением значения; за пределами - экстраполяцией.
При экстраполяции нельзя далеко уходить от экспериментальной области. За ее пределами характер зависимости может измениться.
Практическая работа 3.16«Получение регрессионных моделей в MS Excel»
Цель работы: освоение способов построения по экспериментальным данным регрессионной модели и графического тренда средствами табличного процессора MS Excel.
Семакин И.Г. Практикум. Информатика и ИКТ 10-11 кл., стр.105
Практическая работа 3.17«Прогнозирование в MS Excel»
Цель работы: освоение приемов прогнозирования количественных характеристик системы по регрессионной модели путем восстановления значений и экстраполяции
Семакин И.Г. Практикум. Информатика и ИКТ 10-11 кл., стр.107
© ООО «Знанио»
С вами с 2009 года.