Метод наименьших квадратов

  • docx
  • 12.11.2021
Публикация на сайте для учителей

Публикация педагогических разработок

Бесплатное участие. Свидетельство автора сразу.
Мгновенные 10 документов в портфолио.

Иконка файла материала Л2-00809.docx

Метод наименьших квадратов

 

Получение регрессионной модели происходит в два этапа:

1) подбор вида функции;

2) вычисление параметров функции.

Первая задача не имеет строгого решения. Здесь может по­мочь опыт и интуиция исследователя, а возможен и «слепой» пе­ребор из конечного числа функций и выбор лучшей из них.

Чаще всего выбор производится среди следующих функций:

у = ах + b - линейная функция;

у = ах2 + bх + с - квадратичная функция;

у = а ln (x) + b - логарифмическая функция;

у = а е - экспоненциальная функция;

у = ахb - степенная функция.

Квадратичная функция называется в математике полиномом второй степени. Иногда используются полиномы и более высо­ких степеней, например полином третьей степени имеет вид: у= ах3 + bх2 + сх + d.

Во всех этих формулах:

 х - аргумент,

у - значение функции,

а, b, с, d - параметры функции,

ln(x) - натуральный логарифм,

е - константа, основание натурального логарифма.

Если вы выбрали (сознательно или наугад) одну из предлагае­мых функций, то далее нужно подобрать параметры (а, b, с и пр.) так, чтобы функция располагалась как можно ближе к экспери­ментальным точкам. Что значит «располагалась как можно бли­же»? Ответить на этот вопрос значит предложить метод вычис­ления параметров. Такой метод был предложен в XVIII веке немецким математиком К. Гауссом и называется методом наименьших квадратов (МНК). Суть его заключается в следующем: искомая функция должна быть построена так, чтобы сумма квад­ратов отклонений у-координат всех экспериментальных точек от у-координат графика функции была минимальной.

Мы не будем здесь производить подробное математическое описание метода наименьших квадратов. Достаточно того, что вы теперь знаете о существовании такого метода. Он очень широко используется в статистической обработке данных и встроен во многие математические пакеты программ. Важно понимать следу­ющее: методом наименьших квадратов по данному набору экспе­риментальных точек можно построить любую (в том числе и из рассмотренных выше) функцию. А вот будет ли она нас удовлет­ворять, это уже другой вопрос - вопрос критерия соответствия. На рис.3.5 изображены три функции, построенные методом наи­меньших квадратов по приведенным экспериментальным данным.

 

 

Рис. 3.5. Три функции, построенные по МНК

 

Эти рисунки получены с помощью табличного процессора Microsoft Excel . График регрессионной модели называется трен­ дом. Английское слово trend можно перевести как « общее на­ правление » или « тенденция») .

Уже с первого взгляда хочется отбраковать вариант линейного тренда. График линейной функции - это прямая. Полученная по МНК прямая отражает факт роста заболеваемости от концентра­ции угарного газа, но по этому графику трудно что-либо сказать о характере этого роста. А вот квадратичный и экспоненциальный тренды правдоподобны. Теперь пора обратить внимание на надпи­си, присутствующие на графиках. Во-первых, это записанные в явном виде искомые функции - регрессионные модели: 

линейная функция:                           у = 46,361х - 99,881;

экспоненциальная функция:             у = 3,4302 е 0,7555х;

квадратичная функция:                    у = 21,845х2 - 106,97х + 150,21.

На графиках присутствует еще одна величина, полученная в результате построения трендов. Она обозначена как R2. В статис­тике эта величина называется коэффициентом детерминирован­ности. Именно она определяет, насколько удачной является по­ лученная регрессионная модель. Коэффициент детерминирован­ности всегда заключен в диапазоне от 0 до 1. Если он равен 1, то функция точно проходит через табличные значения, если О, то выбранный вид регрессионной модели предельно неудачен. Чем R2 ближе к 1, тем удачнее регрессионная модель.

Из трех выбранных моделей значение R2  наименьшее у линей­ной. Значит, она самая неудачная (нам и так это было понятно). Значения же R2 у двух других моделей достаточно близки (разни­ца меньше 0,01). Если определить погрешность решения данной задачи как 0,01, по критерию R2 эти модели нельзя разделить. Они одинаково удачны. Здесь могут вступить в силу качествен­ные соображения. Например, если считать, что наиболее сущест­венно влияние концентрации угарного газа проявляется при боль­ших величинах, то, глядя на графики, предпочтение следует от­дать квадратичной модели. Она лучше отражает резкий рост заболеваемости при больших концентрациях примеси.

Интересный факт: опыт показывает, что если человеку пред­ложить на данной точечной диаграмме провести «на глаз» пря­мую так, чтобы точки были равномерно разбросаны вокруг нее, то он проведет линию, достаточно близкую к той, что дает МНК.