Лінійна регресія. Використання методу найменших квадратів (МНК). Де застосовується метод найменших квадратів Рішення методом найменших квадратів

Слободянюк О.І. Метод найменших квадратів у шкільному фізичному експерименті // Фізiка: проблеми. викладання. - 1995. - Вип. 1. - С. 88-99.

Наразі розроблено кілька методів обробки результатів вимірювань. Найбільш уживаним і точним є метод найменших квадратів (МНК).

У статті викладається суть методу найменших квадратів, умови його застосування. Автори пропонують приклади використання методу МНК.

Як правило, всі фізичні експерименти зводяться до вимірювання залежності певної величини uвід однієї чи кількох інших величин z 1 , z 2 , …, z n.

Необхідність отримання залежності (а не проведення «точкового» виміру при фіксованих значеннях параметрів) виправдовується такими перевагами:

  • можливістю перевірки теоретичних побудов;
  • можливістю виключення трудновизначуваних параметрів;
  • у деяких випадках простим способом оцінки похибок.

Наразі розроблено кілька методів обробки результатів вимірювань. Найбільш уживаним, простим та обґрунтованим є метод найменших квадратів (МНК).

1. Суть методу найменших квадратів, умови його застосування

Допустимо, нам відомий вид функціональної залежності фізичної величини uвід іншої фізичної величини z, але не відомі параметри цієї залежності a, b, c,... . В результаті проведених вимірювань отримано таблицю значень u iпри деяких значеннях . Потрібно знайти такі значення параметрів a, b, c,... при яких функція найкраще описує експериментальні дані.

МНК стверджує, що «найкращою» кривою буде така, для якої сума квадратів відхилень експериментальних значень u iвід значень функції мінімальна. Таким чином, для визначення параметрів a, b, c,... необхідно знайти мінімум функції

. (1)

Зауважимо, що Φ розглядається тут як функція параметрів a, b, c,..., оскільки величини u i, z iвідомі з експериментальних даних.

У випадку перебування мінімуму функції (1) вдається зробити які завжди. Тому для практичної реалізації МНК часто застосовують наступний штучний прийом: знаходять деяке функціональне перетворення , що призводить досліджувану залежність до лінійного вигляду

для якого реалізація МНК найпростіша. Приклади перетворень такого типу наведено у табл. 1. Деякі перетворення будуть розглянуті нижче під час викладу конкретних прикладів.

Підставимо вираз (2) у вираз (1)

(3)

та отримаємо рівняння для визначення параметрів аі b. Для цього обчислимо похідні функції Φ по аі bі прирівняємо їх до нуля,

(4)

Ця система є лінійною і легко вирішується:

(5)

Однак отримані висловлювання не дуже зручні для практичних розрахунків, тому перепишемо їх у дещо іншій формі. Для цього позначимо

(6)

(кутові дужки означають середнє арифметичне за експериментальними даними) і запишемо

(7)

З другого рівняння системи (4) виразимо .

Вирази (6), (7) дозволяють досить швидко за допомогою непрограмованого калькулятора розрахувати параметри лінійної залежності (2).

Сформулюємо умови, за яких отримані в такий спосіб значення параметрів є оптимальними (незміщеними, заможними, ефективними оцінками).

1. Результати вимірів є незалежними.

2. Похибки вимірів підпорядковуються нормальному розподілу.

3. Величини хi, відомі точно.

Практично МНК у викладеній формі застосовують, якщо похибки вимірювань уiзначно (більш ніж на порядок) перевершують похибки вимірів величин x i.

За умови виконання цих умов параметри а, bлінійно виражаються через результати вимірів уi, (похибками вимірювань x iнехтуємо), тому похибка визначення параметрів може бути знайдена стандартним методом як похибка непрямого виміру. Декілька громіздкі викладки призводять до наступних формул для оцінок похибок:

(8)

де , Інші позначення зберігаємо колишніми:

(9)

Таким чином, формули (6) - (9) повністю вичерпують МНК для аналізу лінійної залежності. Формули (7) – (8) дають оцінки лише випадкових похибок вимірів. Їх використання цілком виправдано, якщо цей тип похибок переважає, що найчастіше буває практично. Свідченням такого переважання є помітний розкид точок ( уi, хi) на графіці, коли ці точки не лягають точно на пряму. Зазначимо, що постійна систематична приладова похибка не впливає визначення параметра аі є адитивною добавкою до похибки параметра b, тобто. якщо приладова похибка вимірювання величин уiрівна , то .

Зазначимо також, що у деяких випадках необхідно проводити кілька вимірювань величини uпри тому самому значенні z. І тут ніяких модифікацій МНК не потрібно. Достатньо розглядати ці значення незалежні, тобто. включати до розрахунків пари z i, u iВ· з одними і тими ж значеннями z i. Іншими словами, одному значенню zможе відповідати декілька значень u. Звичайно, не можуть бути всі zоднаковими, інакше у формулі (5) у знаменнику виявиться нуль.

2. Практична реалізація МНК для лінійної залежності на непрограмованому калькуляторі

Як показує досвід, краще для розрахунків параметрів лінійної залежності та їх похибок скористатися заздалегідь приготованим бланком (табл. 2). У колонці 1 записуються номери проведених вимірів ( i = 1, 2, ..., Ν ); у колонках 2, 3 – результати вимірювань величин z i, u i.

Першим кроком використання цього бланка для реалізації МНК є заповнення колонок 4, 5. Вони представляють результати перетворень від z, uдо величин х, у, між якими шукається лінійна залежність

Розрахункові формули, представлені в колонці 6, допускають обчислення на калькулятор без запису проміжних результатів. Будь-який, навіть найпростіший калькулятор, має одну комірку пам'яті, в якій можна накопичувати значення сум. Розрахунки слід проводити у такій послідовності:

1) обчислити – для цього послідовно ввести на згадку всі значення хi, Записані в колонці 4, і після цього вміст розділити на кількість пар вимірювань N,результат записати у колонці 7;

2) обчислити , послідовно набираючи значення x i, накопичити у пам'яті суму їх квадратів (набрати значення – «помножити» – «рівно» – «на згадку +») і розділити на N, Від отриманого результату відняти квадрат середнього, результат записати в колонці 7;

3 – 4) аналогічно обчислити та ;

5) у пам'яті накопичити суму творів, розділити на N, відняти твір середніх і поділити на – отримати значення параметра а.

Подальші розрахунки цілком очевидні.

3. Приклад використання МНК

Завдання. За допомогою математичного маятника виміряти прискорення вільного падіння.

УстаткуванняКабіна: нитка, грузик, штатив, лінійка, секундомір.

Рішення. Період малих коливань математичного маятника Твизначається за формулою. Цю формулу можна перетворити на вигляд.

Іншими словами, між довжиною маятника lі квадратом періоду існує лінійна зв'язок, яку ми запишемо як: , де (перетворення до лінійного виду). Введення параметра bу разі не є обов'язковим, оскільки теоретично b= 0. Однак запис лінійної залежності в загальному вигляді дозволяє врахувати автоматично похибку у визначенні довжини маятника, більше того, у цьому випадку можна вимірювати не довжину маятника, а лише її зміну. Якщо ж всі виміри проведені коректно, то МНК повинен привести до результату , що свідчить про те, що .

Результати вимірювань зміни довжини маятника Δ l(вимірювалася відстань від точки підвісу до деякої фіксованої точки на нитці) та часу tдвадцяти коливань (виміряно за допомогою ручного годинника) наведені в табл. 3. Там же наведено результати розрахунків за викладеною методикою.

Обчисливши коефіцієнт а, можна знайти значення прискорення вільного падіння та його похибка .

Остаточний результат м/с.

Значення параметру bне використовувалося (сенс отриманої величини – відстань від фіксованої точки на нитці до центру мас вантажу). Використання цього параметра виправдане складністю точного визначення положення центру ваги.

4. Експериментальні завдання, що передбачають використання МНК

На закінчення запропонуємо кілька експериментальних завдань, на вирішення яких слід використовувати викладений метод. Кожне завдання має короткі вказівки до рішення. Так як у кожному випадку формули для оцінок похибок очевидні, то вони не наводяться.

Завдання 1. Період коливань математичного маятника залежить від амплітуди j 0 (у радіанах) згідно із законом

(10)

Визначте значення параметра β.

УстаткуванняКабіна: нитка, вантаж, штатив, транспортир, електронний секундомір.

Вказівки до рішення. Залежність періоду коливань від амплітуди досить слабка. Щоб виявити, необхідно проводити вимірювання з високою точністю (–0,01 с), для чого потрібен електронний секундомір.

Залежність (10) представимо у вигляді , де y =T,b = Т 0 . За МНК для лінійної залежності можна знайти значення параметрів аі bтоді шуканий коефіцієнт визначиться за формулою (зазначимо, що теоретичне значення).

Завдання 2. Визначте фокусну відстань лінзи, що збирає.

УстаткуванняКабіна: джерело світла, екран, лінза, лінійка.

Вказівки до рішення. Скористайтеся формулою тонкої лінзи

де d- Відстань від предмета до лінзи, f– відстань від лінзи до зображення, F- Фокусна відстань лінзи.

Позначимо тоді. Якщо виміряти кілька пар значень diі f iта нанести на графік точки , то ці точки повинні лягти на пряму, яка відсікає на осях х, увідрізки, чисельно рівні. Якщо обробити цю залежність МНК, можна отримати і потім знайти .

Завдання 3. Охолодження води описується формулою , де Δ T-Різниця температур води і повітря в кімнаті, Δ T 0 - ця ж різниця в момент часу t= 0. Визначте, скільки часу минуло з кипіння води.

Устаткування: гаряча вода в посудині, термометр, годинник.

Вказівки до рішення. Необхідно заздалегідь закип'ятити воду і поставити її остигати. Через деякий час цей посуд можна надати для виконання завдання. Слід пам'ятати, що час остигання склянки води за кімнатних умов близько 40 хв.

Для вирішення поставленого завдання необхідно виміряти залежність температури води Tвід часу t. Далі перепишемо наведену формулу у вигляді , де T 0 – кімнатна температура, Tкип - температура кипіння води, t 0 – час, що минув від закипання на початок виміру. Оскільки в. формулу входять лише різниці температур, можна користуватися шкалою Цельсія. Прологарифмуємо останній вираз

(12)

і позначимо , x= t, отримаємо лінійну залежність

Обробляючи результати вимірювань за МНК, знайдемо значення параметрів а, b, з яких можна обчислити потрібне значення часу t 0: .

Завдання 4. Досліджуйте, як залежить сила опору повітря, що діє на шматочки паперу, що падають, від швидкості останніх.

Устаткування: шматочки паперу, секундомір.

Вказівки до рішення. Шматочки паперу слід зробити квадратними (приблизно см) і злегка вигнути у вигляді «парашутиків», щоб їх падіння було стійким. Відмінно для цієї ж мети підходять одноразові тарілочки, виготовлені із цупкого паперу або фольги.

Падіння паперових тарілочок (або парашутиків) відбувається з постійною швидкістю, якщо знехтувати невеликим початковим етапом розгону. Сила опору повітря залежить від швидкості u згідно із законом

(потрібно визначити γ), при встановився рух ця сила чисельно дорівнює силі тяжіння , отже, швидкість руху, що встановився, а час падіння з висоти h:

(14)

Візьмемо кілька (1, 2, 3, ..., 5) однакових тарілочок та виміряємо час падіння t nскладених разом nтарілочок. Коефіцієнт зу формулі (13) буде однаковий (він залежить тільки від форми тарілочки), маса ж падаючих тіл , де m 0 – маса однієї тарілочки. Використовуємо (14): , у логарифмічній формі

(15)

Як випливає з цієї формули, між і існує лінійний зв'язок , де , bувійшли решта постійних величин, вимірювати які немає необхідності.

Таким чином, вимірявши залежність часу падіння t n, від кількості складених разом nтарілочок і побудувавши залежність (15), по МНК можна визначити значення параметра ата шуканої величини.

Під час проведення експерименту необхідно пам'ятати, що час падіння шматочка паперу див з висоти дорівнює приблизно 1,5 з, тому необхідно вимірювати час падіння з похибкою порядку 0,1 з. Отже, для кожного значення числа nпотрібно отримати кілька значень tn. Підкреслимо, що в цій ситуації немає необхідності попередньо розраховувати середні значення, можна (і потрібно) розглядати всі результати виміру як незалежні та включати їх до бланку розрахунку.

Ще одне завдання такого типу докладно розглянуто в журналі «Фокус».

5. Висновок

Розглянутий алгоритм розрахунків з МНК апробовано на літніх зборах у таборі «Зубраня». Проведені з переможцями олімпіад заняття показали, що цей метод цілком доступний школярам старших класів із поглибленим вивченням фізики. Після набуття досвіду роботи на мікрокалькуляторі розрахунки займають приблизно 5-10 хв.

Необхідність вивчення методів графічної обробки результатів (по MHK чи іншим) обґрунтовується участю команд республіки на міжнародних змаганнях (олімпіадах, турнірах юних фізиків), де графічні методи займають чільне місце та оцінюються дуже високо.

1. Тейлор Дж. Введення у теорію помилок. - М: Світ, 1985.

2. Більшов Л.М., Смирнов Н.В. Таблиці математичної статистики. - М.: Наука, 1983.

3. Тимофєєв А.. Перевіримо Стокса? - Фокус. - 1995. - №2. - С. 44-49.

Приведення до лінійної залежності

Вид залежності

Перетворення

Параметри

Бланк розрахунку параметрів лінійної залежності

i

z

u

x

y

Розрахункові формули

Результати

Визначення параметрів залежності
періоду коливань маятника від його довжини

Δl ,

Розрахункові формули

Результати

Яке знаходить найширше застосування у різних галузях науки та практичної діяльності. Це може бути фізика, хімія, біологія, економіка, соціологія, психологія і таке інше. Волею долі мені часто доводиться мати справу з економікою, і тому сьогодні я оформлю вам путівку до дивовижної країни під назвою Економетрика=) …Як це не хочете?! Там дуже добре – треба тільки наважитися! …Але ось те, що ви, напевно, точно хочете – так це навчитися вирішувати завдання методом найменших квадратів. І особливо старанні читачі навчаться вирішувати їх не тільки безпомилково, але ще й ДУЖЕ ШВИДКО;-) Але спочатку загальна постановка задачі+ супутній приклад:

Нехай у деякій предметної області досліджуються показники, які мають кількісне вираз. У цьому є підстави вважати, що показник залежить від показника . Це може бути як наукової гіпотезою, і грунтуватися на елементарному здоровому глузді. Залишимо, проте, науку осторонь і досліджуємо більш апетитні області - зокрема, продовольчі магазини. Позначимо через:

– торгову площу продовольчого магазину, кв.м.,
- Річний товарообіг продовольчого магазину, млн. руб.

Цілком зрозуміло, що чим більша площа магазину, тим у більшості випадків буде більшим його товарообіг.

Припустимо, що після проведення спостережень/дослідів/підрахунків/танців з бубном у нашому розпорядженні виявляються числові дані:

З гастрономами, гадаю, все зрозуміло: - це площа 1-го магазину, - його річний товарообіг, - площа 2-го магазину, - його річний товарообіг і т.д. До речі, зовсім не обов'язково мати доступ до секретних матеріалів – досить точну оцінку товарообігу можна отримати засобами математичної статистики. Втім, не відволікаємось, курс комерційного шпигунства – він уже платний =)

Табличні дані також можна записати у вигляді точок та зобразити у звичній для нас декартовій системі .

Відповімо на важливе питання: скільки точок потрібно якісного дослідження?

Чим більше тим краще. Мінімально допустимий набір складається з 5-6 пікселів. Крім того, при невеликій кількості даних у вибірку не можна включати «аномальні» результати. Так, наприклад, невеликий елітний магазин може рятувати на порядки більше «своїх колег», спотворюючи тим самим загальну закономірність, яку потрібно знайти!

Якщо дуже просто - нам потрібно підібрати функцію, графікякою проходить якомога ближче до точок . Таку функцію називають апроксимуючою (апроксимація – наближення)або теоретичною функцією . Взагалі кажучи, тут одразу з'являється очевидний «претендент» – багаточлен високого ступеня, графік якого проходить через всі точки. Але цей варіант складний, а часто й просто некоректний (т.к. графік буде весь час «петляти» і погано відображатиме головну тенденцію).

Таким чином, розшукувана функція повинна бути досить простою і в той же час відображати залежність адекватно. Як ви здогадуєтеся, один із методів знаходження таких функцій і називається методом найменших квадратів. Спочатку розберемо його суть у загальному вигляді. Нехай деяка функція наближає експериментальні дані:


Як оцінити точність наближення? Обчислимо і різниці (відхилення) між експериментальними та функціональними значеннями (Вивчаємо креслення). Перша думка, яка спадає на думку – це оцінити, наскільки велика сума, але проблема полягає в тому, що різниці можуть бути і негативні. (наприклад, ) та відхилення внаслідок такого підсумовування будуть взаємознищуватись. Тому як оцінка точності наближення напрошується прийняти суму модуліввідхилень:

або в згорнутому вигляді: (раптом хто не знає: – це значок суми, а – допоміжна змінна-«лічильник», яка набуває значення від 1 до ).

Наближаючи експериментальні точки різними функціями, ми отримуватимемо різні значення , і очевидно, де ця сума менша – та функція і точніше.

Такий метод існує і називається він методом найменших модулів. Однак на практиці набув значно більшого поширення метод найменших квадратів, В якому можливі негативні значення ліквідуються не модулем, а зведенням відхилень у квадрат:

, після чого зусилля спрямовані на підбір такої функції, щоб сума квадратів відхилень була якнайменше. Власне, звідси й назва методу.

І зараз ми повертаємося до іншого важливого моменту: як зазначалося вище, функція, що підбирається, повинна бути досить проста - але ж і таких функцій теж чимало: лінійна , гіперболічна, експоненційна, логарифмічна, квадратична і т.д. І, звичайно, тут одразу б хотілося «скоротити поле діяльності». Який клас функцій вибрати на дослідження? Примітивний, але ефективний прийом:

- Найпростіше зобразити точки на кресленні та проаналізувати їх розташування. Якщо вони мають тенденцію розташовуватися по прямій, слід шукати рівняння прямої з оптимальними значеннями та . Іншими словами, завдання полягає у знаходженні ТАКИХ коефіцієнтів – щоб сума квадратів відхилень була найменшою.

Якщо ж точки розташовані, наприклад, по гіперболі, то свідомо зрозуміло, що лінійна функція даватиме погане наближення. У цьому випадку шукаємо найбільш «вигідні» коефіцієнти для рівняння гіперболи – ті, що дають мінімальну суму квадратів .

А тепер зверніть увагу, що в обох випадках мова йде про функції двох змінних, аргументами якої є параметри залежностей, що розшукуються:

І по суті нам потрібно вирішити стандартне завдання – знайти мінімум функції двох змінних.

Згадаймо про наш приклад: припустимо, що «магазинні» точки мають тенденцію розташовуватися по прямій лінії і є підстави вважати наявність лінійної залежностітоварообігу від торгової площі Знайдемо ТАКІ коефіцієнти «а» та «бе», щоб сума квадратів відхилень була найменшою. Все як завжди - спочатку приватні похідні 1-го порядку. Згідно правилу лінійностідиференціювати можна прямо під значком суми:

Якщо хочете використовувати дану інформацію для реферату або курсовика - буду дуже вдячний за посилання в списку джерел, такі докладні викладки знайдете мало де:

Складемо стандартну систему:

Скорочуємо кожне рівняння на «двійку» і, крім того, «розвалюємо» суми:

Примітка : самостійно проаналізуйте, чому «а» та «бе» можна винести за значок суми До речі, формально це можна зробити і із сумою

Перепишемо систему у «прикладному» вигляді:

після чого починає промальовуватися алгоритм розв'язання нашого завдання:

Координати точок ми знаємо? Знаємо. Суми знайти можемо? Легко. Складаємо найпростішу систему двох лінійних рівнянь із двома невідомими(«а» та «бе»). Систему вирішуємо, наприклад, методом Крамера, у результаті отримуємо стаціонарну точку . Перевіряючи достатня умова екстремумуможна переконатися, що в даній точці функція досягає саме мінімуму. Перевірка пов'язана з додатковими викладками і тому залишимо її за кадром (при необхідності кадр, що бракує, можна подивитися ). Робимо остаточний висновок:

Функція найкращим чином (принаймні, порівняно з будь-якою іншою лінійною функцією)наближає експериментальні точки . Грубо кажучи, її графік відбувається максимально близько до цих точок. У традиціях економетрикиотриману апроксимуючу функцію також називають рівнянням парної лінійної регресії .

Розглянуте завдання має велике практичне значення. У ситуації з нашим прикладом, рівняння дозволяє прогнозувати, який товарообіг («Ігрек»)буде біля магазину при тому чи іншому значенні торгової площі (Тому чи іншому значенні «ікс»). Так, отриманий прогноз буде лише прогнозом, але у багатьох випадках він виявиться досить точним.

Я розберу лише одне завдання з «реальними» числами, оскільки жодних труднощів у ній немає – всі обчислення на рівні шкільної програми 7-8 класу. У 95 відсотків випадків вам буде запропоновано знайти саме лінійну функцію, але в самому кінці статті я покажу, що нітрохи не складніше знайти рівняння оптимальної гіперболи, експоненти та деяких інших функцій.

По суті, залишилося роздати обіцяні плюшки – щоб ви навчилися вирішувати такі приклади не лише безпомилково, а ще й швидко. Уважно вивчаємо стандарт:

Завдання

В результаті дослідження взаємозв'язку двох показників отримані такі пари чисел:

Методом найменших квадратів знайти лінійну функцію, яка найкраще наближає емпіричні (досвідчені)дані. Зробити креслення, на якому в декартовій прямокутній системі координат побудувати експериментальні точки та графік апроксимуючої функції . Знайти суму квадратів відхилень між емпіричними та теоретичними значеннями. З'ясувати, чи буде функція кращою (з погляду методу найменших квадратів)наближати експериментальні точки.

Зауважте, що «іксові» значення – натуральні, і це має характерний змістовний зміст, про який я розповім трохи згодом; але вони, зрозуміло, можуть і дробовими. Крім того, залежно від змісту того чи іншого завдання як «іксові», так і «ігрові» значення повністю або частково можуть бути негативними. Ну а у нас дане «безлике» завдання, і ми починаємо його Рішення:

Коефіцієнти оптимальної функції знайдемо як розв'язання системи:

З метою більш компактного запису змінну-«лічильник» можна опустити, оскільки і так зрозуміло, що підсумовування здійснюється від 1 до .

Розрахунок потрібних сум зручніше оформити у табличному вигляді:


Обчислення можна провести на мікрокалькуляторі, але краще використовувати Ексель - і швидше, і без помилок; дивимося короткий відеоролик:

Таким чином, отримуємо наступну систему:

Тут можна помножити друге рівняння на 3 та від 1-го рівняння почленно відняти 2-е. Але це везіння - на практиці системи частіше не подарункові, і в таких випадках рятує метод Крамера:
Отже, система має єдине рішення.

Виконаємо перевірку. Розумію, що не хочеться, але навіщо пропускати помилки там, де їх можна стовідсотково не пропустити? Підставимо знайдене рішення в ліву частину кожного рівняння системи:

Отримано праві частини відповідних рівнянь, отже система вирішена правильно.

Таким чином, шукана апроксимуюча функція: – з всіх лінійних функційекспериментальні дані найкраще наближає саме вона.

На відміну від прямий залежності товарообігу магазину від його площі, знайдена залежність є зворотній (Принцип «що більше – тим менше»), і цей факт відразу виявляється по негативному кутовому коефіцієнту. Функція повідомляє нам про те, що зі збільшення якогось показника на 1 одиницю значення залежного показника зменшується в середньомуна 0,65 одиниць. Як то кажуть, що вище ціна на гречку, то менше її продано.

Для побудови графіка апроксимуючої функції знайдемо два її значення:

і виконаємо креслення:


Побудована пряма називається лінією тренду (а саме – лінією лінійного тренду, тобто у загальному випадку тренд – це не обов'язково пряма лінія). Всім знайомий вислів «бути в тренді», і, гадаю, що цей термін не потребує додаткових коментарів.

Обчислимо суму квадратів відхилень між емпіричними та теоретичними значеннями. Геометрично – це сума квадратів довжин «малинових» відрізків (два з яких настільки малі, що їх навіть не видно).

Обчислення зведемо до таблиці:


Їх можна знову ж таки провести вручну, про всяк випадок наведу приклад для 1-ї точки:

але набагато ефективніше вчинити вже відомим чином:

Ще раз повторимо: у чому сенс отриманого результату?З всіх лінійних функційу функції показник є найменшим, тобто у своїй родині це найкраще наближення. І тут, до речі, невипадкове заключне питання завдання: а раптом запропонована експоненційна функція краще наближати експериментальні точки?

Знайдемо відповідну суму квадратів відхилень – щоб розрізняти, я позначу їх літерою «епсілон». Техніка така сама:


І знову на будь-який пожежний обчислення для 1-ї точки:

В Екселі користуємося стандартною функцією EXP (Синтаксис можна подивитися в екселевський Довідці).

Висновок: , отже, експоненційна функція наближає експериментальні точки гірше, ніж пряма .

Але тут слід зазначити, що «гірше» – це ще не означає, що погано. Зараз збудував графік цієї експоненційної функції – і він теж проходить близько до точок - Так, що без аналітичного дослідження і сказати важко, яка функція точніше.

На цьому рішення закінчено, і я повертаюся до питання про натуральні значення аргументу. У різних дослідженнях, зазвичай, економічних чи соціологічних, натуральними «іксами» нумерують місяці, роки чи інші рівні часові проміжки. Розглянемо, наприклад, таке завдання.

Метод найменших квадратів (МНК) дозволяє оцінювати різні величини, використовуючи результати множини вимірювань, що містять випадкові помилки.

Характеристика МНК

Основна ідея цього методу полягає в тому, що як критерій точності розв'язання задачі розглядається сума квадратів помилок, яку прагнуть звести до мінімуму. З використанням цього можна застосовувати як чисельний, і аналітичний підхід.

Зокрема, як чисельну реалізацію метод найменших квадратів передбачає проведення якнайбільшого числа вимірювань невідомої випадкової величини. Причому чим більше обчислень, тим точніше буде рішення. У цьому безлічі обчислень (вихідних даних) отримують інше безліч гаданих рішень, з якого потім вибирається найкраще. Якщо безліч рішень параметризувати, метод найменших квадратів зведеться до пошуку оптимального значення параметрів.

Як аналітичний підхід до реалізації МНК на безлічі вихідних даних (вимірювань) і передбачуваній безлічі рішень визначається деяка (функціонал), яку можна висловити формулою, яка одержується як деяка гіпотеза, що вимагає підтвердження. У цьому випадку метод найменших квадратів зводиться до знаходження мінімуму цього функціоналу на множині квадратів помилок вихідних даних.

Зауважте, що самі помилки, саме квадрати помилок. Чому? Справа в тому, що найчастіше відхилення вимірів від точного значення бувають як позитивними, так і негативними. При визначенні середньої просте підсумовування може призвести до невірного висновку якості оцінки, оскільки взаємне знищення позитивних і негативних значень знизить потужність вибірки безлічі вимірювань. Отже, і точність оцінки.

Для того, щоб цього не сталося, і підсумовують квадрати відхилень. Навіть більше, щоб вирівняти розмірність вимірюваної величини та підсумкової оцінки, із суми квадратів похибок витягують

Деякі програми МНК

МНК широко використовується у різних галузях. Наприклад, у теорії ймовірностей та математичної статистики метод використовується для визначення такої характеристики випадкової величини, як середнє квадратичне відхилення, що визначає ширину діапазону значень випадкової величини.

Метод найменших квадратів

Метод найменших квадратів ( МНК, OLS, Ordinary Least Squares) - один із базових методів регресійного аналізу для оцінки невідомих параметрів регресійних моделей за вибірковими даними. Метод ґрунтується на мінімізації суми квадратів залишків регресії.

Необхідно відзначити, що власне методом найменших квадратів можна назвати метод вирішення задачі в будь-якій області, якщо рішення полягає або задовольняє деякий критерій мінімізації суми квадратів деяких функцій від змінних, що шукаються. Тому метод найменших квадратів може застосовуватися також для наближеного представлення (апроксимації) заданої функції іншими (простішими) функціями, при знаходженні сукупності величин, що задовольняють рівнянь або обмежень, кількість яких перевищує кількість цих величин і т.д.

Сутність МНК

Нехай задана деяка (параметрична) модель імовірнісної (регресійної) залежності між (з'ясованою) змінною yі безліччю факторів (що пояснюють змінних) x

де - вектор невідомих параметрів моделі

- Випадкова помилка моделі.

Нехай також є вибіркові спостереження значень вказаних змінних. Нехай – номер спостереження (). Тоді - значення змінних у спостереженні. Тоді при заданих значеннях параметрів b можна розрахувати теоретичні (модельні) значення змінної, що пояснюється y:

Розмір залишків залежить від значень параметрів b.

Сутність МНК (звичайного, класичного) у тому, щоб знайти такі параметри b, у яких сума квадратів залишків (англ. Residual Sum of Squares) буде мінімальною:

У випадку вирішення цього завдання може здійснюватися чисельними методами оптимізації (мінімізації). У цьому випадку говорять про нелінійному МНК(NLS або NLLS – англ. Non-Linear Least Squares). У багатьох випадках можна одержати аналітичне рішення. Для вирішення задачі мінімізації необхідно знайти стаціонарні точки функції, продиференціювавши її за невідомими параметрами b, прирівнявши похідні до нуля і вирішивши отриману систему рівнянь:

Якщо випадкові помилки моделі мають нормальний розподіл , мають однакову дисперсію і некорельовані між собою, МНК оцінки параметрів збігаються з оцінками методу максимальної правдоподібності (ММП).

МНК у разі лінійної моделі

Нехай регресійна залежність є лінійною:

Нехай y- Вектор-стовпець спостережень пояснюваної змінної, а - матриця спостережень факторів (рядки матриці - вектори значень факторів у даному спостереженні, по стовпцях - вектор значень даного фактора у всіх спостереженнях). Матричне уявлення лінійної моделі має вигляд:

Тоді вектор оцінок змінної, що пояснюється, і вектор залишків регресії дорівнюватимуть

відповідно сума квадратів залишків регресії дорівнюватиме

Диференціюючи цю функцію за вектором параметрів та прирівнявши похідні до нуля, отримаємо систему рівнянь (у матричній формі):

.

Вирішення цієї системи рівнянь і дає загальну формулу МНК-оцінок для лінійної моделі:

Для аналітичних цілей виявляється корисним останнє уявлення цієї формули. Якщо у регресійній моделі дані центровані, то цьому поданні перша матриця має сенс вибіркової ковариационной матриці чинників, а друга - вектор ковариаций чинників із залежною змінною. Якщо дані ще й нормованіна СКО (тобто зрештою стандартизовано), то перша матриця має сенс вибіркової кореляційної матриці факторів, другий вектор - вектора вибіркових кореляцій факторів із залежною змінною.

Важлива властивість МНК-оцінок для моделей з константою- лінія побудованої регресії проходить через центр тяжкості вибіркових даних, тобто виконується рівність:

Зокрема, у крайньому випадку, коли єдиним регресором є константа, отримуємо, що МНК-оцінка єдиного параметра (власне константи) дорівнює середньому значенню змінної, що пояснюється. Тобто середнє арифметичне, відоме своїми добрими властивостями із законів великих чисел, також є МНК-оцінкою – задовольняє критерію мінімуму суми квадратів відхилень від неї.

Приклад: найпростіша (парна) регресія

У разі парної лінійної регресії формули розрахунку спрощуються (можна обійтися без матричної алгебри):

Властивості МНК-оцінок

Насамперед, зазначимо, що для лінійних моделей МНК-оцінки є лінійними оцінками, як це випливає з вищенаведеної формули. Для незміщеності МНК-оцінок необхідно і достатньо виконання найважливішої умови регресійного аналізу: умовне за факторами математичне очікування випадкової помилки має дорівнювати нулю. Ця умова, зокрема, виконана, якщо

  1. математичне очікування випадкових помилок дорівнює нулю, та
  2. фактори та випадкові помилки - незалежні випадкові величини.

Друга умова - умова екзогенності факторів - важлива. Якщо це властивість не виконано, можна вважати, що будь-які оцінки будуть вкрай незадовільними: де вони навіть заможними (тобто навіть дуже великий обсяг даних Демшевського не дозволяє отримати якісні оцінки у разі). У класичному випадку робиться сильніша припущення про детермінованість факторів, на відміну від випадкової помилки, що автоматично означає виконання умови екзогенності. У випадку для спроможності оцінок досить виконання умови екзогенності разом із збіжністю матриці до деякої невиродженої матриці зі збільшенням обсягу вибірки до нескінченності.

Для того, щоб крім спроможності та незміщеності, оцінки (звичайного) МНК були ще й ефективними (найкращими в класі лінійних незміщених оцінок) необхідно виконання додаткових властивостей випадкової помилки:

Дані припущення можна сформулювати для коварійної матриці вектора випадкових помилок

Лінійна модель, що задовольняє такі умови, називається класичною. МНК-оцінки для класичної лінійної регресії є незміщеними, заможними та найбільш ефективними оцінками в класі всіх лінійних незміщених оцінок (в англомовній літературі іноді вживають абревіатуру BLUE (Best Linear Unbaised Estimator) - найкраща лінійна незміщена оцінка; у вітчизняній літературі найчастіше наводиться теорема Гауса – Маркова). Як неважко показати, ковариационная матриця вектора оцінок коефіцієнтів дорівнюватиме:

Узагальнений МНК

Метод найменших квадратів припускає широке узагальнення. Замість мінімізації суми квадратів залишків можна мінімізувати деяку позитивно визначену квадратичну форму від вектора залишків де - деяка симетрична позитивно визначена вагова матриця. Звичайний МНК є окремим випадком даного підходу, коли вагова матриця пропорційна одиничній матриці. Як відомо з теорії симетричних матриць (або операторів) для таких матриць існує розкладання. Отже, зазначений функціонал можна уявити наступним чином , тобто цей функціонал можна як суму квадратів деяких перетворених «залишків». Отже, можна назвати клас методів найменших квадратів - LS-методи (Least Squares).

Доведено (теорема Айткена), що для узагальненої лінійної регресійної моделі (у якій на коварійну матрицю випадкових помилок не накладається жодних обмежень) найефективнішими (у класі лінійних незміщених оцінок) є оцінки т.з. узагальненого МНК (ОМНК, GLS - Generalized Least Squares)- LS-метода з ваговою матрицею, що дорівнює зворотній коварійній матриці випадкових помилок: .

Можна показати, що формула ОМНК оцінок параметрів лінійної моделі має вигляд

Коваріаційна матриця цих оцінок відповідно дорівнюватиме

Фактично сутність ОМНК полягає у певному (лінійному) перетворенні (P) вихідних даних та застосуванні звичайного МНК до перетворених даних. Ціль цього перетворення - для перетворених даних випадкові помилки вже задовольняють класичним припущенням.

Зважений МНК

У випадку діагональної вагової матриці (а значить і матриці коварійної випадкових помилок) маємо так званий зважений МНК (WLS - Weighted Least Squares). У разі мінімізується зважена сума квадратів залишків моделі, тобто кожне спостереження отримує «вага», зворотно пропорційний дисперсії випадкової помилки у цьому спостереженні: . Фактично дані перетворюються зважуванням спостережень (розподілом на величину, пропорційну передбачуваному стандартному відхилення випадкових помилок), а зваженим даним застосовується звичайний МНК.

Деякі окремі випадки застосування МНК на практиці

Апроксимація лінійної залежності

Розглянемо випадок, коли в результаті вивчення залежності деякої скалярної величини від деякої скалярної величини (Це може бути, наприклад, залежність напруги від сили струму : де - постійна величина, опір провідника) було проведено вимірювань цих величин, в результаті яких були отримані значення і відповідні їм значення. Дані вимірювань мають бути записані у таблиці.

Таблиця. Результати вимірів.

№ виміру
1
2
3
4
5
6

Питання звучить так: яке значення коефіцієнта можна підібрати, щоб якнайкраще описати залежність? Згідно з МНК це значення має бути таким, щоб сума квадратів відхилень величин від величин

була мінімальною

Сума квадратів відхилень має один екстремум – мінімум, що дозволяє нам використовувати цю формулу. Знайдемо з цієї формули значення коефіцієнта. І тому перетворимо її ліву частину так:

Остання формула дозволяє знайти значення коефіцієнта , що й потрібно завдання.

Історія

На початок ХІХ ст. вчені у відсутності певних правил на вирішення системи рівнянь , у якій число невідомих менше, ніж число рівнянь; до цього часу використовувалися приватні прийоми, що залежали від виду рівнянь і від дотепності обчислювачів, і тому різні обчислювачі, виходячи з тих самих даних спостережень, приходили до різних висновків. Гаусс (1795) належить перше застосування методу, а Лежандр (1805) незалежно відкрив і опублікував його під сучасною назвою (фр. Méthode des moindres quarrés ). Лаплас пов'язав метод з теорією ймовірностей, а американський математик Едрейн (1808) розглянув його теоретико-імовірнісні додатки. Метод поширений і вдосконалений подальшими дослідженнями Енке, Бесселя, Ганзена та інших.

Альтернативне використання МНК

Ідея методу найменших квадратів може бути використана також в інших випадках, які не пов'язані безпосередньо з регресійним аналізом. Справа в тому, що сума квадратів є одним із найпоширеніших заходів близькості для векторів (евклідова метрика в кінцевомірних просторах).

Одне із застосувань - «вирішення» систем лінійних рівнянь, у яких число рівнянь більше числа змінних

де матриця не квадратна, а прямокутна розміру.

Така система рівнянь, у випадку немає рішення (якщо ранг насправді більше числа змінних). Тому цю систему можна «вирішити» тільки в сенсі вибору такого вектора, щоб мінімізувати «відстань» між векторами та . І тому можна застосувати критерій мінімізації суми квадратів різниць лівої та правої частин рівнянь системи, тобто . Неважко показати, що вирішення цього завдання мінімізації призводить до вирішення наступної системи рівнянь

Метод найменших квадратів (МНК, англ. Ordinary Least Squares, OLS)- математичний метод, застосовуваний на вирішення різних завдань, заснований на мінімізації суми квадратів відхилень деяких функцій від шуканих змінних. Він може використовуватися для «вирішення» перевизначених систем рівнянь (коли кількість рівнянь перевищує кількість невідомих), для пошуку рішення у разі звичайних (не перевизначених) нелінійних систем рівнянь, для апроксимації точкових значень певної функції. МНК є одним з базових методів регресійного аналізу для оцінки невідомих параметрів регресійних моделей за вибірковими даними.

Енциклопедичний YouTube

    1 / 5

    ✪ Метод найменших квадратів. Тема

    ✪ Метод найменших квадратів, урок 1/2. Лінійна функція

    ✪ Економетрика. Лекція 5. Метод найменших квадратів

    ✪ Мітін І. В. - Обробка результатів фіз. експерименту - Метод найменших квадратів (Лекція 4)

    ✪ Економетрика: Суть методу найменших квадратів #2

    Субтитри

Історія

На початок ХІХ ст. вчені не мали певних правил для вирішення системи рівнянь, в якій число невідомих менше, ніж число рівнянь; до цього часу використовувалися приватні прийоми, що залежали від виду рівнянь і від дотепності обчислювачів, і тому різні обчислювачі, виходячи з тих самих даних спостережень, приходили до різних висновків. Гаусс (1795) належить перше застосування методу, а Лежандр (1805) незалежно відкрив і опублікував його під сучасною назвою (фр. Méthode des moindres quarrés). Лаплас пов'язав метод з теорією ймовірностей, а американський математик Едрейн (1808) розглянув його теоретико-імовірнісні додатки. Метод поширений і вдосконалений подальшими дослідженнями Енке, Бесселя, Ганзена та інших.

Сутність методу найменших квадратів

Нехай x (\displaystyle x)- набір n (\displaystyle n)невідомих змінних (параметрів), f i (x) (\displaystyle f_(i)(x)), , m > n (\displaystyle m>n)- Сукупність функцій від цього набору змінних. Завдання полягає у підборі таких значень x (\displaystyle x), щоб значення цих функцій були максимально близькими до деяких значень y i (\displaystyle y_(i)). Фактично йдеться про «вирішенні» перевизначеної системи рівнянь f i (x) = y i (\displaystyle f_(i)(x)=y_(i)), i = 1, …, m (\displaystyle i=1,\ldots,m)у вказаному сенсі максимальної близькості лівої та правої частин системи. Сутність МНК полягає у виборі як «заходи близькості» суми квадратів відхилень лівих і правих частин | f i (x) − y i | (\displaystyle |f_(i)(x)-y_(i)|). Таким чином, сутність МНК може бути виражена таким чином:

∑ i e i 2 = ∑ i (y i − fi (x)) 2 → min x (\displaystyle \sum _(i)e_(i)^(2)=\sum _(i)(y_(i)-f_( i)(x))^(2)\rightarrow \min _(x)).

Якщо система рівнянь має рішення, то мінімум суми квадратів дорівнюватиме нулю і можуть бути знайдені точні рішення системи рівнянь аналітично або, наприклад, різними чисельними методами оптимізації. Якщо система перевизначена, тобто, кажучи нестрого, кількість незалежних рівнянь більша за кількість шуканих змінних, то система не має точного рішення і метод найменших квадратів дозволяє знайти деякий «оптимальний» вектор x (\displaystyle x)у сенсі максимальної близькості векторів y (\displaystyle y)і f(x) (\displaystyle f(x))або максимальної близькості вектора відхилень e (\displaystyle e)нанівець (близькість розуміється у сенсі евклідова відстані).

Приклад - система лінійних рівнянь

Зокрема, метод найменших квадратів може використовуватися для вирішення системи лінійних рівнянь

A x = b (\displaystyle Ax = b),

де A (\displaystyle A)прямокутна матриця розміру m × n , m > n (\displaystyle m\times n,m>n)(тобто число рядків матриці A більше кількості шуканих змінних).

Така система рівнянь у випадку немає решения. Тому цю систему можна «вирішити» лише у сенсі вибору такого вектора. x (\displaystyle x), щоб мінімізувати відстань між векторами A x (\displaystyle Ax)і b (\displaystyle b). Для цього можна застосувати критерій мінімізації суми квадратів різниць лівої та правої частин рівнянь системи, тобто (A x − b) T (A x − b) → min x (\displaystyle (Ax-b)^(T)(Ax-b)\rightarrow \min _(x)). Неважко показати, що вирішення цього завдання мінімізації призводить до вирішення наступної системи рівнянь

x = (A T A) − 1 A T b (\displaystyle A^(T)Ax=A^(T)b\Rightarrow x=(A^(T)A)^(-1)A^ (T)b).

МНК у регресійному аналізі (апроксимація даних)

Нехай є n (\displaystyle n)значень деякої змінної y (\displaystyle y)(це можуть бути результати спостережень, експериментів тощо) та відповідних змінних x (\displaystyle x). Завдання полягає в тому, щоб взаємозв'язок між y (\displaystyle y)і x (\displaystyle x)апроксимувати деякою функцією, відомою з точністю до деяких невідомих параметрів b (\displaystyle b), тобто фактично визначити найкращі значення параметрів b (\displaystyle b), що максимально наближають значення f (x, b) (\displaystyle f(x,b))до фактичних значень y (\displaystyle y). Фактично це зводиться до випадку «вирішення» перевизначеної системи рівнянь щодо b (\displaystyle b):

F (x t , b) = y t , t = 1 , … , n (\displaystyle f(x_(t),b)=y_(t),t=1,\ldots ,n).

У регресійному аналізі та зокрема в економетриці використовуються ймовірнісні моделі залежності між змінними

Y t = f (x t , b) + ε t (\displaystyle y_(t)=f(x_(t),b)+\varepsilon _(t)),

де ε t (\displaystyle \varepsilon _(t))- так звані випадкові помилкимоделі.

Відповідно, відхилення значень, що спостерігаються y (\displaystyle y)від модельних f (x, b) (\displaystyle f(x,b))передбачається вже у самій моделі. Сутність МНК (звичайного, класичного) у тому, щоб знайти такі параметри b (\displaystyle b), При яких сума квадратів відхилень (помилок, для регресійних моделей їх часто називають залишками регресії) e t (\displaystyle e_(t))буде мінімальною:

b ^ O S = arg ⁡ min b RS S (b) (\displaystyle (\hat (b))_(OLS)=\arg \min _(b)RSS(b)),

де RS S (\displaystyle RSS)- англ. Residual Sum of Squares визначається як:

RS (b) = e T e = ∑ t = 1 n e t 2 = ∑ t = 1 n (y t − f (x t , b)) 2 (\displaystyle RSS(b)=e^(T)e=\sum _ (t=1)^(n)e_(t)^(2)=\sum _(t=1)^(n)(y_(t)-f(x_(t),b))^(2) ).

У випадку вирішення цього завдання може здійснюватися чисельними методами оптимізації (мінімізації). У цьому випадку говорять про нелінійному МНК(NLS або NLLS - англ. Non-Linear Least Squares). У багатьох випадках можна одержати аналітичне рішення. Для вирішення задачі мінімізації необхідно знайти стаціонарні точки функції RS S (b) (\displaystyle RSS(b)), продиференціювавши її за невідомими параметрами b (\displaystyle b), прирівнявши похідні до нуля і вирішивши отриману систему рівнянь:

∑ t = 1 n (y t − f (x t , b)) ∂ f (x t , b) ∂ b = 0 (\displaystyle \sum _(t=1)^(n)(y_(t)-f(x_ (t),b))(\frac (\partial f(x_(t),b))(\partial b))=0).

МНК у разі лінійної регресії

Нехай регресійна залежність є лінійною:

t = ∑ j = 1 k b j x t j + ε = x t T b + ε t (\displaystyle y_(t)=\sum _(j=1)^(k)b_(j)x_(tj)+\varepsilon =x_( t)^(T)b+\varepsilon _(t)).

Нехай y- вектор-стовпець спостережень пояснюваної змінної, а X (\displaystyle X)- це (n × k) (\displaystyle ((n\times k)))-матриця спостережень чинників (рядки матриці - вектори значень чинників у цьому спостереженні, по стовпчикам - вектор значень даного чинника переважають у всіх спостереженнях). Матричне представлення лінійної моделі має вигляд:

y = X b + ε (\displaystyle y=Xb+\varepsilon).

Тоді вектор оцінок змінної, що пояснюється, і вектор залишків регресії дорівнюватимуть

y ^ = X b , e = y − y ^ = y − X b (\displaystyle (\hat(y))=Xb,\quad e=y-(\hat(y))=y-Xb).

відповідно сума квадратів залишків регресії дорівнюватиме

RS = e T e = (y − X b) T (y − X b) (\displaystyle RSS=e^(T)e=(y-Xb)^(T)(y-Xb)).

Диференціюючи цю функцію за вектором параметрів b (\displaystyle b)і прирівнявши похідні до нуля, отримаємо систему рівнянь (у матричній формі):

(X T X) b = X T y (\displaystyle (X^(T)X)b=X^(T)y).

У розшифрованій матричній формі ця система рівнянь виглядає так:

(∑ x t 1 2 ∑ x t 1 x t 2 ∑ x t 1 x t 3 … ∑ x t 1 x t k ∑ x t 2 x t 1 ∑ x t 2 2 ∑ x t 2 x t 3 … ∑ x t 2 x t 3 2 … ∑ x t 3 x t k ⋮ ⋮ ⋮ ⋱ ⋮ ∑ x t k x t 1 ∑ x t k x t 2 ∑ x t k x t 3 … ∑ x t (2) y t ⋮ ∑ x t k y t) , (\displaystyle (\begin(pmatrix)\sum x_(t1)^(2)&\sum x_(t1)x_(t2)&\sum x_(t1)x_(t3)&\ldots &\sum x_(t1)x_(tk)\\\sum x_(t2)x_(t1)&\sum x_(t2)^(2)&\sum x_(t2)x_(t3)&\ldots &\ sum x_(t2)x_(tk)\\\sum x_(t3)x_(t1)&\sum x_(t3)x_(t2)&\sum x_(t3)^(2)&\ldots &\sum x_ (t3)x_(tk)\\\vdots &\vdots &\vdots &\ddots &\vdots \\\sum x_(tk)x_(t1)&\sum x_(tk)x_(t2)&\sum x_ (tk)x_(t3)&\ldots &\sum x_(tk)^(2)\\\end(pmatrix))(\begin(pmatrix)b_(1)\\b_(2)\\b_(3 )\\\vdots \\b_(k)\\\end(pmatrix))=(\begin(pmatrix)\sum x_(t1)y_(t)\\\sum x_(t2)y_(t)\\ \sum x_(t3)y_(t)\\\vdots \\\sum x_(tk)y_(t)\\\end(pmatrix)),)де всі суми беруться за всіма допустимими значеннями t (\displaystyle t).

Якщо модель включена константа (як завжди), то x t 1 = 1 (\displaystyle x_(t1)=1)при всіх t (\displaystyle t)тому у лівому верхньому кутку матриці системи рівнянь знаходиться кількість спостережень n (\displaystyle n), а інших елементах першого рядка і першого стовпця - просто суми значень змінних: ∑ x t j (\displaystyle \sum x_(tj))та перший елемент правої частини системи - ∑ y t (\displaystyle \sum y_(t)).

Вирішення цієї системи рівнянь і дає загальну формулу МНК-оцінок для лінійної моделі:

b ^ O L S = (X T X) − 1 X T y = (1 n X T X) − 1 1 n X T y = V x − 1 C x y (\displaystyle(\hat(b))_(OLS)=(X^(T) )X)^(-1)X^(T)y=\left((\frac(1)(n))X^(T)X\right)^(-1)(\frac(1)(n ))X^(T)y=V_(x)^(-1)C_(xy)).

Для аналітичних цілей виявляється корисним останнє уявлення цієї формули (у системі рівнянь при розподілі на n замість сум фігурують середні арифметичні). Якщо у регресійній моделі дані центровані, то цьому поданні перша матриця має сенс вибіркової ковариационной матриці чинників, а друга - вектор ковариаций чинників із залежною змінною. Якщо дані ще й нормованіна СКО (тобто зрештою стандартизовано), то перша матриця має сенс вибіркової кореляційної матриці факторів, другий вектор - вектора вибіркових кореляцій факторів із залежною змінною.

Важлива властивість МНК-оцінок для моделей з константою- лінія побудованої регресії проходить через центр тяжкості вибіркових даних, тобто виконується рівність:

y ? (\hat(b))_(j)(\bar(x))_(j)).

Зокрема, у крайньому випадку, коли єдиним регресором є константа, отримуємо, що МНК-оцінка єдиного параметра (власне константи) дорівнює середньому значенню змінної, що пояснюється. Тобто середнє арифметичне, відоме своїми добрими властивостями із законів великих чисел, також є МНК-оцінкою – задовольняє критерію мінімуму суми квадратів відхилень від неї.

Найпростіші окремі випадки

У разі парної лінійної регресії y t = a + b x t + ε t (\displaystyle y_(t)=a+bx_(t)+\varepsilon _(t))Коли оцінюється лінійна залежність однієї змінної від іншої, формули розрахунку спрощуються (можна обійтися без матричної алгебри). Система рівнянь має вигляд:

(1 x x x x 2) (a b) = (y x x y) (displaystyle (begin(pmatrix)1) (x^(2)))\\\end(pmatrix))(\begin(pmatrix)a\b\\end(pmatrix))=(\begin(pmatrix)(\bar (y))\\ (\overline (xy))\\\end(pmatrix))).

Звідси нескладно знайти оцінки коефіцієнтів:

( b ^ = Cov ⁡ (x , y) Var ⁡ (x) = x y − − x ¯ y ¯ x 2 − − x 2 , a ^ = y ¯ − b x ¯ . (\displaystyle (\begin(cases)) (\hat (b))=(\frac (\mathop (\textrm (Cov)) (x,y))(\mathop (\textrm (Var)) (x)))=(\frac ((\overline (xy))-(\bar (x))(\bar (y)))((\overline (x^(2)))-(\overline (x))^(2))),\\( \hat(a))=(\bar(y))-b(\bar(x)).\end(cases)))

Незважаючи на те, що в загальному випадку моделі з константою краще, в деяких випадках з теоретичних міркувань відомо, що константа a (\displaystyle a)повинна дорівнювати нулю. Наприклад, у фізиці залежність між напругою та силою струму має вигляд U = I ⋅ R (\displaystyle U=I\cdot R); Вимірюючи напругу і силу струму, необхідно оцінити опір. У такому разі йдеться про модель y = b x (\displaystyle y = bx). У цьому випадку замість системи рівнянь маємо єдине рівняння

(∑ x t 2) b = ∑ x t y t (\displaystyle \left(\sum x_(t)^(2)\right)b=\sum x_(t)y_(t)).

Отже, формула оцінки єдиного коефіцієнта має вигляд

B ^ = ∑ t = 1 n x t y t ∑ t = 1 n x t 2 = x y x 2 (displaystyle (hat (b))= )y_(t))(\sum _(t=1)^(n)x_(t)^(2)))=(\frac (\overline (xy))(\overline (x^(2)) ))).

Випадок поліноміальної моделі

Якщо дані апроксимуються поліноміальною функцією регресії однієї змінної f (x) = b 0 + ∑ i = 1 k b i x i (\displaystyle f(x)=b_(0)+\sum \limits _(i=1)^(k)b_(i)x^(i)), то, сприймаючи ступеня x i (\displaystyle x^(i))як незалежні фактори для кожного i (\displaystyle i)можна оцінити параметри моделі, виходячи із загальної формули оцінки параметрів лінійної моделі. Для цього в загальну формулу достатньо врахувати, що за такої інтерпретації x t i x t j = x t i x t j = x t i + j (\displaystyle x_(ti)x_(tj)=x_(t)^(i)x_(t)^(j)=x_(t)^(i+j)і x t j y t = x t j y t (\displaystyle x_(tj)y_(t)=x_(t)^(j)y_(t)). Отже, матричні рівняння в даному випадку набудуть вигляду:

(n ∑ n x t … ∑ n x t k ∑ n x t ∑ n x t 2 … ∑ n x t k + 1 ⋮ ⋮ ⋱ ⋮ ∑ n x t k ∑ n x t k + 1 … ∑ n x t 2 k) [ b 0 b 1 ⋮ b k ] = [ ∑ n y t ∑ n x t y t ⋮ ∑ n x t k y t ]. (\displaystyle (\begin(pmatrix)n&\sum \limits _(n)x_(t)&\ldots &\sum \limits _(n)x_(t)^(k)\\\sum \limits _( n)x_(t)&\sum \limits _(n)x_(t)^(2)&\ldots &\sum \limits _(n)x_(t)^(k+1)\\vdots & \vdots &\ddots &\vdots \\\sum \limits _(n)x_(t)^(k)&\sum \limits _(n)x_(t)^(k+1)&\ldots &\ sum \limits _(n)x_(t)^(2k)\end(pmatrix))(\begin(bmatrix)b_(0)\\b_(1)\\\vdots \\b_(k)\end( bmatrix))=(\begin(bmatrix)\sum \limits _(n)y_(t)\\\sum \limits _(n)x_(t)y_(t)\\\vdots \\\sum \limits _(n)x_(t)^(k)y_(t)\end(bmatrix)).)

Статистичні властивості МНК оцінок

Насамперед, зазначимо, що для лінійних моделей МНК-оцінки є лінійними оцінками, як це випливає з вищенаведеної формули. Для незміщеності МНК-оцінок необхідно і достатньо виконання найважливішої умови регресійного аналізу: умовне за факторами математичне очікування випадкової помилки має бути рівне нулю. Ця умова, зокрема, виконана, якщо

  1. математичне очікування випадкових помилок дорівнює нулю, та
  2. фактори та випадкові помилки - незалежні, випадкові, величини.

Друга умова - умова екзогенності факторів - важлива. Якщо це властивість не виконано, можна вважати, що будь-які оцінки будуть вкрай незадовільними: де вони навіть заможними (тобто навіть дуже великий обсяг даних Демшевського не дозволяє отримати якісні оцінки у разі). У класичному випадку робиться сильніша припущення про детермінованість факторів, на відміну від випадкової помилки, що автоматично означає виконання умови екзогенності. У випадку для спроможності оцінок достатньо виконання умови екзогенності разом із збіжністю матриці V x (\displaystyle V_(x))до деякої невиродженої матриці зі збільшенням обсягу вибірки до нескінченності.

Для того, щоб крім спроможності та незміщеності, оцінки (звичайного) МНК були ще й ефективними (найкращими в класі лінійних незміщених оцінок) необхідно виконання додаткових властивостей випадкової помилки:

Дані припущення можна сформулювати для коваріаційної матриці вектора випадкових помилок V (ε) = σ 2 I (\displaystyle V(\varepsilon)=\sigma ^(2)I).

Лінійна модель, що задовольняє такі умови, називається класичною. МНК-оцінки для класичної лінійної регресії є незміщеними, заможними та найбільш ефективними оцінками в класі всіх лінійних незміщених оцінок (в англомовній літературі іноді вживають абревіатуру BLUE (Best Linear Unbiased Estimator) - найкраща лінійна незміщена оцінка; у вітчизняній літературі частіше наводиться теорема Гаусса-Маркова). Як неважко показати, ковариационная матриця вектора оцінок коефіцієнтів дорівнюватиме:

V (b ^ O L S) = σ 2 (X T X) − 1 (\displaystyle V((\hat(b))_(OLS))=\sigma ^(2)(X^(T)X)^(-1 )).

Ефективність означає, що ця ковариационная матриця є «мінімальної» (будь-яка лінійна комбінація коефіцієнтів, і зокрема самі коефіцієнти, мають мінімальну дисперсію), тобто у класі лінійних незміщених оцінок оцінки МНК-найкращі. Діагональні елементи цієї матриці – дисперсії оцінок коефіцієнтів – важливі параметри якості отриманих оцінок. Однак розрахувати матрицю коваріації неможливо, оскільки дисперсія випадкових помилок невідома. Можна довести, що незміщеною та заможною (для класичної лінійної моделі) оцінкою дисперсії випадкових помилок є величина:

S 2 = R S S / (n − k) (\displaystyle s^(2)=RSS/(n-k)).

Підставивши це значення формулу для ковариационной матриці і отримаємо оцінку ковариационной матриці. Отримані оцінки також є незміщеними та заможними. Важливо також те, що оцінка дисперсії помилок (а отже дисперсій коефіцієнтів) та оцінки параметрів моделі є незалежними випадковими величинами, що дозволяє отримати тестові статистики для перевірки гіпотез про коефіцієнти моделі.

Необхідно відзначити, що якщо класичні припущення не виконані, МНК-оцінки параметрів не є найбільш ефективними і де W (\displaystyle W)- Деяка симетрична позитивно визначена вагова матриця. Звичайний МНК є окремим випадком даного підходу, коли вагова матриця пропорційна одиничній матриці. Як відомо, для симетричних матриць (або операторів) є розкладання W = P T P (\displaystyle W=P^(T)P). Отже, вказаний функціонал можна подати так e T P T P e = (P e) T P e = e ∗ T e ∗ (\displaystyle e^(T)P^(T)Pe=(Pe)^(T)Pe=e_(*)^(T)e_( *)), тобто цей функціонал можна як суму квадратів деяких перетворених «залишків». Отже, можна назвати клас методів найменших квадратів - LS-методи (Least Squares).

Доведено (теорема Айткена), що для узагальненої лінійної регресійної моделі (у якій на коварійну матрицю випадкових помилок не накладається жодних обмежень) найефективнішими (у класі лінійних незміщених оцінок) є оцінки т.з. узагальненого МНК (ОМНК, GLS - Generalized Least Squares)- LS-метода з ваговою матрицею, що дорівнює зворотній коварійній матриці випадкових помилок: W = V ε − 1 (\displaystyle W=V_(\varepsilon )^(-1)).

Можна показати, що формула ОМНК оцінок параметрів лінійної моделі має вигляд

B ^ G L S = (X T V − 1 X) − 1 X T V − 1 y (\displaystyle (\hat(b))_(GLS)=(X^(T)V^(-1)X)^(-1) X^(T)V^(-1)y).

Коваріаційна матриця цих оцінок відповідно дорівнюватиме

V (b ^ G L S) = (X T V − 1 X) − 1 (\displaystyle V((\hat(b))_(GLS))=(X^(T)V^(-1)X)^(- 1)).

Фактично сутність ОМНК полягає у певному (лінійному) перетворенні (P) вихідних даних та застосуванні звичайного МНК до перетворених даних. Ціль цього перетворення - для перетворених даних випадкові помилки вже задовольняють класичним припущенням.

Зважений МНК

У випадку діагональної вагової матриці (а значить і матриці коварійної випадкових помилок) маємо так званий зважений МНК (WLS - Weighted Least Squares). У даному випадку мінімізується зважена сума квадратів залишків моделі, тобто кожне спостереження отримує «вагу», обернено пропорційну дисперсії випадкової помилки в даному спостереженні: e T W e = ∑ t = 1 n e t 2 σ t 2 (\displaystyle e^(T)We=\sum _(t=1)^(n)(\frac (e_(t)^(2)))(\ sigma _(t)^(2)))). Фактично дані перетворюються зважуванням спостережень (розподілом на величину, пропорційну передбачуваному стандартному відхилення випадкових помилок), а зваженим даним застосовується звичайний МНК.

ISBN 978-5-7749-0473-0.

  • Економетрики. Підручник/За ред. Єлісєєвої І. І. - 2-ге вид. - М.: Фінанси та статистика, 2006. - 576 с. - ISBN 5-279-02786-3.
  • Александрова Н. В.Історія математичних термінів, понять, позначень: словник-довідник. - 3-тє вид. - М.: ЛКІ, 2008. - 248 с. - ISBN 978-5-382-00839-4.І.В Мітін, Русаков В.С. Аналіз та обробка експериментальних даних-5-е видання-24с.
  • gastroguru 2017