Регресионен анализ

от Администрация и управление
Направо към: навигация, търсене

Регресионният анализ е метод за моделиране на формата на зависимост на един резултативен признак Y, от един или няколко фактор признаци X, наречени още независими променливи. Всички разглеждани признаци трябва да са непрекъснати метрирани. Това е метод, при който ако знем Х можем да предскажем Y с известна грешка.

Същност

Ако факторпризнакът е един, говорим за единична регресия. Иначе говорим за множествена регресия. Регресионният анализ започва с избор на линия на регресия. Да приемем, че нейното аналитично представяне е Y = f(X, ) + , където е r+1-мерен вектор, чиито координати са неизвестни параметри на функцията f, а eстохастичната грешка с Е = 0. При различните наблюдения имаме реализации на тези случайни величини. Наблюденията трябва да са независими и при непроменени условия на експеримента, тогава ако на грешките при различните наблюдения преди да ги измерим гледаме като на случайни величини те трябва да са некорелирани с Е = 0 и D = 2. Ако функцията f е линейна относно неизвестните параметри, но не обезателно линейна относно независимите променливи, говорим за линеен регресионен модел. Иначе моделът се нарича нелинеен. Оценката на линията на регресията се прави в клас от функции. И това е онази функция от разглеждания клас, която минимизира средноквадратичната грешка на относно в класа от функции G. Да припомним, че средноквадратична грешка на относно g() означаваме с MSE(g) и това е MSE(g) = Е( - g())2. По тази причина първата задача на регресионния анализ е да се построят най-добри точкови и интервални оценки на параметрите на регресия така, че измежду всички линии с това аналитично представяне при получените оценки на параметрите да имаме най-малка сума от квадратите на грешките. По данните от извадката, използвайки метода на най-малките квадрати, правим оценка на вектора . Ще я означаваме с Jp.png . Тя е такава, че да минимизира Png.png Намира се като решим относно , следната система Png1.png наречена система нормални уравнения. От полученото уравнение на регресия пресмятаме оценки на стойностите на зависимата променлива. Тези оценки ще означаваме с Y (с колибка), т.е. Png2.png След като се определят оценките на параметрите в избрания модел се прави анализ на остатъците. Това става най-бързо от тяхната диаграма на разсейване. По-точно проверява се дали отклоненията на фактическите стойности от техните оценки имат случаен характер. Дали тези остатъци са еднакво разпределени. Дали имат равни дисперсии. С някои от критериите за съгласие се проверява дали разпределението им е нормално. Проверява се хипотезата за липса на корелация в остатъчния компонент. Ако тези условия са удовлетворени се прави проверка на хипотезата за статистическата значимост на коефициентите в уравнението на регресия. Величината Png3.png се нарича стандартна грешка на модела. Може да тестваме повече от една функция f. При всяка от тях ще получаваме различни оценки У колибка. Най-добър модел за съответните данни ни дава тази линия, за която сумата от квадратите на отклоненията на фактическите (измерените) значения на резултативната величина Y от техните оценки Уi колибка е минимална. Т.е. моделът с най-малка стандартна грешка е най-подходящ за нашите данни. След намирането на уравнението на регресия можем да получим най-добра оценка за Y по зададено значение на X. Този анализ не се отчита, че изменението на разглежданите величини може да се дължи на външни, невключени в модела признаци, но измерва силата на зависимост между включените в модела фактори.

Вижте още

Източници

  • Георги Димитров Мишев, Валентин Димитров Гоев Статистически анализ на времеви редове
  • Иванка Димова Съйкова, Статистически анализ на връзки и зависимости
  • Борис Цезаревич Урланис, Статистические методы изучения зависимости явлений
  • Калоян Харалампиев, Въведение в основните статистически методи за анализ

Външни препратки