Коефициентът на определяне е пропорцията от общата дисперсия на променливата, обяснена с регресията. Коефициентът на определяне, наричан още R на квадрат, отразява доброто прилягане на модела към променливата, която възнамерява да обясни.
Важно е да се знае, че резултатът от коефициента на определяне се колебае между 0 и 1. Колкото по-близо е стойността му до 1, толкова по-голямо е прилягането на модела към променливата, която се опитваме да обясним. И обратно, колкото по-близо до нула, толкова по-малко стегнат ще бъде моделът и следователно, толкова по-малко надежден ще бъде.
В предишния израз имаме дроб. И така, нека да разгледаме части. Първо ще анализираме числителя, тоест горната част.
За тези, които не знаят израза на отклонението, препоръчвам да прочетете статията за него. За тези, които го знаят, те могат да осъзнаят, че това е изразът на дисперсията, но с две основни разлики.
Първата разлика е, че Y има циркумфлекс или това, което учителите дидактично наричат „шапка“. Това, което подробно описва шапката, е, че Y е оценката на модел на това, което според обяснителните променливи струва Y, но това не е реалната стойност на Y, а оценка на Y.
Второ, би било необходимо да се раздели на Т. Което в други случаи се отбелязва като N или брой наблюдения. Тъй като обаче формулата на знаменателя също би го носила, премахваме знаменателите (отдолу) от двете формули, за да опростим израза. По този начин е по-лесно да се работи с него.
След това ще извършим същия анализ с частта на знаменателя (долната част).
В този случай единствената разлика от първоначалната формула на дисперсията е липсата на нейния знаменател. Тоест, ние не делим на T или N. По този начин, след като бъдат обяснени двете части на родовия израз на R на квадрат или коефициент на определяне, ще видим пример.
Коефициент на вариацияКоефициент на линейна корелацияРегресионен анализТълкуване на коефициента на детерминация
Да предположим, че искаме да обясним броя на головете, които Кристиано Роналдо отбелязва, въз основа на броя игри, които играе. Предполагаме, че колкото повече изиграни игри, толкова повече голове той ще отбележи. Данните се отнасят за последните 8 сезона. По този начин, след извличане на данните, моделът дава следната оценка:
Както виждаме от графиката, връзката е положителна. Колкото повече изиграни игри, разбира се, толкова повече голове той отбелязва през сезона. Прилягането, въз основа на изчислението R-квадрат, е 0,835. Това означава, че това е модел, чиито оценки съвпадат доста добре с реалната променлива. Въпреки че технически това не би било правилно, бихме могли да кажем нещо подобно, че моделът обяснява 83,5% от реалната променлива.
Коефициентът на детерминиращ проблем
Проблемът с коефициента на детерминация и причината, поради която възниква коригираният коефициент на детерминация, е, че той не наказва включването на незначителни обяснителни променливи. Тоест, ако към модела се добавят пет обяснителни променливи, които имат малко отношение към целите, които Кристиано Роналдо отбелязва за сезон, R на квадрат ще се увеличи. Ето защо много иконометрични, статистически и математически експерти се противопоставят на използването на R на квадрат като представителна мярка за доброто на реалното прилягане.
Коригираният коефициент на определяне
Коригираният коефициент на определяне (коригиран R на квадрат) е мярката, която определя процента, обяснен с дисперсията на регресията спрямо дисперсията на обясняваната променлива. Тоест същото като R на квадрат, но с разлика: Коригираният коефициент на детерминация наказва включването на променливи.
Както казахме по-рано, коефициентът на определяне на даден модел се увеличава, дори ако променливите, които включваме, не са от значение. Тъй като това е проблем, за да се опитаме да го разрешим, коригираният R на квадрат е такъв, че:
Във формулата N е размерът на извадката, а k е броят на обяснителните променливи. Чрез математическо приспадане, колкото по-високи са стойностите на k, толкова по-нататък коригираният R-квадрат ще бъде от нормалния R-квадрат. Обратно, при по-ниски стойности на k, колкото по-близо е централната фракция до 1 и следователно коригираният R на квадрат и нормалният R на квадрат ще бъдат по-сходни.
Спомняйки си, че k е броят на обяснителните променливи, стигаме до извода, че това не може да бъде нула. Ако беше нула, нямаше да има модел. Най-малкото ще трябва да обясним една променлива от друга променлива. Тъй като k трябва да бъде поне 1, коригираният R-квадрат и нормалният R-квадрат не могат да имат една и съща стойност. Освен това, коригираният R-квадрат винаги ще бъде по-малък от нормалния R-квадрат.