Отклонението е ненормално и екстремно наблюдение в статистическа извадка или времеви редици от данни, което потенциално може да повлияе на оценката на неговите параметри.
С по-прости думи, отклонението ще бъде наблюдение в рамките на извадка или времеви ред от данни, които не са в съответствие с останалите. Представете си например, че измерваме ръста на учениците в клас.
Нека си представим извадка от 10 ученици. Височината на всеки от тях е както следва:
Проба 1 | |
Студент | Височина в метри |
1 | 1,65 |
2 | 1,80 |
3 | 1,72 |
4 | 1,68 |
5 | 1,75 |
6 | 1,85 |
7 | 1,62 |
8 | 1,79 |
9 | 1,82 |
10 | 1,69 |
Средната височина на класа би била 1,73. Ако вземем предвид максималната височина (1,85) и минималната височина (1,62) и разстоянието между тях до средната стойност, виждаме, че тя е съответно 0,113 и 0,117. Както виждаме, средната стойност е приблизително в средата на интервала и може да се счита за доста добра оценка.
Ефектът с изключение
Сега нека помислим за друга извадка от 10 ученика, като височината им е следната:
Проба 1 | |
Студент | Височина в метри |
1 | 1,65 |
2 | 1,80 |
3 | 1,72 |
4 | 1,68 |
5 | 2,18 |
6 | 2,20 |
7 | 1,62 |
8 | 1,79 |
9 | 1,75 |
10 | 1,69 |
В този случай средната височина на класа би била 1,81. Ако сега разгледаме максималната височина (2,20) и минималната височина (1,62) и разстоянието между тях до средната стойност, виждаме, че тя е съответно 0,39 и 0,18. В този случай средната стойност вече не е приблизително в средата на диапазона.
Ефектът от 2-те най-екстремни наблюдения (2.18 и 2.20) е довел до изместване на средната аритметична стойност към максималната стойност на разпределението.
С този пример виждаме ефекта, който имат извънредните стойности и как те могат да изкривят изчислението на средна стойност.
Как да открием отклонения?Как да коригирате ефекта на отклоненията
В ситуации като тази, в които има ненормални стойности, които са значително различни от останалите, медианата е по-добра оценка, за да се знае в кой момент е концентриран по-голям брой наблюдения.
В случая на двете разпределения и тъй като имаме четен брой стойности, не можем да вземем точно стойността, която намалява наполовина разпределението, за да изчислим медианата. С което след подреждането на стойностите от най-ниската към най-високата, бихме взели петото и шестото наблюдение (и двете оставят по 4 наблюдения от всяка страна) и бихме изчислили медианата, както следва:
Пример 1:
1,75+1,72/2 = 1,73
Пример 2:
1,79+1,71/2 = 1,75
Както можем да видим, в проба номер 1, като се има предвид, че няма изключения или необичайни наблюдения, медианата е 1,73 и съвпада със средната стойност. Напротив, за проба 2 средната стойност е 1,75. Както можем да видим, тази стойност е по-далеч от средната височина, която е била 1,81 и ни дава по-висока оценка на точката, за да знаем приблизително в коя точка е концентриран по-голям брой наблюдения.
Точка оценка