Outlier - Какво е това, определение и концепция

Отклонението е ненормално и екстремно наблюдение в статистическа извадка или времеви редици от данни, което потенциално може да повлияе на оценката на неговите параметри.

С по-прости думи, отклонението ще бъде наблюдение в рамките на извадка или времеви ред от данни, които не са в съответствие с останалите. Представете си например, че измерваме ръста на учениците в клас.

Нека си представим извадка от 10 ученици. Височината на всеки от тях е както следва:

Проба 1
СтудентВисочина в метри
11,65
21,80
31,72
41,68
51,75
61,85
71,62
81,79
91,82
101,69

Средната височина на класа би била 1,73. Ако вземем предвид максималната височина (1,85) и минималната височина (1,62) и разстоянието между тях до средната стойност, виждаме, че тя е съответно 0,113 и 0,117. Както виждаме, средната стойност е приблизително в средата на интервала и може да се счита за доста добра оценка.

Ефектът с изключение

Сега нека помислим за друга извадка от 10 ученика, като височината им е следната:

Проба 1
СтудентВисочина в метри
11,65
21,80
31,72
41,68
52,18
62,20
71,62
81,79
91,75
101,69

В този случай средната височина на класа би била 1,81. Ако сега разгледаме максималната височина (2,20) и минималната височина (1,62) и разстоянието между тях до средната стойност, виждаме, че тя е съответно 0,39 и 0,18. В този случай средната стойност вече не е приблизително в средата на диапазона.

Ефектът от 2-те най-екстремни наблюдения (2.18 и 2.20) е довел до изместване на средната аритметична стойност към максималната стойност на разпределението.

С този пример виждаме ефекта, който имат извънредните стойности и как те могат да изкривят изчислението на средна стойност.

Как да открием отклонения?

Как да коригирате ефекта на отклоненията

В ситуации като тази, в които има ненормални стойности, които са значително различни от останалите, медианата е по-добра оценка, за да се знае в кой момент е концентриран по-голям брой наблюдения.

В случая на двете разпределения и тъй като имаме четен брой стойности, не можем да вземем точно стойността, която намалява наполовина разпределението, за да изчислим медианата. С което след подреждането на стойностите от най-ниската към най-високата, бихме взели петото и шестото наблюдение (и двете оставят по 4 наблюдения от всяка страна) и бихме изчислили медианата, както следва:

Пример 1:

1,75+1,72/2 = 1,73

Пример 2:

1,79+1,71/2 = 1,75

Както можем да видим, в проба номер 1, като се има предвид, че няма изключения или необичайни наблюдения, медианата е 1,73 и съвпада със средната стойност. Напротив, за проба 2 средната стойност е 1,75. Както можем да видим, тази стойност е по-далеч от средната височина, която е била 1,81 и ни дава по-висока оценка на точката, за да знаем приблизително в коя точка е концентриран по-голям брой наблюдения.

Точка оценка

Популярни Публикации

Защо е важно да бъдете видими в търсачките?

Оптимизацията за търсачки (SEO) е все по-актуална за бизнеса от всякакъв вид. Използването на търсачките нараства, а оттам и възможностите, които стоят в основата му. Но помислили ли сте колко е важно да бъдете видими в търсачките. Със сигурност някога сте чували нещо за SEO позиционирането. Прочетете още…

От криптовалути до фиат

За да отговорят на извънредните фискални усилия, необходими за пандемията, много правителства счетоха за необходимо да задействат машината за печат на банкноти да работи повече от нормалното. Тъй като мобилизирането на резервите или не беше удобно, или не беше достатъчно, така че икономическата ортодоксалност беше прочетена повече…