Outlier - Какво е това, определение и концепция

Отклонението е ненормално и екстремно наблюдение в статистическа извадка или времеви редици от данни, което потенциално може да повлияе на оценката на неговите параметри.

С по-прости думи, отклонението ще бъде наблюдение в рамките на извадка или времеви ред от данни, които не са в съответствие с останалите. Представете си например, че измерваме ръста на учениците в клас.

Нека си представим извадка от 10 ученици. Височината на всеки от тях е както следва:

Проба 1
СтудентВисочина в метри
11,65
21,80
31,72
41,68
51,75
61,85
71,62
81,79
91,82
101,69

Средната височина на класа би била 1,73. Ако вземем предвид максималната височина (1,85) и минималната височина (1,62) и разстоянието между тях до средната стойност, виждаме, че тя е съответно 0,113 и 0,117. Както виждаме, средната стойност е приблизително в средата на интервала и може да се счита за доста добра оценка.

Ефектът с изключение

Сега нека помислим за друга извадка от 10 ученика, като височината им е следната:

Проба 1
СтудентВисочина в метри
11,65
21,80
31,72
41,68
52,18
62,20
71,62
81,79
91,75
101,69

В този случай средната височина на класа би била 1,81. Ако сега разгледаме максималната височина (2,20) и минималната височина (1,62) и разстоянието между тях до средната стойност, виждаме, че тя е съответно 0,39 и 0,18. В този случай средната стойност вече не е приблизително в средата на диапазона.

Ефектът от 2-те най-екстремни наблюдения (2.18 и 2.20) е довел до изместване на средната аритметична стойност към максималната стойност на разпределението.

С този пример виждаме ефекта, който имат извънредните стойности и как те могат да изкривят изчислението на средна стойност.

Как да открием отклонения?

Как да коригирате ефекта на отклоненията

В ситуации като тази, в които има ненормални стойности, които са значително различни от останалите, медианата е по-добра оценка, за да се знае в кой момент е концентриран по-голям брой наблюдения.

В случая на двете разпределения и тъй като имаме четен брой стойности, не можем да вземем точно стойността, която намалява наполовина разпределението, за да изчислим медианата. С което след подреждането на стойностите от най-ниската към най-високата, бихме взели петото и шестото наблюдение (и двете оставят по 4 наблюдения от всяка страна) и бихме изчислили медианата, както следва:

Пример 1:

1,75+1,72/2 = 1,73

Пример 2:

1,79+1,71/2 = 1,75

Както можем да видим, в проба номер 1, като се има предвид, че няма изключения или необичайни наблюдения, медианата е 1,73 и съвпада със средната стойност. Напротив, за проба 2 средната стойност е 1,75. Както можем да видим, тази стойност е по-далеч от средната височина, която е била 1,81 и ни дава по-висока оценка на точката, за да знаем приблизително в коя точка е концентриран по-голям брой наблюдения.

Точка оценка

Популярни Публикации

Какво можем да очакваме от Новия път на коприната?

Докато Съединените щати обявяват намерението си да се върнат към протекционизма, Китай със своите забележителности, насочени към 21-ви век, възнамерява да поеме щафетата от водещата световна икономическа сила, насърчавайки международната търговия, наред с други неща. Китайското правителство обяви световен стратегически инвестиционен план за повече от 500 000 Прочетете повече…

Китай престава да бъде най-големият чуждестранен кредитор на САЩ

От 2010 г. насам Китай притежава суми, превишаващи трилион долара в северноамерикански дълг, но през последните месеци както Япония, така и Китай се разпоредиха с американските държавни облигации. Мнозина се чудят какво стои зад тези движения. Китай вече не е начело Прочетете повече…