Outlier - Какво е това, определение и концепция

Съдържание:

Anonim

Отклонението е ненормално и екстремно наблюдение в статистическа извадка или времеви редици от данни, което потенциално може да повлияе на оценката на неговите параметри.

С по-прости думи, отклонението ще бъде наблюдение в рамките на извадка или времеви ред от данни, които не са в съответствие с останалите. Представете си например, че измерваме ръста на учениците в клас.

Нека си представим извадка от 10 ученици. Височината на всеки от тях е както следва:

Проба 1
СтудентВисочина в метри
11,65
21,80
31,72
41,68
51,75
61,85
71,62
81,79
91,82
101,69

Средната височина на класа би била 1,73. Ако вземем предвид максималната височина (1,85) и минималната височина (1,62) и разстоянието между тях до средната стойност, виждаме, че тя е съответно 0,113 и 0,117. Както виждаме, средната стойност е приблизително в средата на интервала и може да се счита за доста добра оценка.

Ефектът с изключение

Сега нека помислим за друга извадка от 10 ученика, като височината им е следната:

Проба 1
СтудентВисочина в метри
11,65
21,80
31,72
41,68
52,18
62,20
71,62
81,79
91,75
101,69

В този случай средната височина на класа би била 1,81. Ако сега разгледаме максималната височина (2,20) и минималната височина (1,62) и разстоянието между тях до средната стойност, виждаме, че тя е съответно 0,39 и 0,18. В този случай средната стойност вече не е приблизително в средата на диапазона.

Ефектът от 2-те най-екстремни наблюдения (2.18 и 2.20) е довел до изместване на средната аритметична стойност към максималната стойност на разпределението.

С този пример виждаме ефекта, който имат извънредните стойности и как те могат да изкривят изчислението на средна стойност.

Как да открием отклонения?

Как да коригирате ефекта на отклоненията

В ситуации като тази, в които има ненормални стойности, които са значително различни от останалите, медианата е по-добра оценка, за да се знае в кой момент е концентриран по-голям брой наблюдения.

В случая на двете разпределения и тъй като имаме четен брой стойности, не можем да вземем точно стойността, която намалява наполовина разпределението, за да изчислим медианата. С което след подреждането на стойностите от най-ниската към най-високата, бихме взели петото и шестото наблюдение (и двете оставят по 4 наблюдения от всяка страна) и бихме изчислили медианата, както следва:

Пример 1:

1,75+1,72/2 = 1,73

Пример 2:

1,79+1,71/2 = 1,75

Както можем да видим, в проба номер 1, като се има предвид, че няма изключения или необичайни наблюдения, медианата е 1,73 и съвпада със средната стойност. Напротив, за проба 2 средната стойност е 1,75. Както можем да видим, тази стойност е по-далеч от средната височина, която е била 1,81 и ни дава по-висока оценка на точката, за да знаем приблизително в коя точка е концентриран по-голям брой наблюдения.

Точка оценка