Открийте отклоненията, като използвате нормалното разпределение

Съдържание:

Anonim

Откриването на извънредни стойности чрез нормалното разпределение е процес, който включва определяне на праг на стандартно отклонение и с който се предвижда да се намерят екстремни стойности на пробата.

С други думи, откриването на отклонения чрез нормалното разпределение означава да се намерят екстремни стойности на набор от данни чрез стандартизираната нормална формула.

  • Стойностите крайности са наречени отклонения на английски.
  • Стойностите вътрешен са наречени вътрешни лица на английски.

Визуалното откриване на отклонения може да бъде опция, когато имате много малко данни. Когато работите с бази данни, е много непрактично да се налага ръчно да се намират отклонения. За да разрешим този проблем, можем да изчислим кои са стойностите, които се считат за крайни, като сравним с праг на отклонения.

В случая на нормалното разпределение, стойността се счита за екстремна, когато е на 3 стандартни отклонения от средната стойност. Тъй като нормалното разпределение има 2 опашки, трябва да вземем предвид, че то може да бъде намалено както от отрицателната, така и от положителната страна.

Формула за откриване на отклонения, използвайки нормалното разпределение

Набор от наблюдения може да бъде изразен по предходния начин, където x е средната стойност, над която стойностите трептят и сигма дисперсията на трептенето на споменатите стойности. С други думи, сигма е разстоянието на наблюденията от средната стойност.

Мултипликативният фактор определя дали е външен или вътрешен човек. Ако z приема стойностите на 3 или -3, тогава, според нормалното разпределение, наблюдението y ще бъде по-голямо.

Да знаеш стойността на z използваме предишното уравнение:

  • Ако z> = 3 или z = <-3, тогава, според нормалното разпределение, можем да кажем това Y. това е екстремна стойност или по-голямо.
  • Ако z <3 или z <-3, тогава, според нормалното разпределение, можем да кажем това Y. е вътрешна стойност или вътрешна информация.

Нормален стандарт

Познато ли е горното уравнение?

Точно това е изразът на наблюдение, което следва нормално разпределение, веднъж стандартизирано или типизирано. Нарича се по този начин, защото при разделяне на стандартното или стандартното отклонение разликата в числителя се изразява чрез отклонения.

Поради тази причина можем да свържем стойностите на отклоненията с z и по този начин да можете да го закупите с прага от 3 отклонения.

Пример

Намерете екстремните стойности на следните наблюдения според нормалното разпределение:

Представяме наблюденията на графика:

От самото начало вече виждаме, че стойността, която е най-отдалечена от останалите, най-вероятно може да бъде по-голяма.

Първо изчисляваме средната стойност и стандартното отклонение:

x = средно = 5.8

сигма = стандартно отклонение = 10,51

След това заместваме стойностите във формулата и изчисляваме стойността на z за всяко наблюдение:

Горните стойности са мултипликативни фактори на сигма, т.е. z. Всичко, което е по-голямо от 3 или по-малко от -3, ще бъде екстремна стойност.

Можем да видим, че стойността на z което надвишава 3 стандартни отклонения е това, съответстващо на наблюдение 49.

Следователно екстремната или извънредната стойност на набора от данни би била 49.