Тест на Колмогоров - Смирнов (K-S)

Тестът на Колмогоров-Смирнов (K-S) е непараметричен тест, който има за цел да определи дали честотата на два различни набора от данни следва еднакво разпределение около средната им стойност.

С други думи, тестът на Kolmogorov-Smirnoff (K-S) е тест, който се адаптира към формата на данните и се използва за проверка дали две различни проби следват едно и също разпределение.

Защо е непараметричен тест?

Красотата на "непараметричната" характеристика е, че тя отговаря на данните и следователно на разпределенията, които могат да следват честотата на данните. В допълнение, тази функция ни спестява от необходимостта да приемаме априори какво разпределение следва пробата.

Значение на теста K-S

Колко пъти са ни дадени две проби и сме изчислили коефициента на корелация на Пиърсън, без да се замислим два пъти? С други думи, ако искаме да видим линейната връзка между два набора от данни, би било справедливо да изчислим корелацията, нали?

Това приспадане би било вярно, ако разпределенията на двете проби следват нормално разпределение. Коефициентът на корелация приема, че разпределенията са нормални, ако пропуснем това предположение, резултатът от корелационния коефициент е грешен. За тестовете на хипотезите и доверителните интервали също така приемаме, че популацията се разпределя чрез нормално разпределение.

Подобно на всички тестове за хипотези, които включват статистика, важно е да имате голям обем данни, за да имате статистически значими резултати. Може погрешно да отхвърлим нулева хипотеза, тъй като извадката е малка. Освен това е важно също така тази извадка да има някои екстремни случаи (отклонения, на английски език), за да се даде последователност на резултата от теста.

Процедура за изпитване

Процедурата на следващите стъпки.

Хипотеза

Първата стъпка ще бъде да се провери дали и двете проби имат еднакво разпределение. За да направим това, ние провеждаме тест за хипотеза, приемайки, че и двете проби имат еднакво разпределение спрямо алтернативната хипотеза, че те са различни.

Статистически

Работим с кумулативните функции на разпределение на две проби, F1(x) и F2(х):

Не се паникьосвай! Анализираме горната формула спокойно:

  • Важната част от формулата е знак за разлика (-). Търсим вертикални разлики в разпределенията. И така, ще извадим и двете кумулативни функции на разпределение.
  • The оператор "макс". Ние се интересуваме от намирането на най-голямата или максималната разлика, за да видим колко различни могат да бъдат двете разпределения.
  • The абсолютна стойност. Използваме абсолютната стойност, така че редът на операторите да не променя резултата. С други думи, няма значение кой F (x) има отрицателен знак:

Критична стойност

За големи проби има приближение до критичната стойност за K-S, което зависи от нивото на значимост (%):

Където1 и n2 са размерът на пробата за пробата F1(x) и F2(x) съответно.

Някои изчислени критични стойности:

Правило за отхвърляне

Приложение

Много често искаме да тестваме дали две разпределения са достатъчно различни една от друга, когато искаме да изградим сценарии за прогнозиране (работим с две извадки) или когато искаме да оценим кое разпределение най-добре отговаря на данните (работим само с една извадка).

Популярни Публикации

Решаващи моменти за Ibex 35

Ibex 35 се завръща, за да погали върховете през 2014 г., което направи 11 250 точки трудна съпротива за нашия фондов индекс. Това ниво изглежда като добро оправдание да си вземем почивка от рикошета, който видяхме от началото на годината, и да върнем спадът на 2014 г. Прочетете повече…

Цените на виното скочат нагоре поради лошите реколти в Европа

Цените на виното регистрират силен ръст в резултат на лошите реколти в страните от Европейския съюз. Насипното вино е особено засегнато от това увеличение на цените. Въпреки всичко, Испания планира да запази лидерството си в износа на вино и дори се очаква да се подобриПрочетете повече…