Тест на Колмогоров - Смирнов (K-S)

Тестът на Колмогоров-Смирнов (K-S) е непараметричен тест, който има за цел да определи дали честотата на два различни набора от данни следва еднакво разпределение около средната им стойност.

С други думи, тестът на Kolmogorov-Smirnoff (K-S) е тест, който се адаптира към формата на данните и се използва за проверка дали две различни проби следват едно и също разпределение.

Защо е непараметричен тест?

Красотата на "непараметричната" характеристика е, че тя отговаря на данните и следователно на разпределенията, които могат да следват честотата на данните. В допълнение, тази функция ни спестява от необходимостта да приемаме априори какво разпределение следва пробата.

Значение на теста K-S

Колко пъти са ни дадени две проби и сме изчислили коефициента на корелация на Пиърсън, без да се замислим два пъти? С други думи, ако искаме да видим линейната връзка между два набора от данни, би било справедливо да изчислим корелацията, нали?

Това приспадане би било вярно, ако разпределенията на двете проби следват нормално разпределение. Коефициентът на корелация приема, че разпределенията са нормални, ако пропуснем това предположение, резултатът от корелационния коефициент е грешен. За тестовете на хипотезите и доверителните интервали също така приемаме, че популацията се разпределя чрез нормално разпределение.

Подобно на всички тестове за хипотези, които включват статистика, важно е да имате голям обем данни, за да имате статистически значими резултати. Може погрешно да отхвърлим нулева хипотеза, тъй като извадката е малка. Освен това е важно също така тази извадка да има някои екстремни случаи (отклонения, на английски език), за да се даде последователност на резултата от теста.

Процедура за изпитване

Процедурата на следващите стъпки.

Хипотеза

Първата стъпка ще бъде да се провери дали и двете проби имат еднакво разпределение. За да направим това, ние провеждаме тест за хипотеза, приемайки, че и двете проби имат еднакво разпределение спрямо алтернативната хипотеза, че те са различни.

Статистически

Работим с кумулативните функции на разпределение на две проби, F1(x) и F2(х):

Не се паникьосвай! Анализираме горната формула спокойно:

  • Важната част от формулата е знак за разлика (-). Търсим вертикални разлики в разпределенията. И така, ще извадим и двете кумулативни функции на разпределение.
  • The оператор "макс". Ние се интересуваме от намирането на най-голямата или максималната разлика, за да видим колко различни могат да бъдат двете разпределения.
  • The абсолютна стойност. Използваме абсолютната стойност, така че редът на операторите да не променя резултата. С други думи, няма значение кой F (x) има отрицателен знак:

Критична стойност

За големи проби има приближение до критичната стойност за K-S, което зависи от нивото на значимост (%):

Където1 и n2 са размерът на пробата за пробата F1(x) и F2(x) съответно.

Някои изчислени критични стойности:

Правило за отхвърляне

Приложение

Много често искаме да тестваме дали две разпределения са достатъчно различни една от друга, когато искаме да изградим сценарии за прогнозиране (работим с две извадки) или когато искаме да оценим кое разпределение най-добре отговаря на данните (работим само с една извадка).