Тест на Колмогоров - Смирнов (K-S)

Тестът на Колмогоров-Смирнов (K-S) е непараметричен тест, който има за цел да определи дали честотата на два различни набора от данни следва еднакво разпределение около средната им стойност.

С други думи, тестът на Kolmogorov-Smirnoff (K-S) е тест, който се адаптира към формата на данните и се използва за проверка дали две различни проби следват едно и също разпределение.

Защо е непараметричен тест?

Красотата на "непараметричната" характеристика е, че тя отговаря на данните и следователно на разпределенията, които могат да следват честотата на данните. В допълнение, тази функция ни спестява от необходимостта да приемаме априори какво разпределение следва пробата.

Значение на теста K-S

Колко пъти са ни дадени две проби и сме изчислили коефициента на корелация на Пиърсън, без да се замислим два пъти? С други думи, ако искаме да видим линейната връзка между два набора от данни, би било справедливо да изчислим корелацията, нали?

Това приспадане би било вярно, ако разпределенията на двете проби следват нормално разпределение. Коефициентът на корелация приема, че разпределенията са нормални, ако пропуснем това предположение, резултатът от корелационния коефициент е грешен. За тестовете на хипотезите и доверителните интервали също така приемаме, че популацията се разпределя чрез нормално разпределение.

Подобно на всички тестове за хипотези, които включват статистика, важно е да имате голям обем данни, за да имате статистически значими резултати. Може погрешно да отхвърлим нулева хипотеза, тъй като извадката е малка. Освен това е важно също така тази извадка да има някои екстремни случаи (отклонения, на английски език), за да се даде последователност на резултата от теста.

Процедура за изпитване

Процедурата на следващите стъпки.

Хипотеза

Първата стъпка ще бъде да се провери дали и двете проби имат еднакво разпределение. За да направим това, ние провеждаме тест за хипотеза, приемайки, че и двете проби имат еднакво разпределение спрямо алтернативната хипотеза, че те са различни.

Статистически

Работим с кумулативните функции на разпределение на две проби, F1(x) и F2(х):

Не се паникьосвай! Анализираме горната формула спокойно:

  • Важната част от формулата е знак за разлика (-). Търсим вертикални разлики в разпределенията. И така, ще извадим и двете кумулативни функции на разпределение.
  • The оператор "макс". Ние се интересуваме от намирането на най-голямата или максималната разлика, за да видим колко различни могат да бъдат двете разпределения.
  • The абсолютна стойност. Използваме абсолютната стойност, така че редът на операторите да не променя резултата. С други думи, няма значение кой F (x) има отрицателен знак:

Критична стойност

За големи проби има приближение до критичната стойност за K-S, което зависи от нивото на значимост (%):

Където1 и n2 са размерът на пробата за пробата F1(x) и F2(x) съответно.

Някои изчислени критични стойности:

Правило за отхвърляне

Приложение

Много често искаме да тестваме дали две разпределения са достатъчно различни една от друга, когато искаме да изградим сценарии за прогнозиране (работим с две извадки) или когато искаме да оценим кое разпределение най-добре отговаря на данните (работим само с една извадка).

Популярни Публикации

Кой би се възползвал от споразумението за свободна търговия между САЩ и ЕС?

Миналият уикенд президентът на САЩ Барак Обама направи официално посещение в Германия, за да се срещне с канцлера Ангела Меркел. Един от най-противоречивите моменти беше въпросът за TTIP (Трансатлантическо партньорство за търговия и инвестиции или Трансатлантическа асоциация за търговия и инвестиции), който и двамата лидери подкрепят. Прочетете повече…

Субсахарска Африка, потенциал от 500 милиона потребители

Субсахарска Африка е голямата забрава в световен мащаб, но през следващите тридесет години тя ще умножи населението си по две и достъпът до нови технологии скоро ще започне да се появява от недоразвитостта. Много компании виждат огромни възможности за инвестиции на този млад пазар и искат да бъдат в челните редици на мрежата. Прочетете повече…

Отрицателни лихвени проценти, скритият банков данък

Едногодишният Euribor, за който всички знаем, че реферираме ипотеката си, навлезе в отрицателна територия за първи път в историята. Това е странна ситуация, противно на това, което може да се смята за нормално на финансовите пазари в резултат на макроикономически феномен, принуден от Европейската централна банкаПрочетете повече…