Тест на Колмогоров - Смирнов (K-S)

Тестът на Колмогоров-Смирнов (K-S) е непараметричен тест, който има за цел да определи дали честотата на два различни набора от данни следва еднакво разпределение около средната им стойност.

С други думи, тестът на Kolmogorov-Smirnoff (K-S) е тест, който се адаптира към формата на данните и се използва за проверка дали две различни проби следват едно и също разпределение.

Защо е непараметричен тест?

Красотата на "непараметричната" характеристика е, че тя отговаря на данните и следователно на разпределенията, които могат да следват честотата на данните. В допълнение, тази функция ни спестява от необходимостта да приемаме априори какво разпределение следва пробата.

Значение на теста K-S

Колко пъти са ни дадени две проби и сме изчислили коефициента на корелация на Пиърсън, без да се замислим два пъти? С други думи, ако искаме да видим линейната връзка между два набора от данни, би било справедливо да изчислим корелацията, нали?

Това приспадане би било вярно, ако разпределенията на двете проби следват нормално разпределение. Коефициентът на корелация приема, че разпределенията са нормални, ако пропуснем това предположение, резултатът от корелационния коефициент е грешен. За тестовете на хипотезите и доверителните интервали също така приемаме, че популацията се разпределя чрез нормално разпределение.

Подобно на всички тестове за хипотези, които включват статистика, важно е да имате голям обем данни, за да имате статистически значими резултати. Може погрешно да отхвърлим нулева хипотеза, тъй като извадката е малка. Освен това е важно също така тази извадка да има някои екстремни случаи (отклонения, на английски език), за да се даде последователност на резултата от теста.

Процедура за изпитване

Процедурата на следващите стъпки.

Хипотеза

Първата стъпка ще бъде да се провери дали и двете проби имат еднакво разпределение. За да направим това, ние провеждаме тест за хипотеза, приемайки, че и двете проби имат еднакво разпределение спрямо алтернативната хипотеза, че те са различни.

Статистически

Работим с кумулативните функции на разпределение на две проби, F1(x) и F2(х):

Не се паникьосвай! Анализираме горната формула спокойно:

  • Важната част от формулата е знак за разлика (-). Търсим вертикални разлики в разпределенията. И така, ще извадим и двете кумулативни функции на разпределение.
  • The оператор "макс". Ние се интересуваме от намирането на най-голямата или максималната разлика, за да видим колко различни могат да бъдат двете разпределения.
  • The абсолютна стойност. Използваме абсолютната стойност, така че редът на операторите да не променя резултата. С други думи, няма значение кой F (x) има отрицателен знак:

Критична стойност

За големи проби има приближение до критичната стойност за K-S, което зависи от нивото на значимост (%):

Където1 и n2 са размерът на пробата за пробата F1(x) и F2(x) съответно.

Някои изчислени критични стойности:

Правило за отхвърляне

Приложение

Много често искаме да тестваме дали две разпределения са достатъчно различни една от друга, когато искаме да изградим сценарии за прогнозиране (работим с две извадки) или когато искаме да оценим кое разпределение най-добре отговаря на данните (работим само с една извадка).

Популярни Публикации

Паричната политика на Япония се провали, според централната банка на Япония

Ултраекспанзивната парична политика, която Япония проведе, за да се измъкне от икономическата стагнация, се оказа провал, както призна миналата седмица същият управител на Японската централна банка Харухико Курода. През 2013 г. тя определи инфлацията като цел, датата, на която удвои паричната база и размера на публичния си дълг. Прочетете още…

Какво ще се случи с града и неговите работни места след Brexit?

Лондон, най-важната финансова столица на Европейския съюз, страда след Брекзит. Финансов град, който се конкурира с внушителния финансов град Ню Йорк, е изложен на риск, а заедно с него и хиляди работници, които виждат работата си застрашена. За различните финансови услуги на града, около 730 000 работници идват на работа всеки ден, вПрочетете повече…

Volkswagen ще компенсира засегнатите превозни средства в САЩ

След откриването преди няколко месеца, че Volkswagen използва компютърен софтуер, способен да фалшифицира резултатите от контрола срещу замърсяването, за момента в Съединените щати Volkswagen ще изкупи обратно или ще ремонтира докторите на стойност почти 15 000 милиона долара, около 13 280 милиони евро. Германската група фалшифицира контрола, извършен от органите, отговарящи за Прочетете повече…

Индексът на бирата и прогнозата за цените на валутата

Индексите на цените са добър наръчник за познаване на покупателната способност и цените в държава, различна от нашата. В допълнение, те са особено полезни за сравняване на стойността на дадена валута, което ни позволява да знаем дали дадена валута е надценена или не в сравнение с националната валута. За трета поредна година GoEuro подготвиПрочетете повече…