Грешка от тип 1 в статистиката се определя като отхвърляне на нулевата хипотеза, когато тя всъщност е вярна. Грешка от тип 1 е известна още като фалшиво положителна или грешка тип алфа.
Допускането на грешка от тип 1 всъщност е отричане на нещо, когато всъщност е вярно. Помислете например за ситуацията на тестване дали маркетинговата кампания, проведена в социалните мрежи, увеличава продажбите на сладолед за компания през лятната седмица. Хипотезите биха били следните:
З.0: Продажбите не се увеличават поради лятната кампания
З.1: Увеличаването на продажбите се дължи на маркетингова кампания
След оценка на трафика на уебсайта на компанията и страниците, посетени след кампанията, се открива следното:
- Увеличение, макар и в трафика и посещенията с 50%.
- 200% увеличение на продажбите на сладолед.
С оглед на тези резултати може да се заключи, че рекламната кампания е била ползотворна и е имала ефект на увеличаване на продажбите. Нека обаче помислим, че през тази седмица имаше гореща вълна, която доведе температурите над 40 градуса.
Познавайки последното, ще трябва да вземем предвид фактора на високата температура като причина за увеличаването на продажбите. Ако не вземем това предвид, бихме могли да отхвърлим нулевата си хипотеза, когато е вярна, тоест бихме си помислили, че нашата кампания е имала огромен успех, когато в действителност причината за увеличаването на продажбите е силната жега. Ако стигнахме до това заключение, щяхме да отхвърлим нулевата хипотеза, когато тя всъщност е вярна и следователно да извършим грешка от тип 1.
Причини за грешка от тип 1
Грешката от тип 1 е свързана със значимостта на контраста или алфата, с грешката при оценката на коефициентите и може да възникне поради 2 типични нарушения на изходните предположения за регресия. Това са:
- Условна хетероскедастичност.
- Серийната корелация.
Регресията, която представя някое от предишните нарушения, би подценила грешката на коефициентите. Ако това се случи, нашата оценка на t статистиката ще бъде по-голяма от действителната t статистика. Тези по-големи стойности на t статистиката биха увеличили вероятността стойността да попадне в зоната на отхвърляне.
Нека си представим 2 ситуации.
Ситуация 1 (неправилна оценка на грешката)
- Значение: 5%
- Размер на пробата: 300 души.
- Критична стойност: 1,96
- B1: 1,5
- Грешка в оценката на коефициента: 0,5
Т = 1,5 / 0,5 = 3
По този начин стойността ще попадне в зоната на отхвърляне и ние ще отхвърлим нулевата хипотеза.
Ситуация 2 (правилна оценка на грешката)
- Значение: 5%
- Размер на пробата: 300 души.
- Критична стойност: 1,96
- B1: 1,5
- Грешка в оценката на коефициента: 1
Т = 1,5 / 1 = 1,5
По този начин стойността ще падне в зоната без отхвърляне и няма да отхвърляме хипотезата.
Въз основа на предишните примери, ситуация 1, при която грешката е подценена, би ни накарала да отхвърлим нулевата хипотеза, когато в действителност е вярна, тъй като както виждаме в ситуация 2 с правилно оценената грешка, не бихме отхвърлили хипотезата да е истина.