Коефициентът на вариация, известен също като коефициент на вариация на Пиърсън, е статистическа мярка, която ни информира за относителната дисперсия на набор от данни.
Тоест, той ни информира, подобно на други мерки за дисперсия, за това дали дадена променлива се движи много, малко, повече или по-малко от друга.
Коефициент на вариационна формула
Изчисляването му се получава чрез разделяне на стандартното отклонение на абсолютната стойност на средната стойност на множеството и обикновено се изразява като процент за по-добро разбиране.
- Х: променлива, върху която трябва да се изчисли дисперсията
- σх: Стандартно отклонение на променлива X.
- | x̄ |:: Това е средната стойност на променливата X в абсолютна стойност с x̄ ≠ 0
Коефициентът на вариация може да се види, изразен с буквите CV или r, в зависимост от ръководството или използвания шрифт. Формулата му е следната:
Коефициентът на вариация се използва за сравняване на набори от данни, принадлежащи към различни популации. Ако разгледаме неговата формула, виждаме, че тя отчита стойността на средната стойност. Следователно коефициентът на вариация ни позволява да имаме дисперсионна мярка, която елиминира възможните изкривявания на средните стойности на две или повече популации.
РангПримери за използване на коефициента на вариация вместо стандартното отклонение
Ето няколко примера за тази мярка на дисперсия:
Сравнение на набори от данни с различни измерения
Искаме да купим дисперсията между височината на 50 ученика в клас и тяхното тегло. За сравнение на височината бихме могли да използваме метри и сантиметри като мерна единица и килограм за тегло. Сравняването на тези две разпределения, като се използва стандартното отклонение, няма смисъл, тъй като се опитваме да измерим две различни качествени променливи (мярка за дължина и една за маса).
Сравнете комплектите с голяма разлика между средствата
Представете си например, че искаме да измерим теглото на бръмбари и хипопотами. Теглото на бръмбарите се измерва в грамове или милиграми, а теглото на хипопотамите обикновено се измерва в тонове. Ако за нашето измерване преобразуваме теглото на бръмбарите в тонове, така че и двете популации да са в една и съща скала, използването на стандартното отклонение като мярка за дисперсия не би било подходящо. Средното тегло на бръмбар, измерено в тонове, ще бъде толкова малко, че ако използваме стандартното отклонение, едва ли ще има дисперсия в данните. Това би било грешка, тъй като теглото между различните видове бръмбари може да варира значително.
Пример за изчисляване на коефициента на вариация
Да разгледаме популация от слонове и друга от мишки. Популацията на слонове има средно тегло от 5000 килограма и стандартно отклонение от 400 килограма. Популацията на мишките има средно тегло 15 грама и стандартно отклонение 5 грама. Ако сравним дисперсията на двете популации, използвайки стандартното отклонение, може да си помислим, че има по-голяма дисперсия за популацията на слонове, отколкото за тази на мишките.
Когато изчисляваме коефициента на вариация и за двете популации, бихме осъзнали, че е точно обратното.
Слонове: 400/5000 = 0,08
Мишки: 5/15 = 0,33
Ако умножим и двете данни по 100, имаме, че коефициентът на вариация за слоновете е само 8%, докато този на мишките е 33%. Като следствие от разликата между популациите и средното им тегло, виждаме, че популацията с най-голяма дисперсия не е тази с най-голямо стандартно отклонение.
Доверителен интервалКоефициент на линейна корелация