Випадкової величини. Критерій Колмогорова. Критерій згоди колмогорова-смирнова - спосіб оцінки розподілу сукупності Порівняння даних дослідження критерій колмогорова смирнова

Призначення критерію

Критерій призначений для порівняння двох розподілів:

а) емпіричного з теоретичним, наприклад, рівномірним чи нормальним;

б) одного емпіричного розподілу з іншим емпіричним розподілом.

Критерій дозволяє знайти точку, в якій сума накопичених розбіжностей між двома розподілами є найбільшою, та оцінити достовірність цієї розбіжності.

Опис критерію

Якщо методі ми зіставляли частоти двох розподілів окремо за першим розрядом, потім у сумі першого і другого розрядів, потім у сумі першого, другого і третього розрядів тощо. Таким чином, ми зіставляємо щоразу накопичені до цього розряду частоти.

Якщо відмінності між двома розподілами істотні, то в якийсь момент різниця накопичених частот досягне критичного значення, і ми зможемо визнати відмінності статистично достовірними. До формули критерію включається ця різниця. Чим більше емпіричне значення, тим істотніші відмінності.

Гіпотези

Відмінності між розподілами недостовірні (судячи з точки максимального накопиченого розбіжності з-поміж них).

: Відмінності між розподілами достовірні (судячи з точки максимальної накопиченої розбіжності між ними).

Для застосування критерію Колмогорова-Смирнова необхідно дотримуватися таких умов:

1. Вимір може бути проведений шкалою інтервалів та відносин.

2. Вибірки мають бути випадковими та незалежними.

3. Бажано, щоб сумарний обсяг двох вибірок ≥ 50. Зі збільшенням обсягу вибірки точність критерію підвищується.

4. Емпіричні дані повинні допускати можливість упорядкування за зростанням або зменшенням будь-якої ознаки і обов'язково відображати якусь його односпрямовану зміну. У тому випадку, якщо важко дотриматися принципу впорядкованості ознаки, краще використовувати критерій хі-квадрат.

Цей критерій використовується для вирішення тих самих завдань, що й критерій хі-квадрат. Інакше кажучи, з його допомогою можна поранювати емпіричний розподіл з теоретичним або два емпіричні розподіли один з одним. Однак якщо при застосуванні хі-Квадрат ми зіставляємо частоти двох розподілів, то в даному критерії порівнюються накопичені (кумулятивні) частоти по кожному розряду (альтернативі). При цьому якщо різниця накопичених частот у двох розподілах виявляється великою, то різницю між двома розподілами є суттєвими.

Завдання 8.12.Припустимо, що у експерименті психологу необхідно використовувати шестигранний гральний кубик з цифрами на гранях від 1 до 6. Для чистоти експерименту необхідно отримати «ідеальний» кубик, тобто. такий, щоб при досить великій кількості підкидань, кожна його грань випадала приблизно приблизно однакове число разів. Завдання полягає у з'ясуванні того, чи буде цей кубик близький до ідеального?

Рішення.Підкинемо кубик 120 разів і порівняємо отриманий емпіричний розподіл з теоретичним. Оскільки теоретичний розподіл є рівноймовірним, то відповідні теоретичні частоти дорівнюють 20. Розподіл емпіричних та теоретичних частот представимо спільно у таблиці 8.15:

Для підрахунку за критерієм Колмогорова-Смирнова необхідно провести низку перетворень із даними таблиці 8.15. Подаємо ці перетворення в таблиці 8.16 і пояснимо їх отримання:

Символом FEу таблиці 8.16 будемо позначати накопичені теоретичні частоти. У таблиці вони виходять наступним чином: до першої теоретичної частоти 20, додається друга частота, також дорівнює 20, виходить число 20 + 20 = 40. Число 40 ставиться на місце другої частоти. Потім до 40 додається наступна теоретична частота, отримана величина 60 - ставиться на місце третьої теоретичної частоти і так далі.

Символом FBу таблиці 8.16 позначаються накопичені емпіричні частоти. Для їхнього підрахунку необхідно розташувати емпіричні частоти за зростанням: 15, 18, 18, 21, 23, 25 і потім по порядку скласти. Так, спочатку стоїть перша частота рівна 15, до неї додається друга за величиною частота і отримана сума 15 + 18 = 33 ставиться на місце другої частоти, потім до 33 додається 18 (33 + 18 = 51), отримане число 51 ставиться на місце третьої частоти і т.д.

Символом |FE- FB |у таблиці 8.16 позначаються абсолютні величини різниці між теоретичною та емпіричною частотою по кожному стовпцю окремо.

Емпіричну величину цього критерію, що позначається як Dемп отримують, використовуючи формулу (8.13):

Для її отримання серед чисел | FE - FB |знаходять максимальне число (у нашому випадку воно дорівнює 9) і поділяють його на обсяг вибірки п.У нашому випадку п= 120, тому

Для цього критерію таблиця з критичними значеннями дана в Додатку 1 за № 13. З таблиці 13 Додатка 1 випливає, однак, що в тому випадку, якщо число елементів вибірки більше 100, то величини критичних значень обчислюються за формулою (8.14).

Опис критерію

Класичний критерій Колмогорова (іноді кажуть Колмогорова-Смирнова) призначений для перевірки простих гіпотез про належність аналізованої вибірки деякому повністю відомому закону розподілу.

Нехай - вибірка незалежних однаково розподілених випадкових величин - емпірична функція розподілу - деяка "справжня" функція розподілу з відомими параметрами. Статистика критерію визначається виразом:

Позначимо через гіпотезу у тому, що вибірка підпорядковується розподілу . Тоді за теоремою Колмогорова при справедливості гіпотези, що перевіряється:

0:%20%5Cquad%20%5Clim_%7Bn%20%5Cto%20%5Cinfty%7DP(%5Csqrt%7Bn%7D%20D_n%20%5Cleq%20t)=K(t)=%5Csum_%7Bj=- %5Cinfty%7D%5E%7B+%5Cinfty%7D(-1)%5Ej%20%5Cmathrm%7Be%7D%5E%7B-2j%5E2t%5E2%7D." alt="\forall t >0: \quad \lim_(n \to \infty)P(\sqrt(n) D_n \leq t)=K(t)=\sum_(j=-\infty)^(+\infty)(-1 )^j \mathrm(e)^(-2j^2t^2).">!}

Гіпотеза відкидається, якщо статистика перевищує квантиль розподілу заданого рівня значимості і приймається в іншому випадку.

Примітка:У критерії Колмогорова доцільно використати статистику з поправкою Більшова: . Розподіл цієї статистики при справедливості гіпотези, що перевіряється, швидко сходить до розподілу Колмогорова і при 25%20" alt=" n>25"> зависимостью от объема выборки можно пренебречь.!}

Використання критерію перевірки нормальності

В даному випадку критерій Колмогорова використовується для перевірки гіпотези про належність вибірки, що спостерігається, нормальному закону, параметри якого оцінюються за цією самою вибіркою методом максимальної правдоподібності. Тобто перевіряється складна гіпотезаі як оцінки параметрів нормального закону використовуються вибіркові оцінки середнього та дисперсії.

У цьому випадку (Lilliefors) використовувалися модифіковані статистики:

.

Критичні значення для статистики наведені в таблиці (Lilliefors):

0,15 0,10 0,05 0,03 0,01
0,775 0,819 0,895 0,955 1,035

Перевірка складних гіпотез

При перевірці складних гіпотез, коли за вибіркою оцінюються параметри закону, з яким перевіряється згода, непараметричні критерії злагоди втрачають властивість свободи від розподілу (Kac, Kiefer, Wolfowitz). При перевірці складних гіпотез умовні розподіли статистик непараметричних критеріїв згоди (і критерію Колмогорова) залежать від ряду факторів: від виду закону, що спостерігається, що відповідає справедливій гіпотезі, що перевіряється; від типу оцінюваного параметра та числа параметрів, що оцінюються; у деяких випадках від конкретного значення параметра (наприклад, у разі сімейств гама- та бета-розподілів); методу оцінювання параметрів.

Відмінності в граничних розподілах тієї ж статистики при перевірці простих і складних гіпотез настільки суттєві, що нехтувати цим у жодному разі не можна.

Про застосування критерію Колмогорова для перевірки різних складних гіпотез див. на сайті Новосибірського державного технічного університету:

  • Статистичний аналіз даних, моделювання та дослідження ймовірнісних закономірностей. Комп'ютерний підхід: монографія. - Новосибірськ: Вид-во НДТУ, 2011. - 888 с. (глави 3 та 4)
  • Моделі розподілів статистик непараметричних критеріїв згоди під час перевірки складних гіпотез із використанням оцінок максимальної правдоподібності. Ч.I // Вимірювальна техніка. 2009. № 6. - С.3-11.
  • Моделі розподілів статистик непараметричних критеріїв згоди під час перевірки складних гіпотез із використанням оцінок максимальної правдоподібності. Ч.II // Вимірювальна техніка. 2009. № 8. - С.17-26.

Література

  1. Kolmogoroff A.N. Sulla determinazione empirica di una legge di distribuzione // Giornale dell Istituto Italiano degly Attuari. 1933. - Vol. 4. - № 1. - P. 83-91.
  2. Більшов Л.М., Смирнов Н.В.Таблиці математичної статитики. М: Наука, 1983.
  3. Lilliefors H.W.На Kolmogorov-Smirnov test для normality з mean and variance unknown // J. Am. Statist. Assoc., 1967. V.62. - P.399-402.
  4. Kac M., Kiefer J., Wolfowitz J.На Tests of Normality and Other Tests of Goodness of Fit Based on Distance Methods // Ann. Math. Stat., 1955. V.26. - P.189-211.
  5. Рекомендації щодо стандартизації. Прикладна статистика Правила перевірки згоди дослідного розподілу із теоретичним. Частина ІІ. Непараметричні критерії. - М.: Вид-во стандартів. 2002. - 64 с.

Призначення критерію. Критерій призначений для зіставлення двох розподілів: а). емпіричного з теоретичним, наприклад, рівномірним чи нормальним; б). одного емпіричного розподілу з іншим емпіричним розподілом.

Обмеження критерію.Критерій вимагає, щоб вибірка була достатньо великою, ≥50.

Гіпотези:

: різницю між двома розподілами незначні.

: різницю між двома розподілами значущі.

Алгоритм підрахунку - критерію.

Складаємо таблицю для зручності розрахунків:

1. У першому стовпці мають емпіричні значення ознаки, упорядковані за зростанням.

2. У другому стовпці мають емпіричні частоти для кожного значення, а в третьому стовпці відносні емпіричні частоти для кожного значення, розраховані за формулою: f* емп j = f емп j / n, де f емп j - емпірична частота з другого стовпця, n - Обсяг вибірки.

3. Підраховуємо «накопичені» емпіричні частоти за такою формулою:

∑ f * емп j = ∑ f * емп j -1 + f * емп j ,

де ∑ f* емп j -1 – частота, накопичена на попередніх значеннях ознаки;

j – порядковий номер значення ознаки; f * емп j - емпірична частота даного j розряду. Результати поміщають у 4 стовпець.

4. У 5 стовпці мають накопичені теоретичні частоти, якщо порівнюють з відомим теоретичним розподілом; якщо порівнюють 2 емпіричних розподілу, то 5 стовпчику розташовують накопичені емпіричні частоти для вибірки 2.

5. Підраховують різниці між накопиченими частотами та їх абсолютні значення поміщають у 6 стовпець. Позначимо їх dj.

6. Визначають по 6 стовпцю максимальне значення dj → dmax.

7. Підраховують λ емп за формулою:

,

де n 1 – обсяг вибірки 1, n 2 – обсяг вибірки 2, якщо = = n, то .

8. За заданим рівнем значимості таблиці VII додатка знаходять граничну точку λ кр.

9. Якщо λ емп< λ кр, то различия между распределениями признака незначимы; если λ эмп >λ кр, то різницю між розподілами ознаки значущі.

приклад. У продовольчому магазині проведено контрольні зважування проданої ковбаси. Обсяг вибірки n = 100. Отримані дані вказані у таблиці.

недовага, г
частота

Визначити з допомогою λ – критерію Колмогорова-Смирнова лише на рівні значимості α=0,05, чи узгоджуються дані вибірки з рівномірним розподілом на відрізку .

Рішення.: різницю між емпіричним і передбачуваним теоретичним розподілом незначні.

: різницю між емпіричним і передбачуваним теоретичним розподілом значущі.

Функція розподілу випадкової величини, рівномірно розподіленої на відрізку має такий вигляд:

Заповнимо таблицю:

x j f емп j f емп j /n ∑ f* емп j ∑ f* теор j d j
0,10 0,10 0,1
0,11 0,21 0,2 0,01
0,08 0,29 0,3 0,01
0,09 0,38 0,4 0,02
0,12 0,50 0,5
0,10 0,60 0,6
0,13 0,73 0,7 0,03
0,15 0,88 0,8 0,08
0,12 1,00 0,9 0,1

Пояснимо, як заповнюється таблиця. Значення перших двох стовпців взято з умови. Кожне число другого шпальти ділимо на n = 100 і результат записуємо в 3 стовпець. Кожне число 4 стовпця дорівнює сумі числа з цього рядка 3 стовпця і попереднього числа 4 стовпця. Кожне число 1 стовпця підставляємо у формулу f*теор = xj/10 і результат записуємо в 5 стовпець. 6 стовпець – модуль різниці 4 та 5 стовпців. Найбільше в 6 стовпці d max =0,1; λ емп =0,1 = 1.

За рівнем значущості α = 0,05 з таблиці VI додатку знаходимо граничну точку λ кр = 1,358. Оскільки λ емп< λ кр (1 < 1,358), то принимаем гипотезу на уровне значимости α = 0,05. Данные выборки согласуются с равномерным распределением на отрезке .

З досвіду ходіння захисту курсових і дипломних робіт з психології помітив ряд поширених і підступних помилок у роботах. Надумав креслити текст, що застерігає від таких помилок. Буду вдячний, якщо фахівці зі статистики перевірять.

Щоб не вивалювати одразу багато, поки що перші п'ять пунктів.


1. Якщо за критерієм Колмогорова-Смирнова вийшло p-значення більше 0,05 (або 0,1) – розподілення нормально, можна робити параметричні методи.

Критерій Колмогорова-Смирнова оцінює значущість різниці між формою двох розподілів. При перевірці нормальності (насправді це лише окремий випадок застосування K-S тесту) йдеться про виявлення значних відмінностей між формою Вашого розподілу та моделлю нормального. Тобто p-значення більше 0,05 (і т.п.) слід розуміти як "Я не знайшов відмінностей між Вашим розподілом та нормальним (значних відмінностей на цьому рівні)".

А не знайти відмінності можна просто тому, що на руках дуже мало даних для виявлення. Так само, як слідчий не може знайти злочинця при малій кількості доказів. Це ще не означає, що справа чиста.

Так от, Колмогоров-Смирнов - дуже вимогливий до обсягу цих умов, який починає правильно працювати на вибірці в районі 80. Чим менше вибірка - тим важче йому побачити що-небудь. На вибірках у 20-40 осіб, які часто бувають у студентських роботах, критерій Колмогорова-Смирнова практично завжди заявлятиме «Я не зміг побачити жодних відмінностей», яким би перекошеним не був Ваш розподіл.

Прикиньте тепер весь жах ситуації, коли студент насамперед зробив Колмогорова-Смирнова на малій кількості респондентів, радісно уклав про нормальність і пішов відчайдушно користуватися параметричними методами? Адже це ставить під сумнів АБСОЛЮТНО ВСЕ, що він потім отримав у роботі.

При вибірці у кілька десятків (але відчутно менше 80) слід говорити лише про умовну нормальність даних, яка оцінюється через величини асиметрії та ексцесу порівняно з їх стандартними помилками. Якщо ж вибірка складає приблизно 20 – тут просто немає і не може бути нормальності. Ніколи. Відразу звертайтеся до непараметричної статистики.

2. Якщо загальна вибірка дослідження дала нормальний розподіл, то далі можна порівнювати будь-що з будь-що за допомогою параметричних методів.

Необхідність нормального розподілу для параметричних методів пов'язана з їхньою опорою на середні значення (та інші параметри розподілу). Коли в якійсь групі немає нормального розподілу - середнє може бути безглуздим (середнє чисел 9, 10, 11 і 130 і 40 - результат не схожий на жодне з чисел, що середняються). А коли нормальність є – середнє свідомо вийде осмисленим.

Відповідно, при порівнянні двох груп через середні значення, потрібно мати два осмислених середніх значення. При порівнянні трьох – три, і таке інше. Нормальний розподіл на спільній вибірці Вам потрібен лише в тому випадку, якщо Ви робите якісь висновки про цю спільну вибірку. А скільки потім груп Ви вивчаєте параметричними методами – стільки у Вас має бути (умовно) нормальних розподілів.

3. Якщо вийшов нормальний розподіл, можна робити дисперсійний аналіз.

Дисперсійний аналіз якраз мало вразливий до ненормальних розподілів (крім деяких окремих випадків). Перевірка підвиборок на нормальність бажана, але від порушень нормальності нічого страшного, швидше за все, не станеться.

Однак дисперсійний аналіз висуває ще дві особливі вимоги до даних. По-перше, не повинно бути значних відмінностей у внутрішньогрупових дисперсіях (перевіряються тестом Лівеня) – це таїть серйозну загрозу, якщо Ваші групи помітно відрізняються за розміром. По-друге і по-головних, фактори для багатофакторного дисперсійного аналізу мають бути незалежними один від одного. Не порушуйте цієї умови, не використовуйте як фактори пов'язані показники! Тоді адекватне рішення завдання досягається лише структурним моделюванням, а чи не дисперсійним аналізом.

Щоб полегшити собі життя, для багатофакторного дисперсійного аналізу найкраще відразу набирати рівномірний комплекс. Рівномірний комплекс – це коли на всі можливі поєднання факторів припадає однакова кількість спостережень (типу: 16 молодих жінок-узбечок, 16 молодих жінок-татарок, 16 молодих жінок-росіян, 16 молодих чоловіків-узбеків, 16 молодих чоловіків-татар, 16 молодих чоловіків -росіян, 16 літніх жінок-узбечок, 16 літніх жінок-татарок, 16 літніх жінок-російських, 16 літніх чоловіків-узбеків, 16 літніх чоловіків-татар, 16 літніх чоловіків-російських).

5.Кореляційний аналіз дозволяє виявити взаємозв'язок.

Слово «взаємозв'язок» регулярно з'являється у роботах, організація яких дозволяє знайти причин і наслідків. Студенти зазвичай знають, що кореляція не означає «впливу», це слово вони передбачливо і замінюють «взаємозв'язком».

Подумайте вже просто над звучанням слова. Взаємний зв'язок. Тобто зв'язок обидві сторони. Якщо А взаємопов'язано з Б - значить, через А відбувається якийсь вплив на Б і одночасно через Б - якийсь вплив на А. Як Ви думаєте, якщо кореляція не здатна підтвердити вплив навіть в один бік, чи може вона підтвердити вплив обидві сторони?

Кореляція показує НЕ ВЗАЄМО-, А ПРОСТО ЗВ'ЯЗОК. Не обов'язково двосторонню. Зв'язок може бути строго одностороннім: тільки X впливає на Y без будь-якого зворотного впливу. Або навпаки: тільки Y впливає на X. Зв'язок може бути справді взаємним. Вона взагалі може бути лише опосередкованою якимось третім Z, коли X та Y безпосередньо один на одного не діють. У підручнику Майєрса розповідається, що висота надгробків високо корелює з кількістю прожитих років, оскільки чим довше прожила людина, тим більше вона розбагатіла і тим розкішніший пам'ятник замовлять його родичі (це стосується західних країн, звичайно). Кореляція показує якусь зв'язок, як така не розрізняючи випадків одностороннього впливу, двостороннього впливу, опосередкованого впливу. І говорити про «взаємозв'язок», маючи на руках лише кореляцію, не більш обґрунтовано, ніж про «вплив».

На етапі опису статистики помилка – чисто мовна та легко виправна. Проблеми виникають, коли на стадії інтерпретації людина вважає, що довів саме взаємозв'язок і починає розмірковувати про взаємні відносини X та Y.

Для застосування критерію О.М. Колмогорова ЕД потрібно подати у вигляді варіаційного ряду (ЕД неприпустимо об'єднувати у розряди). Як міра розбіжності між теоретичною F(x) та емпіричної F * n (x)функціями розподілу безперервної випадкової величини Х використовується модуль максимальної різниці

О.М. Колмогоров довів, що якою б не була функція розподілу F(x)величини Хпри необмеженому збільшенні кількості спостережень n функція розподілу випадкової величини d nасимптотично наближається до функції розподілу

Інакше висловлюючись, критерій А.Н. Колмогорова характеризує ймовірність того, що величина d nне перевершуватиме параметр lдля будь-якої теоретичної функції розподілу. Рівень значущості aвибирається з умови

через припущення, що майже неможливо отримати цю рівність, коли існує відповідність між функціями F(x)і F * n (x). Критерій О.М. Колмогорова дозволяє перевірити узгодженість розподілів за малими вибірками, він простіше за критерій хі-квадрат, тому його часто застосовують на практиці. Але потрібно враховувати дві обставини.

1. Відповідно до умов його застосування необхідно користуватися наступним співвідношенням

2. Умови застосування критерію передбачають, що теоретична функція розподілу відома повністю – відомий вид функції та значення її параметрів. Насправді параметри зазвичай невідомі і оцінюються по ЭД. Але критерій не враховує зменшення кількості ступенів свободи в оцінці параметрів розподілу за вихідною вибіркою. Це призводить до підвищення значення ймовірності дотримання нульової гіпотези, тобто. підвищується ризик прийняти як правдоподібну гіпотезу, яка погано узгоджується з ЕД (підвищується ймовірність припуститися помилки другого роду). Як заходи такого висновку слід збільшити рівень значущості a, прийнявши його рівним 0,1 – 0,2, що призведе до зменшення зони допустимих відхилень.

Послідовність дій під час перевірки гіпотези наступна.

1. Побудувати варіаційний ряд.

2. Побудувати графік емпіричної функції розподілу F*(x).

3. Висунути гіпотезу:

H 0: F(x) = F 0(x) ,

H 1: F(x) F 0(x) ,

де F 0(x) - теоретична функція розподілу типового закону: рівномірного, експоненційного чи нормального. Нижче наведено формули для розрахунку F 0(x).

Рівномірний закон

Експонентний закон

5. За графіком визначити максимальне за модулем відхилення між функціями F* n(x) та F 0(x).



6. Обчислити значення критерію

7. Приймають той чи інший рівень значущості (найчастіше 0,05 чи 0,01). Тоді довірча можливість = 1 - .

8. З таблиці ймовірностей Колмогорова вибрати критичне значення.

9. Якщо > , то нульова гіпотеза H 0відхиляється, інакше - приймається, хоча може бути неправильна.

Переваги критерію Колмогорова порівняно з критерієм 2: можливість застосування при дуже невеликих обсягах вибірки ( n< 20) , более высокая "чувствительность", а следовательно, меньшая трудоемкость вычислений.

Недолік: критерій можна використовувати у випадку, якщо параметри Q 1, ..., Qkрозподілу заздалегідь відомі, а емпірична функція розподілу F*(x) повинна бути побудована за незгрупованимвибірковим даним.

приклад 3.3 . За критерієм Колмогорова перевірити гіпотезу про рівномірний закон розподілу R(0,5; 5,25) випадкової величини за вибіркою обсягу 10: 2,68 1,83 2,90 1,03 0,90 4,07 5,05 0,94 0,71 1,16, рівень значущості 0 ,5.

Рішення . Варіаційний ряд даної вибірки має вигляд:

0,71 0,90 0,94 1,03 1,16 1,83 2,68 2,90 4,07 5,05.

Після цього будуємо графік емпіричної функції розподілу F*(x).

Теоретична функція розподілу F 0(x) рівномірного закону R(0,5;5,25) дорівнює

Максимальна різниця по модулю між графіками F*(x) та F 0(x) дорівнює 0,36 при х= 1,16.

Обчислимо значення статистики

З таблиці Колмогорова вибираємо критичне значення.< 1,36 , то гипотеза о равномерном законе распределения принимается.

 

Будь ласка, поділіться цим матеріалом у соціальних мережах, якщо він виявився корисним!