ВІКІСТОРІНКА
Навигация:
Інформатика
Історія
Автоматизація
Адміністрування
Антропологія
Архітектура
Біологія
Будівництво
Бухгалтерія
Військова наука
Виробництво
Географія
Геологія
Господарство
Демографія
Екологія
Економіка
Електроніка
Енергетика
Журналістика
Кінематографія
Комп'ютеризація
Креслення
Кулінарія
Культура
Культура
Лінгвістика
Література
Лексикологія
Логіка
Маркетинг
Математика
Медицина
Менеджмент
Металургія
Метрологія
Мистецтво
Музика
Наукознавство
Освіта
Охорона Праці
Підприємництво
Педагогіка
Поліграфія
Право
Приладобудування
Програмування
Психологія
Радіозв'язок
Релігія
Риторика
Соціологія
Спорт
Стандартизація
Статистика
Технології
Торгівля
Транспорт
Фізіологія
Фізика
Філософія
Фінанси
Фармакологія


ОБЧИСЛЕННЯ ОСНОВНИХ СТАТИСТИК

 

Мета роботи: одержати навички роботи з файлами вихідних даних і первісного статистичного аналізу.

Завдання:

1. Вивчити прийоми роботи з файлами вихідних даних.

2. Відкрити файл вихідних даних. Одержати статистичні характеристики.

3. Побудувати гістограму й таблицю частот.

4. Перекодувати одну зі змінних для групування (три значення: «невелике», або «незначне», «середнє», «велике»).

5. Оформити звіт про виконання роботи, який містить:

– таблицю вихідних даних;

– результати (пп. 2 – 4);

– висновки за результатами (характер вихідних даних і відповідність розподілу змінної нормальному закону розподілу).

Теоретичні відомості

Середнє значеннявідображає "центральне положення" змінної, його розглядають разом з довірчим інтервалом. Чим більший розмір вибірки, тим більш надійним є оцінювання середнього значення. Середнє арифметичне обчислюють за формулою

де n – число спостережень, xi – варіанти значень змінної.

За допомогою довірчих інтервалів середнього значення задають область довкола нього, у якій із заданим рівнем довіри утримується "дійсне" середнє значення змінної. У системі STATISTICA 6.0 можна побудувати довірчі інтервали для будь-якого рівня довіри (p-рівня). Наприклад, якщо середнє значення у виборці дорівнює 23, а нижня й верхня межі при p = 0.05 дорівнюють 19 і 27 відповідно, то можна вважати, що з 95-відсотковою ймовірністю середнє вибірки більше 19 й менше 27. Якщо встановити менше значення p-рівня, то інтервал буде ширше й збільшиться "впевненість" в оцінці, та навпаки.

Дисперсію обчислюють за формулою

Медіана – це значення, що розбиває вибірку (або сукупність) на дві рівні частини. Перша половина спостережень розташована нижче медіани, а друга половина – вище. В інтервальному ряді медіану обчислюють за формулою

де – частота варіанта; , – нижня межа медіанного інтервалу; h – величина інтервалу; – накопичена частота інтервалу перед медіанним; – частота медіанного інтервалу.

Нижній й верхній квартилі дорівнюють відповідно 25-му й 75-му відсоткам розподілу. В інтервальному ряді нижній квартиль визначають за допомогою рівняння

де . – нижня межа квартильного інтервалу, – накопичена частота перед цим інтервалом, – частота цього інтервалу.

Відповідно верхній квартиль

Квартильний розмах змінних дорівнює різниці значень верхнього та нижнього квартилів, що є діапазоном навколо медіани й містить 50% спостережень.

Мода – це значення, що найбільш часто зустрічається у вибірці. В інтервальному ряді моду визначають за формулою

де – нижня межа модального інтервалу, – частота модального інтервалу; – частота перед ним, – частота за ним.

Мультимодальний розподіл – розподілення, що має декілька мод, тобто два або більше "піки". Мультимодальність розподілу свідчить про те, що розподіл не є нормальним. Мультимодальність часто може вказувати на те, що вибірка не є однорідною й результати спостережень одержані двома або більше «накладеними» розподілами.

Коефіцієнт асиметрії є мірою несиметричності розподілу. Якщо цей коефіцієнт відрізняється від нуля, розподіл є асиметричним. Щільність нормального розподілу симетрична щодо середнього. Коефіцієнт асиметрії обчислюють за формулою

де – центральний момент третього порядку, – стандартне відхилення, піднесене до третього степеня.

Коефіцієнт ексцесу характеризує «піковиразність» розподілу. Якщо значення ексцесу значно відрізняється від нуля, то функція щільності має або більш закруглений пік, або більш загострений, ніж пік щільності нормального розподілу. Функція щільності нормального розподілу має значення ексцесу, що дорівнює нулю. Ексцес оцінюють за рівнянням

де – центральний момент четвертого порядку; – стандартне відхилення, піднесене до четвертого степеня.

Таблиці частот являють собою найпростіший метод аналізу змінних. Їх часто використовують як одну з процедур розвідувального аналізу, щоб побачити, яким чином дані розподілені у вибірці.

Гістограми є видом графічних зображень розподілу частот вибраних змінних, на яких для кожного інтервалу будують стовпець висотою, пропорційною частоті інтервалу (рис. 1.1).

Важливим способом опису змінної є форма її розподілу, що свідчить про те, з якою частотою значення змінної попадають у певні інтервали, що мають назву «інтервали групування». Часто виникає необхідність визначити, наскільки точно розподіл можна апроксимувати нормальним розподілом. На гістограму накладається крива нормального розподілу.

Нормальний розподіл являє собою одну з емпірично перевірених істин щодо загальної природи дійсності, і його положення можна розглядати як один з фундаментальних законів природи. Розподіл багатьох статистик є нормальним або може бути отриманим з нормального за допомогою деяких перетворень. Точна форма нормального розподілу (характерна "дзвонувата крива") визначається тільки двома параметрами: середнім і стандартним відхиленнями. Характерна властивість нормального розподілу полягає в тому, що 68% всіх його спостережень містяться у діапазоні плюс-мінус одне стандартне відхилення від середнього, а в діапазоні плюс-мінус два стандартних відхилення – 95% значень.

 

 

Рис. 1.1. Гістограма з накладеною кривою нормального

розподілу

 

Гістограма дозволяє візуально оцінити «нормальність» емпіричного розподілу, а також різні його характеристики. На ній можна побачити, що розподіл є бімодальним, тобто має два піки. Асиметрія розподілу з довгим правим «хвостом» є позитивною. Якщо розподіл має довгий лівий «хвіст», то його асиметрія – негативна. Якщо ексцес є позитивним, то пік – загострений, якщо він є негативним – пік закруглений.

Більш точну інформацію про форму розподілу можна одержати за допомогою критеріїв нормальності (наприклад, критерію Колмогорова - Смірнова або W-критерію Шапіро - Уілкса). Критерії доповнюють візуальну перевірку на основі гістограми.

© 2013 wikipage.com.ua - Дякуємо за посилання на wikipage.com.ua | Контакти