ВІКІСТОРІНКА
Навигация:
Інформатика
Історія
Автоматизація
Адміністрування
Антропологія
Архітектура
Біологія
Будівництво
Бухгалтерія
Військова наука
Виробництво
Географія
Геологія
Господарство
Демографія
Екологія
Економіка
Електроніка
Енергетика
Журналістика
Кінематографія
Комп'ютеризація
Креслення
Кулінарія
Культура
Культура
Лінгвістика
Література
Лексикологія
Логіка
Маркетинг
Математика
Медицина
Менеджмент
Металургія
Метрологія
Мистецтво
Музика
Наукознавство
Освіта
Охорона Праці
Підприємництво
Педагогіка
Поліграфія
Право
Приладобудування
Програмування
Психологія
Радіозв'язок
Релігія
Риторика
Соціологія
Спорт
Стандартизація
Статистика
Технології
Торгівля
Транспорт
Фізіологія
Фізика
Філософія
Фінанси
Фармакологія


РОБОТА З ФАЙЛАМИ ВИХІДНИХ ДАНИХ.

Лабораторна робота № 1

РОБОТА З ФАЙЛАМИ ВИХІДНИХ ДАНИХ.

ОБЧИСЛЕННЯ ОСНОВНИХ СТАТИСТИК

 

Мета роботи: одержати навички роботи з файлами вихідних даних і первісного статистичного аналізу.

Завдання:

1. Вивчити прийоми роботи з файлами вихідних даних.

2. Відкрити файл вихідних даних. Одержати статистичні характеристики.

3. Побудувати гістограму й таблицю частот.

4. Перекодувати одну зі змінних для групування (три значення: «невелике», або «незначне», «середнє», «велике»).

5. Оформити звіт про виконання роботи, який містить:

– таблицю вихідних даних;

– результати (пп. 2 – 4);

– висновки за результатами (характер вихідних даних і відповідність розподілу змінної нормальному закону розподілу).

Теоретичні відомості

Середнє значеннявідображає "центральне положення" змінної, його розглядають разом з довірчим інтервалом. Чим більший розмір вибірки, тим більш надійним є оцінювання середнього значення. Середнє арифметичне обчислюють за формулою

де n – число спостережень, xi – варіанти значень змінної.

За допомогою довірчих інтервалів середнього значення задають область довкола нього, у якій із заданим рівнем довіри утримується "дійсне" середнє значення змінної. У системі STATISTICA 6.0 можна побудувати довірчі інтервали для будь-якого рівня довіри (p-рівня). Наприклад, якщо середнє значення у виборці дорівнює 23, а нижня й верхня межі при p = 0.05 дорівнюють 19 і 27 відповідно, то можна вважати, що з 95-відсотковою ймовірністю середнє вибірки більше 19 й менше 27. Якщо встановити менше значення p-рівня, то інтервал буде ширше й збільшиться "впевненість" в оцінці, та навпаки.

Дисперсію обчислюють за формулою

Медіана – це значення, що розбиває вибірку (або сукупність) на дві рівні частини. Перша половина спостережень розташована нижче медіани, а друга половина – вище. В інтервальному ряді медіану обчислюють за формулою

де – частота варіанта; , – нижня межа медіанного інтервалу; h – величина інтервалу; – накопичена частота інтервалу перед медіанним; – частота медіанного інтервалу.

Нижній й верхній квартилі дорівнюють відповідно 25-му й 75-му відсоткам розподілу. В інтервальному ряді нижній квартиль визначають за допомогою рівняння

де . – нижня межа квартильного інтервалу, – накопичена частота перед цим інтервалом, – частота цього інтервалу.

Відповідно верхній квартиль

Квартильний розмах змінних дорівнює різниці значень верхнього та нижнього квартилів, що є діапазоном навколо медіани й містить 50% спостережень.

Мода – це значення, що найбільш часто зустрічається у вибірці. В інтервальному ряді моду визначають за формулою

де – нижня межа модального інтервалу, – частота модального інтервалу; – частота перед ним, – частота за ним.

Мультимодальний розподіл – розподілення, що має декілька мод, тобто два або більше "піки". Мультимодальність розподілу свідчить про те, що розподіл не є нормальним. Мультимодальність часто може вказувати на те, що вибірка не є однорідною й результати спостережень одержані двома або більше «накладеними» розподілами.

Коефіцієнт асиметрії є мірою несиметричності розподілу. Якщо цей коефіцієнт відрізняється від нуля, розподіл є асиметричним. Щільність нормального розподілу симетрична щодо середнього. Коефіцієнт асиметрії обчислюють за формулою

де – центральний момент третього порядку, – стандартне відхилення, піднесене до третього степеня.

Коефіцієнт ексцесу характеризує «піковиразність» розподілу. Якщо значення ексцесу значно відрізняється від нуля, то функція щільності має або більш закруглений пік, або більш загострений, ніж пік щільності нормального розподілу. Функція щільності нормального розподілу має значення ексцесу, що дорівнює нулю. Ексцес оцінюють за рівнянням

де – центральний момент четвертого порядку; – стандартне відхилення, піднесене до четвертого степеня.

Таблиці частот являють собою найпростіший метод аналізу змінних. Їх часто використовують як одну з процедур розвідувального аналізу, щоб побачити, яким чином дані розподілені у вибірці.

Гістограми є видом графічних зображень розподілу частот вибраних змінних, на яких для кожного інтервалу будують стовпець висотою, пропорційною частоті інтервалу (рис. 1.1).

Важливим способом опису змінної є форма її розподілу, що свідчить про те, з якою частотою значення змінної попадають у певні інтервали, що мають назву «інтервали групування». Часто виникає необхідність визначити, наскільки точно розподіл можна апроксимувати нормальним розподілом. На гістограму накладається крива нормального розподілу.

Нормальний розподіл являє собою одну з емпірично перевірених істин щодо загальної природи дійсності, і його положення можна розглядати як один з фундаментальних законів природи. Розподіл багатьох статистик є нормальним або може бути отриманим з нормального за допомогою деяких перетворень. Точна форма нормального розподілу (характерна "дзвонувата крива") визначається тільки двома параметрами: середнім і стандартним відхиленнями. Характерна властивість нормального розподілу полягає в тому, що 68% всіх його спостережень містяться у діапазоні плюс-мінус одне стандартне відхилення від середнього, а в діапазоні плюс-мінус два стандартних відхилення – 95% значень.

 

 

Рис. 1.1. Гістограма з накладеною кривою нормального

розподілу

 

Гістограма дозволяє візуально оцінити «нормальність» емпіричного розподілу, а також різні його характеристики. На ній можна побачити, що розподіл є бімодальним, тобто має два піки. Асиметрія розподілу з довгим правим «хвостом» є позитивною. Якщо розподіл має довгий лівий «хвіст», то його асиметрія – негативна. Якщо ексцес є позитивним, то пік – загострений, якщо він є негативним – пік закруглений.

Більш точну інформацію про форму розподілу можна одержати за допомогою критеріїв нормальності (наприклад, критерію Колмогорова - Смірнова або W-критерію Шапіро - Уілкса). Критерії доповнюють візуальну перевірку на основі гістограми.

Лабораторна робота № 2

ДОСЛІДЖЕННЯ СТАТИСТИЧНОЇ ЗНАЧУЩОСТІ РОЗХОДЖЕНЬ
У ГРУПАХ

 

Мета роботи: одержати навички аналізу статистичних залежностей у вихідних даних.

Завдання:

1. У модулі «Основні статистики й таблиці» відкрити вихідний файл даних.

2. Виконати статистичний аналіз залежності даних, використавши один з таких методів:

– дисперсійного аналізу;

– аналізу за t-критерієм (незалежні вибірки);

– аналізу за t-критерієм (залежні вибірки).

3. Оформити звіт про виконання роботи, який містить:

– таблиці числових результатів;

– графічні ілюстрації;

– висновки за результатами виконаного статистичного аналізу (характеристику всіх отриманих результатів).

 

Теоретичні відомості

Використання t-критеріюдозволяє порівнювати середні значення у двох групах. Його можна застосовувати навіть у таких випадках, якщо розміри вибірок невеликі (десять одиниць і менше) і якщо змінні нормально розподілені в середині груп, а дисперсії спостережень у групах не є занадто різними.

Критерій застосовують для залежних і незалежних вибірок. При цьому вибирають залежну змінну (їх може бути декілька) і одну групувальну змінну. Основною характеристикою є рівень значущості t-критерію, він має бути менше 0.05 (іноді допускається рівень 0.1). Його значення свідчить про ймовірність помилки гіпотези, що розходження між групами (їх середніми) існують.

Застосування t-критерію для незалежних вибірок.При використанні t-критерію для незалежних вибірок необхідно, щоб вихідні дані мали хоча б одну незалежну змінну (наприклад, стать: чоловік/жінка) і одну залежну змінну (наприклад, тестове значення деякого показника: кров'яний тиск, число лейкоцитів та ін.). За допомогою спеціальних значень незалежної змінної, які називають кодами, дані поділяють на дві групи. Наприклад, можна проаналізувати дані за допомогою t-критерію, який дозволяє порівнювати середнє число лейкоцитів у чоловіків (М) і жінок (W)(табл. 2.1).

Для незалежних вибірок результатом тестування за критерієм є таблиця, де для кожної залежної змінної виводять рядок значень: середні значення в першій і другій групах; значення t-критерію; кількість степенів вільності (n – 2); рівень значущості; кількість одиниць у кожній групі; середні квадратичні відхилення в групах; значення функції розподілу Стьюдента.

Аналіз даних за допомогою t-критерію, порівняння середніх значень і відхилення від середніх величин у групах можна виконувати за допомогою діаграм розмаху (рис. 2.1), які дозволяють візуально оцінити ступінь залежності між групувальною змінною й залежними змінними.

Таблиця 2.1

Приклад вихідних даних незалежних вибірок

№ п.п Стать x
M
M
M
W
W
  Середнє для M = 110 Середнє для W = 103

 

Рис. 2.1. Діаграма розмаху

 

Застосування t-критерію для залежних вибірок.Ступінь розходження між середніми величинами у двох групах залежить від значень внутрішньогрупової дисперсії змінних. Залежно від розходжень внутрішньогрупових дисперсій для кожної групи «різниця» між груповими середніми свідчить про більш сильний або більш слабкий степінь залежності між групувальною змінною й залежними змінними. Наприклад, якщо середнє число лейкоцитів = 102 для чоловіків і = 104 для жінок, то різницю внутрішньогрупових середніх, що дорівнює двум, можна вважати значною, коли всі значення x для чоловіків містяться в інтервалі 101…103, а всі значення x для жінок – в інтервалі 103…105. Однак, якщо ця різниця отримана з широкого діапазону розкиду даних (наприклад, що змінюються в межах від 0 до 200), то цією різницею можна знехтувати.

Таким чином, зменшення внутрішньогрупової варіації (дисперсії)приводить дозбільшення чутливості критерію.

Застосування t-критерію для залежних вибірок доцільно тоді, коли джерело внутрішньогрупової варіації може бути визначено й виключено з аналізу. Це відноситься до двох груп експериментів з однією сукупністю суб'єктів, які підлягали тестуванню двічі. Набір даних, наведених у табл. 2.2, може бути проаналізовано за допомогою t-критерію для залежних вибірок.

 

Таблиця 2.2

Приклад вихідних даних залежних вибірок

№ п.п x “до” x “після”
111.9
80.9
Середня різниця "до" і "після" = 1

 

Дисперсійний аналіз є одним з методів статистичного вивчення залежності результуючої ознаки від ознаки, за якою сукупність розбивається на групи. Цю задачу розв’язують, порівнюючи міжгрупову й внутрішньогрупову дисперсії, розраховані на один степінь вільності. Такі дисперсії називають оцінними. Якщо відношення оцінних дисперсій знаходяться вище теоретичної межі, то можна вважати, що розходження середніх величин за групами значні й існує зв'язок між групувальною і результуючою ознаками.

Розглянемо групування статистичних даних за однією ознакою. При виконанні дисперсійного аналізу як міру варіації ознаки використовують суму квадратів відхилень ознаки від середньої арифметичної, яку називають девіацією.

Припустимо, що існує статистична сукупність, яка складається з k груп, а чисельність i-ї групи дорівнює ni . Тоді статистичні дані можна впорядкувати таким чином:

перша група: ;

друга група: ;

i-та група: ;

k-та група: .,

де , .

Загальну середню позначимо , а середню за групами – . У формулі помножимо обидві частини на n, одержимо розклад девіації у вигляді

.

Загальна девіація ознаки є сумою внутрішньогрупової й міжгрупової девіацій. Для одержання оцінних дисперсій необхідно поділити девіації на відповідні їм числа степенів вільності (табл. 2.3).

 

Таблиця 2.3

Формули для розрахунку оцінних дисперсій

 

Девіація Степінь вільності Оцінна дисперсія
Загальна n – 1
Внутрішньогрупова n - k
Міжгрупова k – 1

 

Критерієм значущості зв'язку між ознакою, покладеною в основу групування, й результуючою ознакою є критерій Фішера, який розраховують за формулою

.

Для нормально розподіленої ознаки визначено теоретичний роз-поділ відношень цих дисперсій. На основі цього розподілу складено таблиці, що дозволяють зробити висновок про гранично високу величину Fтабл критерію F при відповідних рівнях значущості . Якщо F > Fтабл, можна стверджувати, що між групувальною і результуючою ознаками існує взаємозв'язок.

При виконанні лабораторної роботи в модулі «Класифікація і однофакторний дисперсійний аналіз (ANOVA)» вибирають залежні й групувальну змінні. Далі вихідні дані розбивають на дві групи. У результаті дисперсійного аналізу одержують таблицю при заданому рівні значущості, у якій кожній залежній змінній відводиться один рядок. Як приклад такий рядок наведено у табл. 2.4.

Таблиця 2.4

Результат дисперсійного аналізу

Змінна SS Ст. в. MS F SSerror pf MSerror p
Var1 24.0 1.0 24.0 24.0 4.0 4.0 1.0 0. 008

 

Як видно, загальну суму квадратів = 28 (див. табл. 2.4) поділено на компоненти (девіації): суму квадратів SSerror = 4, обумовлену внутрішньогруповою девіацією ( ), і суму квадратів SS =
= 24, обумовлену розходженням середніх значень між групами (міжгруповою девіацією ( )). Міжгрупова оцінна дисперсія MS ( )
у табл. 2.4 – це сума квадратів відхилень SS ( ), поділена на число степенів вільності (k – 1):

,

внутрішньогрупова оцінна дисперсія ( )

Внутрішньогрупову мінливість SSerror (девіацію ) називають залишковим компонентом, або дисперсією помилки.

Перевірка значущості в дисперсійному аналізі полягає у порівнянні дисперсій за допомогою F-критерію, що дозволяє визначити, чи дійсно відношення дисперсій значно більше одиниці:

.

У розглянутому прикладі F-критерій свідчить про те, що розходження між середніми величинами є значущим (на рівні p = 0.008).

 

Лабораторна робота № 3

Теоретичні відомості

Кореляційний аналіз. Кореляція являє собою міру залежності змінних. Найчастіше використовують коефіцієнт кореляції Пірсона r, який називають також лінійним коефіцієнтом, тому що за його допомогою вимірюють ступінь лінійних зв'язків між змінними. Додатне значення коефіцієнта означає, що між змінними є прямий зв’язок, від’ємне – зв’язок обернений, нульове значення – відсутність кореляції (зв’язку).

За допомогою пакета STATISTICA 6.0 можна обчислити й проаналізувати кореляційну матрицю вибраних змінних. Частіше будують квадратну матрицю. При цьому список змінних задають один раз. Кореляції обчислюють для всіх можливих сполучень змінних. Може бути задано прямокутну матрицю. При цьому варто задати список змінних для рядків і стовпців окремо. В отриманій кореляційній матриці кольором виділено значущі коефіцієнти при заданому рівні значущості (p < 0.05).

Після перегляду коефіцієнтів можна побудувати діаграми розсіювання вибраних змінних, на яких видно, як залежності двох змінних відповідають лінійній регресії. При цьому на екрані відображається лінійне рівняння залежності. Кореляцію вважають високою, якщо на графіку залежність можна зобразити прямою лінією, яку називають прямою регресії. Її звичайно будують методом найменших квадратів. Використання квадратів відстаней приводить до того, що оцінювання параметрів прямої залежить від випадкових викидів (які є нетиповими спостереженнями, що різко виділяються). Вони можуть істотно впливати на нахил прямої та значення коефіцієнта кореляції. Використовуючи графічні можливості, можна не враховувати ті точки, які найбільш віддалені від прямої.

Усі графіки розсіювання можна побачити на одному екрані, ви-бравши опцію «Матричний графік».

Якщо величину коефіцієнта кореляції піднести до квадрата, то отримане значення коефіцієнта детермінації r2 є часткою варіації, загальною для двох змінних.

Таблиці спряженості (комбінаційні або таблиці крос-табуляції).Таблиця спряженості відображає залежність між двома ознаками. Кожна таблиця містить частоти появи двох ознак, що набувають кількох значень: для однієї ознаки – це рядки, для іншої – стовпці. Останні стовпець і рядок таблиці – сумарні частоти.

Крос-табуляція – це такий процес об'єднання двох (або декількох) таблиць частот, де кожне поле у побудованій таблиці є комбінацією значень змінних. Дослідивши ці частоти, можна визначити зв'язок між табульованими змінними. Звичайно табулюються номінальні (дискретні) змінні або змінні з невеликим числом значень. Величини, розташовані на краях таблиці спряженості, – це звичайні значення частот розглянутих змінних, їх називають маргінальними.

Окремі рядки й стовпці таблиці зручно подавати у вигляді графіків. Таблиці з двома входами можна зобразити на тривимірній гістограмі. Інший спосіб візуалізації таблиць спряженості – побудова категоріальної гістограми, де кожну змінну відображено у вигляді індивідуальної гістограми на рівні іншої змінної.

У діалоговому вікні результатів можна спостерігати основні статистики для двовхідних таблиць:

1. Критерій хі-квадрат Пірсона називають також лінійною кореляцією, тому що за його допомогою вимірюють ступінь лінійних зв'язків між змінними. Кореляція визначає ступінь, за якою значення двох змінних «пропорційні» одне одному. Додатне значення коефіцієнта означає, що між змінними є прямий зв’язок, від’ємне – обернений зв’язок, нульове значення – відсутність кореляції.

2. Критерій хі-квадрат, отриманий методом максимальної правдоподібності.

3. Виправлення Йєтса.Застосовують у тих випадках, коли таблиці містять тільки малі значення частот (менше десяти) й змінні є незалежними.

4. Точний критерій Фішеравикористовують тільки в таблицях 2x2. Критерій забезпечує обчислення точної ймовірності появи спостережуваних частот при відсутності зв'язку між змінними.

5. Критерій хі-квадрат Макнемаразастосовують, коли частоти являють собою залежнівибірки, наприклад спостереження тих самих індивідуумів до початку експерименту й після нього. Обчислюють два значення хі-квадрата: A/D і B/C, де А – значення верхнього лівого поля таблиці, B – верхнього правого, C – нижнього лівого; D – нижнього правого.

6. Коефіцієнт фі-квадрат.

7. Тетрахорична кореляція.

8. Коефіцієнт спряженості.

9. Коефіцієнт r-Спірмена відповідає кореляції Пірсона, але обчислюють його за рангами. Змінні вимірюють за порядковою шкалою.

10. Статистика тау-Кендала (τ)основана на ймовірності. Перевіряють, чи є розходження між імовірністю того, що спостережувані дані стосовно двох величин розташовано в заданому порядку, і ймовірністю, що їх розміщено в іншому порядку. Звичайно обчислюють два варіанти статистики тау-Кендала: і , які розрізняються тільки способом оброблення збіжних рангів. Якщо виникають розходження, то розглядають найменше з двох значень.

11. Коефіцієнт d-Сомера.

12. Гамма-статистика.

13. Коефіцієнти невизначеності.

 

Лабораторна робота № 4

Теоретичні відомості

Загальне призначення множинної регресії полягає в аналізі зв'язку між декількома незалежними змінними, що називаються також регресорами, або предикторами, й залежною змінною.

Пряму лінію для двох змінних задають рівнянням

Y = b0 + b1X ,

де X – незалежна змінна, Y – залежна змінна, b0 – вільний член рівняння, b1 –кутовий коефіцієнт, що називають регресійним.

Використавши отримане рівняння, можна розрахувати окремі значення залежної змінної.

На рис. 4.1 показано довірчий інтервал (90, 95 і 99%), побудований для двовимірного регресійного рівняння.

 

Рис. 4.1. Графік розсіювання з регресійною прямою
та 95%-ним довірчим інтервалом

 

Звичайно існує розкид спостережуваних точок щодо пригнаної прямої. Відхилення точки від завбаченого значення називають залишком (або помилкою).

Рівняння лінійної множинної регресії має вигляд

,

де X1 Xp – незалежні змінні, Y – залежна змінна, b0 – вільний член рівняння, b1 … bpрегресійні коефіцієнти.

У множинній регресії припускають, що залишки підпорядковуються закону нормального розподілу. Регресійні коефіцієнти визначають, наскільки кожна незалежна змінна обумовлює прогнозування залежної змінної. Таку кореляцію називають частковою. Якщо зв'язок між змінними X і Y відсутній, то відношення залишкової мінливості змінної (дисперсії залишків) Dε до вихідної дисперсії Dy дорівнює одиниці. Коефіцієнт детермінації, що визначає ступінь залежності змінних, розраховують за формулою

Якщо нелінійність зв'язку є очевидною, то необхідно перетворити змінні. Варто використати, принаймні, від 10 до 20 спостережень за кожною змінною, у протилежному випадку оцінювання регресійної лінії буде неточним.

Проблема мультиколінеарності є загальною для багатьох методів кореляційного аналізу. Ця проблема може виникнути, якщо аналізу підлягає багато змінних. У цьому випадку змінні використовувати недоцільно, тому що дані будуть надлишковими. Існують статистичні індикатори надмірності (толерантність, напівчастне та ін.), а також способи для боротьби з надмірністю (наприклад, метод гребеневої регресії).

 

БІБЛІОГРАФІЧНИЙ СПИСОК

1. Бережная Е.В. Математические методы моделирования экономических систем: учеб. пособие / Е.В. Бережная, В.И. Бережной. –
М.: Финансы и статистика, 2001. – 268 с.

2. Боровиков В.И. STATISTICA: искусство анализа данных на компьютере / В.И. Боровиков. – СПб.: Питер, 2001. – 656 с.

3. Боровиков В.П. STATISTICA – Статистический анализ и обработка данных в среде Windows / В.П. Боровиков, И.П. Боровиков. – М.: Филинъ, 1998. – 608 с.

4. Вентцель Е.С. Теория вероятностей: учеб. пособие /
Е.С. Вентцель, Л.А.Овчаров. – М.: Наука, 1973. – 368 с.

5. Елисеева И.И. Общая теория статистики / И.И. Елисеева,
М.М. Юзбашев. – М.: Финансы и статистика, 1996. – 234 с.

6. Кулинич О.І. Теорія статистики: підруч. / О.І. Кулинич. – 2-ге вид. – К.: Держ. центр.-укр. вид-во, 1996. – 228 с.

7. Малеева О.В. Статистический анализ данных: учеб. пособие / О.В. Малеева, О.В. Максименко. – Х.: Нац. аэрокосм. ун-т «Харьк. авиац. ин-т», 2003. – 57 с.

8. Малеева О.В. Методы статистического анализа в задачах управления: учеб. пособие / О.В. Малеева, М.М. Митрахович,
М.И. Луханин. – Х.: Нац. аэрокосм. ун-т «Харьк. авиац. ин-т», 2002. – 100 с.

9. Боярский А.Я. Общая теория статистики: учеб. пособие /
А.Я. Боярский, Г.Л. Громыко; под ред. А.Я. Боярского. – М.: Изд-во Моск. ун-та, 1977. – 327 с.

10. Ряузов Н.Н. Общая теория статистики / Н.Н. Ряузов. – М.: Статистика, 1984. – 343 с.

11. Федорович О.Е. Вероятностно-статистические методы в информационно-управляющих системах: учеб. пособие / О.Е. Федорович, О.В. Малеева, Н.В. Нечипорук. – Х.: Нац. аэрокосм. ун-т «Харьк. авиац. ин-т», 2005. – 209 с.

 

 


 

Лабораторна робота № 1

РОБОТА З ФАЙЛАМИ ВИХІДНИХ ДАНИХ.

© 2013 wikipage.com.ua - Дякуємо за посилання на wikipage.com.ua | Контакти