ВІКІСТОРІНКА
Навигация:
Інформатика
Історія
Автоматизація
Адміністрування
Антропологія
Архітектура
Біологія
Будівництво
Бухгалтерія
Військова наука
Виробництво
Географія
Геологія
Господарство
Демографія
Екологія
Економіка
Електроніка
Енергетика
Журналістика
Кінематографія
Комп'ютеризація
Креслення
Кулінарія
Культура
Культура
Лінгвістика
Література
Лексикологія
Логіка
Маркетинг
Математика
Медицина
Менеджмент
Металургія
Метрологія
Мистецтво
Музика
Наукознавство
Освіта
Охорона Праці
Підприємництво
Педагогіка
Поліграфія
Право
Приладобудування
Програмування
Психологія
Радіозв'язок
Релігія
Риторика
Соціологія
Спорт
Стандартизація
Статистика
Технології
Торгівля
Транспорт
Фізіологія
Фізика
Філософія
Фінанси
Фармакологія


АНАЛИЗ ВЗАИМОСВЯЗЕЙ НОМИНАЛЬНЫХ ПРИЗНАКОВ С ПОМОЩЬЮ ТАБЛИЦ СОПРЯЖЕННОСТИ

Иногда измерения двух исследуемых признаков производятся в номинальной шкале, т.е. в шкале классификаций. Например, учащихся можно классифицировать по полу, а также по специальности: гуманитарий или естественник. В этом случае информация может быть представлена в виде таблицы, которая получила название таблица сопряженности. Для ее построения сначала выясняем, сколько уровней содержит тот или иной признак. Пусть первый признак имеет Iуровней, а второй признак - J. В этом случае таблица сопряженности имеет следующий вид:

  Признак 2 Итого по строкам
Признак 1 f11 f12 f1J f1
f21 f22 f2J f2
fI1 fI2 fIJ fI
Итого по столбцам f 1 f 2 f J f n

В этой таблице клетки называются ячейками, а числа, стоящие в ячейках – частотами.
Предположим, что всего у нас имеется n объектов (лиц). Частота fij означает, что среди n–исходных лиц имеется fij, для которых первый признак соответствует i-ому уровню, второй - j-тому уровню. Рассмотрим классификацию 120 людей по полу и политической принадлежности:

  Демократическая партия Республиканская Независимая Итого по строкам
Муж.
Жен.
Итого по столбцам n=120

Таблицы сопряженности используются для проверки независимости двух рассматриваемых номинальных признаков (отсутствие или наличие влияния). Для решения такой задачи воспользуемся общей схемой проверки статистической гипотезы (5 этапов).

1. этап. Выдвигаются две гипотезы: основная нулевая Н0 о том, что два рассматриваемых признака являются независимыми и альтернативная Н1 о том, что эти два признака являются зависимыми.

2 этап. Выбираем уровень значимости .
3 этап. Вычисляем наблюдаемое значение статистики критерия по следующей формуле:
2 I J 2
набл. = n [ fij : fi fj - 1]
i=1j=1
4 этап. Находим критическое значение статистики критерия. В
2
нашем случае статистика критерия имеет - распределение с числом степеней свободы = (I – 1) (J – 1). Поэтому для нахождения критического
2 2
значения кр необходимо воспользоваться статистической таблицей -
распределения. Находим столбец, соответствующий величине 1 - (если таблицы называются квантили распределения) или величине (если таблицы называются верхние %-ные точки) и строку, соответствующую числу степеней свободы . На пересечении выбранных строки и столбца и
2
находится требуемое нам кр.
5 этап. Делаем вывод о правильности той или иной гипотезы по
2 2
следующему правилу: 1) если набл < кр, то принимается гипотеза Н0, т.е. делаем вывод о том, что два рассматриваемых признака являются независимыми или, другими словами, один признак не влияет на другой. 2)
2 2
если же набл > кр, то принимается гипотеза Н1, т.е. делаем вывод о том, что два рассматриваемых признака являются зависимыми на уровне значимости или, другими словами, один признак влияет на другой.

Примечание. Уровни признака не должны пересекаться, т.е. один и тот же объект в таблице сопряженности должен попадать только в какую-либо одну ячейку.
Достоверные выводы получатся, если в каждой ячейке частота не меньше 5 fij > 5.
Пример: проведем проверку независимости между политической принадлежностью и полом для исходных данных, приведенных в начале параграфа.
Решение. I = 2; n = 120
J = 3; = 0,01
2 2 2 2 2
набл = 120 [ 29 : 80 43 + 36 : 80 60 + 15 : 80 17 + 14 : 43 40 + 24 : 40 60
2
+ 2 : 40 17 – 1 ] = 4,776
= (2 – 1) (3 – 1) = 2
2
кр = 9,21 – находим из таблицы

Так как набл > кр, то делаем вывод о том, что сдача зачета зависит от специализации.

ОДНОФАКТОРНЫЙ АНАЛИЗ (ОФА)

При исследовании зависимости одной из наиболее простых является ситуация, когда можно указать только один фактор, влияющий на конечный результат, причем этот фактор имеет только конечное число значений (уравнений). Такие задачи называются задачами однофакторного анализа и могут встречаться на практике.
Например, сравнение по достигнутым результатам нескольких способов действия, направленных на достижение одной и той же цели (учебники, лекарства).
То, что должно оказать влияние на конечный результат, называется фактором или факторами. Конкретную реализацию фактора называют уровнем фактора или способом обработки (конкретный учебник или конкретное лекарство). Значение измеряемого признака, т.е. величину результата, обычно называют откликом.
Для сравнения влияния фактора на отклик необходим исходный статистический материал. Его обычно получают следующим образом: каждый из способов обработки применяют несколько раз (необязательно одинаковое число). Применяем к исследуемым объектам и регистрируем полученные результаты. Итогом таких испытаний являются несколько выборок не обязательно одинакового объема. Наиболее распространенным способом представления исходных данных для факторного анализа является таблица. В зависимости от количества факторов, говорят, что данные представлены в таблице с одним – двумя и т.д. входами.

Уровни фактора к
Результаты измерений (отклик) х11 (1 строка и 1 столбец) х12   х1к
х21 (2 строка и 1 столбец) х22   х2к
xn11 xn22 хnкк

1 класс 1 2 класс 2 к
по 1 учебнику по 2 учебнику

n1 + n2 + … + nк = n (общее количество наблюдений (людей)).
Зависимости от объема выборки нет.

Стратегия анализа.
Одной из главных конечных целей в задачах ОФА является оценка величины влияния конкретного уровня фактора на изучаемый отклик. Иногда эту задачу можно сформулировать в форме сравнения двух или нескольких уровней фактора между собой.
Однако, прежде чем судить о количественном влиянии фактора на отклик, необходимо сначала выяснить, есть ли такое влияние вообще.
На статистическом языке эта задача означает, что все исходные данные принадлежат одному и тому же распределению. Обычно эту гипотезу выбирают в качестве основной нулевой Н0. Для проверки этой гипотезы могут быть использованы различные статистические критерии: как традиционные, которые требуют нормального распределения исходных данных, так и непараметрические, не требующие такого предположения (Excel Стьюдент).
Если нулевая гипотеза об отсутствии влияния фактора на отклик отвергается, то необходимо провести оценку влияния уровней фактора на отклик. На этом этапе важным является вопрос точности и достоверности полученных оценок.
Если же критерий не позволяет отвергнуть Н0 от отсутствия влияния фактора на отклик, то на этом анализ может быть завершен. Но иногда вывод об отсутствии влияния фактора на отклик нас не может устроить, т.к. он противоречит теоретическим предпосылкам или результатам предыдущих исследований. В этой ситуации следует выяснить, нет ли каких-либо еще факторов, влияющих на отклик. Может быть, влияние фактора не удалось обнаружить вследствие того, что это влияние не заметно на фоне различий, вызванных действием неучтенного фактора.
Можно проводить сравнения между собой только двух уровней фактора с помощью методики проверки статистических гипотез (сравнение средних значений), рассмотренных в параграфах 15 – 18. Это сравнение может показать, какие уровни фактора являются наиболее влиятельными.

ОДНОФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ (ОДА)

Наиболее часто при проведении ОФА рассматривают и анализируют дисперсию, поэтому совокупность таких методов носит название – ОДА.
Однако ОДА может применяться лишь при следующих предположениях:

1. Исходные данные должны представлять собой случайные выборки.

2. Эти выборки должны быть извлечены из нормально распределенных ГС.

3. Эти ГС должны иметь одинаковые дисперсии.

4. Все выборки исходных данных, т.е. столбцы таблицы, должны быть статистически независимыми.

При проведении ОДА для получения расчетных формул предполагалось, что исходные данные подчиняются линейной аддитивной (сложение) модели следующего вида:
хij = М + i + eij, где M – величина, отражающая некоторый средний уровень отклика. Она является одинаковой для всех данных одной таблицы; j – величина, отражающая влияние j-го уровня факторов. Она является одинаковой для элементов j-го столбца; eij – случайная ошибка модели. Для каждого исходного наблюдения она различна; xij – исходное наблюдение, соответствующее значению отклика для i-го человека при j-ом уровне факторов.
В результате такой модели исходная задача выяснения наличия или отсутствия влияния фактора на отклик сводится к проверке следующих статистических гипотез:
Н0: 1 = 2 = … = k о том, что нет влияния фактора на отклик и
Н1 о том, что хотя бы одно из j отлично от других, т.е. есть влияние фактора на отклик.
Для проверки этих статистических гипотез используется F-критерий Фишера, который является достаточно громоздким, поэтому рассмотрим компьютерный вариант проведения ОДА.
Для его проведения используется раздел «ОДА» пакета анализа данных, имеющегося в Excel. Для этого необходимо сначала ввести исходные данные на рабочий лист в виде таблицы. После этого вызывается раздел ОДА и указываются необходимые параметры.
В результате работы данных раздела полученные результаты ОДА представляются в виде следующих двух таблиц:

Однофакторный дисперсионный анализ. Итоги.

Группы Счет Сумма Среднее Дисперсия
Столбец 1 Столбец 2 Столбец 3 * * * *

* (число) – это количество наблюдений в соответствующем столбце; сумма – это сумма элементов соответствующего столбца; среднее – это среднее значение элементов соответствующего столбца; дисперсия – это дисперсия элементов соответствующего столбца. ANOVA1 – однофакторный анализ; ANOVA2 – двухфакторный анализ; ANALYSIS OF VARIANCE – анализ дисперсий.
ANOVA

Источник вариации SS df MS F P-значение F-критическое
Между группами * * * * * *
Внутри групп * * *      
Итого * *        

SS – сумма квадратов; df - степени свободы; MS – средний квадрат; F – наблюдаемое значение статистики критерия (Fнабл).
По результатам, приведенным в таблице, мы должны сделать вывод о наличии или отсутствии влияния фактора на отклик. Для этого можно воспользоваться двумя способами:
1 способ. Для этого сравниваем две величины F и Fкр, если F < Fкр, то делаем вывод о том, что нет влияния фактора на отклик; если F > Fкр, то делаем вывод о том, что есть влияние фактора на отклик.
2 способ. Для этого сравнивают две величины Р-значения и уровень значимости (который задается в качестве исходного параметра). (В компьютере 0,05 – по умолчанию). Если Р > , то делаем вывод, что нет влияния фактора на отклик; если же Р < , то есть влияние факторов на отклик.

ДВУХФАКТОРНЫЙ АНАЛИЗ

Двухфакторный анализ предполагает, что на отклик могут влиять два фактора, каждый из которых принимает конечное число значений (уровней) и интересуется тем, как влияют эти факторы на изучаемый отклик и влияют ли они вообще.
Такие задачи характерны как для психологических экспериментов, так и для других гуманитарных исследований (ближе социологам и психологам).
Бывает, что в рамках однофакторной модели, рассмотренной в параграфе 29, влияние интересующего нас фактора на отклик не проявляется, хотя содержательные соображения указывают на то, что такое влияние должно быть.
Причиной такого является большой разброс внутри группы, на фоне которого действия фактора на отклик является незаметным. Очень часто этот разброс может вызываться не только случайными причинами, но и действием еще одного фактора (учебник – учитель). Если мы в состоянии указать такой фактор, то его стараются включить в модель и таким образом переходят к двухфакторной модели.
Иногда приходится рассматривать модели и более высокого порядка – трехфакторную и т.д. В некоторых случаях факторы делят на важные и мешающие, но это совсем не обязательно. В ряде задач факторы могут быть содержательно равноправны.
Эти нюансы мало влияют на статистические модели. Они могут сказаться только на постановке вопросов и интерпретаций ответа.
В практических ситуациях вполне возможен переход не только от однофакторной модели к двухфакторной, но и наоборот. Если при решении двухфакторного анализа вдруг окажется, что влияние одного из факторов не существенно, то задача сведется к однофакторной.
Исходные данные.
Для проведения двухфакторного анализа исходные данные также представляются в виде таблицы. Предположим, что фактор А имеет k уровней, а фактор В имеет n уровней. k – 2, т.к. девочки и мальчики; n - 3, т.к. 3 уровня соц. ст. высокий, средний, низкий.
Говорят, что фактор В разбивает все объекты наблюдений на n блоков, каждый из которых состоит из наблюдений, проведенных для одного уровня фактора. Внутри каждого блока отклики могут сильно различаться, только за счет различных уровней фактора А.
Уровни фактора А отображаются в таблице исходных данных по столбцам, а уровни фактора В по строкам. В результате таблица исходных данных для двухфакторного анализа может иметь следующий вид:

  Фактор А
Фактор В уровни блоки 1 (мальч.) 2 (дев.) k
1 (выс.) x11 x12 x1k
2 (ср.) x21 x22 x2k
n xn1 xn2 xnk

В качестве хij в таблицу заносятся значения отклика. Такая таблица, в каждой ячейке которой находится только одно значение отклика, называется таблицей двухфакторного анализа без повторений.
Если же в каждой ячейке таблицы исходных данных находится несколько значений, то такая таблица называется таблицей двухфакторного анализа с повторениями.
Основной задачей двухфакторного анализа является выяснение вопроса о том, есть ли влияние каждого фактора на отклик. Однако в случаях двухфакторного анализа может оказаться, что по отдельности факторы на отклик не влияют, но имеется влияние в результате взаимодействия этих двух факторов между собой.

ДВУХФАКТОРНЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ (ДДА)

Наиболее распространенным способом проведения двухфакторного анализа является анализ дисперсии. Также как и ОДА в случае ДДА для получения расчетных формул статистиками использовалась линейная аддитивная модель, но следующего вида:
хij = M + j + i + ( )ij + eij, где xij; M; j; eij см. параграф 30; i – величина, отражающая степень влияния i-того уровня фактора В. Она является одинаковой для элементов i-той строки; ( )ij – величина, отражающая степень влияния на отклик в результате взаимодействия i-того уровня фактора В и j-того уровня фактора А.
Такая модель сводит задачу выяснения влияния фактора на отклик к задаче проверки следующих трех пар статистических гипотез:
1) Н0: 1 = 2 = … = k. Нет влияния фактора А на отклик.
Н1: j (хотя бы одно j отлично от других). Есть влияние фактора А на отклик.
2) Н0: 1 = 2 = … = n. Нет влияния фактора В на отклик.
Н1: j (хотя бы одно i отлично от других). Есть влияние фактора В на отклик.
3) Н0: ( )ij. Все ( ) ij одинаковы. Нет влияния на отклик в результате взаимодействия факторов А и В.
Н1: ( )ij (хотя бы одно ( ) ij отлично от других). Есть влияние на отклик в результате взаимодействия факторов А и В.
Рассмотрим пример. Для проверки этих гипотез используются разделы «ДДА без повторений» и «ДДА с повторениями» пакеты анализа данных Excel. Результаты расчета приводятся в двух таблицах аналогичных ОДА. Итоги.

Группы Счет Сумма Среднее Дисперсия
Строка 1 (в.) * * * *
Строка 2 (с.) * * * *
Строка 3 (н.) * * * *
         
Столбец 1(м.) * * * *
Столбец 2 (д.) * * * *

После того, как делается вывод, что есть влияние среднее
ANOVA

Источники вариации SS df MS F P-значение F-критерий
А строки * * * * * *
В столбцы * * * * * *
Погрешность * * *      
Итого * *        

Вывод о наличии либо отсутствии влияния соответственного фактора на отклик делается по такому же правилу, что и в случае ОДА (см. параграф 30 оба способа).
Для фактора А берется информация из строки с названием столбцы. А для фактора В из строки с названием строки.
Эти таблицы для случая «ДДА без повторений». В этом случае взаимодействие факторов А и В не рассматривается, т.к. в каждой ячейке таблицы исходных данных находится только одно число, что не позволяет вычислить дисперсию.
Итоговые таблицы для раздела «ДДА с повторениями» аналогичны, только в таблице ANOVA появляется дополнительная строка (взаимодействия).

© 2013 wikipage.com.ua - Дякуємо за посилання на wikipage.com.ua | Контакти