ВІКІСТОРІНКА
Навигация:
Інформатика
Історія
Автоматизація
Адміністрування
Антропологія
Архітектура
Біологія
Будівництво
Бухгалтерія
Військова наука
Виробництво
Географія
Геологія
Господарство
Демографія
Екологія
Економіка
Електроніка
Енергетика
Журналістика
Кінематографія
Комп'ютеризація
Креслення
Кулінарія
Культура
Культура
Лінгвістика
Література
Лексикологія
Логіка
Маркетинг
Математика
Медицина
Менеджмент
Металургія
Метрологія
Мистецтво
Музика
Наукознавство
Освіта
Охорона Праці
Підприємництво
Педагогіка
Поліграфія
Право
Приладобудування
Програмування
Психологія
Радіозв'язок
Релігія
Риторика
Соціологія
Спорт
Стандартизація
Статистика
Технології
Торгівля
Транспорт
Фізіологія
Фізика
Філософія
Фінанси
Фармакологія


Распределения респондентов по типу рабочих мест, полученные путем интервью и почтового опроса

Массивы Тип рабочего места по характеру труда
Физический труд Умственный труд
Неквалифицированный Низко квали-фицированный Средней квалификации Высокой квалификации Не требующий высшего и среднего образования Требующий среднего специального образования Требующий высшего образования
Интервью (901 чел.)
«Отремонтированный» почтовый (2459 чел.)

 

Таким образом, и т.д.

Получаем следующее теоретическое распределение (с округлением до целых): 117, 117, 431, 390, 292, 328, 783. Сумма их будет уже не 901, а приблизительно 2459. По формуле (II,1,3): χ2=11,1. Эта величина больше, чем рассчитанная ранее, но меньше 12,459 — критического значения для шести степеней свободы (т.е. различие незначимо). Как видим, результат зависит от формулировки проверяемой гипотезы (вопросы проверки гипотез подробнее будут рассмотрены в гл. V).

2. Коэффициенты, связанные с χ2 (таблицы k x l)

Прежде чем перейти к коэффициентам, базирующимся на критерии χ2 Пирсона, приведем соотношение, которое понадобится нам в дальнейшем. Если учесть, что по опре-

 

[80]

 

делению то из (II,1,1), возводя в квадрат числитель и расписывая выражение на три суммы, получаем:

(II,2,1)

Если связь функциональная (т.е. каждому х соответствует одно вполне определенное значение у),то без ограничения общности можно считать, что корреляционная таблица должна иметь диагональный вид. Пусть для определенности k<l, тогда и так как N(xi)=N(yj), то . Теперь просто найти χ2max.Подставляя в (II,2,1) получаем: . При k>l аналогично . Таким образом,

(II,2,2)

где min(k – 1, l – 1) обозначает наименьшее из двух чисел: (k – 1) и (l – 1). (Отсюда, кстати, очевидно и определение величины max(k – 1, l – 1), которая будет использована в дальнейшем).

Как мы видели, χ2 — мера различия между эмпирической и теоретической таблицами, приходящаяся на все N объектов наблюдения.

Мера различия, приходящаяся на одно наблюдение, называется средней квадратической сопряженностью и обозначается φ2: .

Как и χ2, 0 ≤ φ2 < ∞; отсутствие верхней границы у φ2 не вполне удобно для коэффициента, характеризующего связь между признаками: обычно предпочтение отдают коэффициентам, принимающим значения между 0 и 1 (либо -1 и 1).

Пирсон предложил рассматривать величину

(П,2,3)

которая получила название коэффициента средней квадратической сопряженности Пирсона.

Легко видеть, что С=0 в случае отсутствия связи. В самом деле, при этом χ2=0, следовательно φ2=0 и С=0. Чем больше связь между признаками, тем больше С.

 

[81]

 

Но максимальное значение С не достигает 1. Чтобы устранить этот недостаток, целесообразно перейти к , где Стахзначение С при функциональной связи. Из (II,2,2) следует, что

Если таблица диагональная (k = l), то .

Прежде чем рассмотреть пример расчета χ2, перепишем (II,2,1) с учетом выражения через маргиналы в виде:

(II,2,1a)

Пример 15. Для таблицы 20 рассчитать χ2. По формуле (II,2,1 а) получаем

Как видим, даже для таблицы эта формула удобнее, чем (II,1,1) и (II,1,2), так как не требует оперирования большими числами, ею целесообразно пользоваться в подавляющем большинстве случаев.

Пример 16. Для данных таблицы 18 примера 14 рассчитать С, Сmах, С’. Так как χ2=52, получаем:

C=0,221; ; C’=0,271.

Упражнение 31. По данным примера 13 рассчитать С, Сmах, C’. Ответ: 0,375; 0,816; 0,460.

Как мы видели, коэффициент, введенный Пирсоном, не может достигать 1. В свое время Чупров, стремясь исправить этот недостаток, предложил другой коэффициент, базирующийся на χ2:

(П.2,4)

Коэффициент Чупрова достигает максимального значения +1 в случае полной связи, но только при k=l.

 

[82]

Упражнение 32, Рассчитать Т для полной связи при k=l. Указание: использовать (II,2,2).

Упражнение 33. По данным примера 14 вычислить коэффициент Чупрова для признаков удовлетворенность работой и удовлетворенность заработной платой (молодые рабочие). Заметим, что так как таблица квадратная, использование Т вполне корректно. Ответ: 0,160.

Упражнение 34. То же для таблицы 19 (рабочие старших возрастных групп). Ответ: 0,078.

Сопоставим результаты двух последних упражнений. Как было ранее установлено, в обоих случаях связь между признаками есть, но можно ли сказать, в каком случае она больше? По-видимому, да: у молодых работников Т больше, чем у работников более старших возрастных групп. Справедливость этого предварительного вывода в дальнейшем будет «подкреплена» с помощью различных других показателей.

Продолжим рассмотрение Т. При k≠l Ттах<1. Этот недостаток можно преодолеть так же, как и в случае С. Введем, следуя Крамеру, коэффициент . Чтобы найти явное выражение Тс, вычислим Ттах. Для этого воспользуемся (II,2,2) с учетом того, что (k—1)(l—1)=min(k—1, l—1) max(k—1, l—1). Теперь (II,2,4) после простых преобразований дает:

(Обратим внимание, что при выводе формулы для Ттах и Тc, в изданном у нас переводе книги М. Кендалла и А. Стыоарта[46] допущена неточность: в обеих формулах приведен корень второй, а не четвертой степени).

Упражнение 35. По данным таблицы 22 рассчитать Т и Тс. Ответ: 0,019; 0,029. Тс≥Т, причем равенство достигается при k=l. Коэффициент Тс называют коэффициентом Крамера, или обобщенным коэффициентом Чупрова. Тс существенно отличается от Т для «вытянутых» таблиц.

Об использовании этих коэффициентов для факторного анализа связей между признаками и сопоставлении результатов, полученных при применении Т и Тс, см. главу VI.

 

[83]

 

Значения χ2 и, следовательно, всех производных коэффициентов (φ2, С, Т) не чувствительны к последовательности значений xi и уj. Это дает возможность применять указанные меры даже для классификационных признаков, т.е. при самом слабом уровне измерения.

Для того чтобы выводы, получаемые при использовании обсуждаемых мер, были надежны, необходимо выполнение ряда условий. Как отмечают Дж.Юл и М.Кендалл[47], теоретические частоты не должны быть меньше определенного минимума, в качестве которого они рекомендуют принять 10, полагая, что «предельный минимум» равен 5. Если в некоторых клетках теоретические частоты меньше, чем 5, нужно произвести объединение строк или столбцов. Общее число наблюдений N должно быть достаточно большим. Хотя трудно точно назвать его минимум, обычно доверяют результатам, если N не меньше 100 (конечно, если, скажем, k=5, а l=4, следовательно, число клеток 20, то N должно быть примерно равным 200, чтобы ).

Значимость С и Т определяется по значимости χ2: если значим χ2, то значимы и производные коэффициенты.

3. Таблицы 2 × 2. Коэффициенты ассоциации и контингенции, их связь с коэффициентами для таблицk ×l

Продолжим изучение коэффициентов, основанных на принципе совместного появления событий, обратившись к более простым ситуациям, чем раньше. Это позволит, в частности, лучше понять предыдущий материал, уяснить качественную основу его. Кроме того, мы изучим связи между новыми и уже рассмотренными коэффициентами. И, наконец, последующее изложение будет своеобразной «передышкой» для читателя, впервые столкнувшегося с изучением статистического материала. (Такому читателю будет полезно после изучения этого параграфа вернуться к предыдущим).

Оба коэффициента, о которых будет идти речь, применимы лишь к таблицам , т.е. в случае, когда данные сгруппированы дихотомически (табл. 23).

Напомним, что N12, например, число индивидов, у которых X=х1 и Y=y2, N(y2) — число индивидов с Y=y2 и любым X, а N — объем изучаемой совокупности.

 

[84]

 

Для того чтобы перейти к рассмотрению связи, начнем с примера. Допустим, что нужно изучить связь между удовлетворенностью профессией —Y (у1удовлетворен, у2не удовлетворен) и фактической производительностью труда X (x1высокая, х2низкая). Часто приходится слышать утверждения типа: «Если удовлетворен профессией, то и производительность высокая». К таким посылкам и выводам обычно не придираются, считая их очевидными, не требую-

Таблица 23

Общий вид таблицы 2 × 2

X Y N(xi)
y1 y2
x1 N11 N12 N(x1)
x2 N21 N22 N(x2)
N(yj) N(y1) N(y2) N

щими доказательства. Однако с подобными суждениями нельзя согласиться.

Как отмечалось, социальные явления многофакторны, а реальные связи далеки от тривиальности. Высокая производительность труда может соответствовать и высокой, и низкой удовлетворительности профессией (и наоборот). Речь идет пока об индивидуальных фактах. Что же касается статистических, изучением которых и занимается социолог, то здесь результат существенно определяется конкретной ситуацией, совокупностью многих условий жизнедеятельности. На разных совокупностях связь может быть разной — истина всегда конкретна. Заметим, что любой результат можно легко «объяснить», схватившись за один (подходящий) из множества влияющих факторов. Именно так легкомысленно поступают те, кто, узнав результат, говорят: «Это и так ясно, что тут исследовать?». Очевидно, необходимо уметь отличать общие рассуждения (и догадки!) от научно установленных фактов, даже если они относительно легко интерпретируются. Только такое знание может стать основой научных выводов, тем более — практических рекомендаций.

Пусть N=100 и 50 человек удовлетворены, а 50 — не удовлетворены профессией, у 20 — высокая, а у 80 — низкая производительность труда, т.е. корреляционная таблица

 

[85]

 

имеет вид (приведены только суммы частот, т.е. маргиналы):

X Y N(xi)
y1 y2
x1    
x2    
N(yj)

 

Пока мы знаем лишь маргиналы и не знаем, как распределены индивиды по клеткам таблицы, ничего нельзя сказать о связи. Информацию о ней несут только внутриклеточные частоты: лишь тогда, когда нам известны частоты совместного появления признаков, можно судить о связи.

Таблица 24

© 2013 wikipage.com.ua - Дякуємо за посилання на wikipage.com.ua | Контакти