РЕПРЕЗЕНТАТИВНАЯ ТЕОРИЯ ИЗМЕРЕНИЙ И ЕЕ ПРИМЕНЕНИЯ
Репрезентативная теория измерений (РТИ) согласно принятой в обзоре [1] классификации научных направлений является одной из составных частей статистики объектов нечисловой природы. Основные понятия этой теории и некоторые ее применения рассматривались в обзорах [1,2], в которых приведено также большое количество ссылок на публикации по этой тематике. Нас РТИ интересует прежде всего в связи с развитием теории и практики экспертного оценивания, в частности, в связи с агрегированием мнений экспертов, построением обобщенных показателей и рейтингов, поэтому в обзоре [3] и указанной там литературе проблемам РТИ уделяется большое внимание.
Мнения экспертов часто выражены в порядковой шкале, т.е. эксперт может сказать (и обосновать), что один показатель качества продукции более важен, чем другой, первый технологический объект более опасен, чем второй, и т.д., но не в состоянии сказать, во сколько раз или на сколько более важен, соответственно, более опасен. Экспертов часто просят дать ранжировку объектов экспертизы, т.е. расположить их в порядке возрастания (или убывания) интенсивности интересующей организаторов экспертизы характеристики. Формально ранги выражаются числами 1, 2, 3, ..., но с этими числами нельзя делать привычные арифметические операции. Например, хотя 1 + 2 = 3, но нельзя утверждать, что для объекта, стоящем на третьем месте в упорядочении, интенсивность изучаемой характеристики равна сумме интенсивностей объектов с рангами 1 и 2. Так, один из видов экспертного оценивания - отметки учащихся, и вряд ли кто-либо будет утверждать, что знания отличника равны сум ме знаний двоечника и троечника (хотя 5 = 2 + 3), хорошист соответствует двум двоечникам (2+2 = 4), а между отличником и троечником такая же разница, как между хорошистом и двоечником (5 - 3 = 4 - 2). Поэтому очевидно, что для анализа подобного рода качественных данных необходима теория, дающая базу для разработки, изучения и применения конкретных методов расчета. Это и есть РТИ.
В настоящее время термин "теория измерений" применяется для обозначения классической метрологии, РТИ (книга И.Пфанцагля [4] неосторожно названа "Теория измерений"), некоторых других направлений, например, алгоритмической теории измерений [5]. Иногда это многообразие смыслов одного и того же термина "теория измерений" вызывает ненужные споры. Поэтому весьма уместна опубликованная в настоящем номере "Заводской лаборатории" статья Ю.Н. Толстовой [6], посвященная истории РТИ (в [6], в частности, разъяснен термин "репрезентативная"). Однако она написана доктором социологических наук, и целесообразно увязать ее содержание с привычными для читателей "Заводской лаборатории" задачами, показать пользу РТИ, а также раскрыть наш взгляд на историю и содержание РТИ, несколько отличающийся от представленного в статье [6].
О развитии РТИ в СССР
Сначала эта теория развивалась как теория психофизических измерений. Основоположник РТИ С.С.Стивенс основное внимание уделял шкалам измерения [7]. Характерно, что следующий сборник назывался "Психологические измерения", т.е. расширял сферу применения РТИ, а в основной статье [8] в этом сборнике под названием, обратите внимание, "Основы теории измерений", упор сделан на гомоморфизмах эмпирических систем с отношениями в числовые, в связи с чем математическая сложность изложения возросла.
В одной из первых отечественных работ по РТИ [9] было установлено, что баллы, присваиваемые экспертами при оценке, как правило, измерены в порядковой шкале. Отечественные работы, появившиеся в начале 70-х годов, привели к расширению области применения РТИ: Г.А.Сатаров [10] применял теорию измерений к педагогической квалиметрии, В.Б.Кузьмин и С.В.Овчинников [11] - в системных исследованиях, мы [12] - в теории экспертных оценок и для агрегирования показателей качества, Ю.Н.Толстова [13,14] - в социологических исследованиях, и др.
Перевод книги И.Пфанцагля [4] символизирует окончательное оформление научного направления, отказ от ограничений на области применения. Одновременно нельзя не обратить внимание на крайнюю математизированность этой книги, сочетающуюся со сравнительно слабым вниманием к вопросам применения РТИ. Наблюдаем типичную картину развития математической дисциплины, которую мы обсуждали в [15] применительно к математической статистике: для решения прикладных задач создается математизированная теория, которая затем развивается как часть математики, при этом вопросы приложений игнорируются. Примеры подобного развития приведены и в заключительной части статьи Ю.Н.Толстовой [6]. Отметим также, что в [6] указаны и связи РТИ с иными разделами статистики объектов нечисловой природы, в частности, с многомерным шкалированием.
Мы сочли необходимым попытаться переломить эту тенденцию, уводящую РТИ от интересов практики. Для этого мы сочли полезным вернуться к первоначальной трактовки РТИ С.С.Стивенсом как науки о шкалах измерения, а в качестве двух основных задач наряду с установлением типа шкалы выдвинуть поиск алгоритмов анализа данных, результат работы которых не меняется при любом допустимом преобразовании шкалы (т.е. является инвариантным относительно этого преобразования). Такой принципиальный поворот был выражен в названии статьи "Прикладная теория измерений" [16], в котором термин "прикладная" означал принципиальный отказ от ориентации на внутриматематические исследования (сравните термины "прикладная статистика" и "математическая статистика"). Затем рассматриваемый подход к РТИ был отражен в ряде монографий [17-20].
В 80-90-е годы основные идеи РТИ нашли отражение на страницах справочных [21] и научно-популярных изданий [22,23], стали включаться в учебные курсы. Однако барьер непонимания между специалистами по РТИ и классическими метрологами все еще остается. На снижение этого барьера и нацелены статья Ю.Н.Толстовой [6] и настоящая статья.
Основные шкалы измерения
В соответствии с РТИ при математическом моделировании реального явления или процесса следует прежде всего установить, в каких типах шкал измерены те или иные переменные. Тип шкалы задает группу допустимых преобразований. Укажем основные виды шкал измерения и соответствующие группы допустимых преобразований. В шкале наименований (номинальной) допустимыми являются все взаимно-однозначные преобразования (т.е. числа используются лишь как метки, например, номера телефонов), в порядковой - все строго возрастающие преобразования, в шкале интервалов - линейные возрастающие преобразования, в шкале отношений - подобные (изменяющие только масштаб) преобразования, а для абсолютной шкалы допустимым является только тождественное преобразование.
Установление типа шкалы, т.е. задания группы допустимых преобразований шкалы измерения - дело специалиста соответствующей прикладной области. Так, оценки привлекательности профессий мы считали измеренными в порядковой шкале [17]. Однако отдельные социологи не соглашались с этим, считая, что выпускники школ пользуются шкалой с более узкой группой допустимых преобразований, например, интервальной шкалой. Очевидно, эта проблема относится не к математике, а к наукам о человеке. Для ее решения может быть поставлен эксперимент (достаточно трудоемкий), описанный в работе [24]. Пока же он не поставлен, целесообразно принимать порядковую шкалу, так как это гарантирует от возможных ошибок.
Оценки экспертов, как уже отмечалось, часто следует считать измеренными в порядковой шкале. Типичным примером являются задачи ранжирования и классификации промышленных объектов, подлежащих экологическому страхованию [25]. Почему мнения экспертов естественно выражать именно в порядковой шкале? "Как показали многочисленные опыты, человек более правильно ( и с меньшими затруднениями) отвечает на вопросы качественного например, сравнительного, характера, чем количественного. Так, ему легче сказать, какая из двух гирь тяжелее, чем указать их примерный вес в граммах" [19, с.3]. "Другими известными примерами порядковых шкал являются: в медицине - шкала стадий гипертонической болезни по Мясникову, шкала степеней сердечной недостаточности по Стражеско-Василенко-Лангу, шкала степени выраженности коронарной недостаточности по Фогельсону; в минералогии - шкала Мооса (тальк - 1, гипс - 2, кальций - 3, флюорит - 4, апатит - 5, ортоклаз - 6, кварц - 7, топаз - 8, корунд - 9, алмаз - 10), по которому минералы классифицируются согласно критерию твердости; в географии - бофортова шкала ветров ("штиль", "слабый ветер", "умеренный ветер" и т.д.” [21, с. 329]. При оценке качества продукции и услуг, в квалиметрии популярны порядковые шкалы [26]. Порядковая шкала используется и в иных областях (см., например, [27,28]).
Порядковая шкала и шкала наименований - шкалы качественных признаков. Поэтому результаты качественного анализа во многих областях можно рассматривать как измеренные по этим шкалам.
Шкалы качественных признаков - это шкалы интервалов, отношений, разностей, абсолютная. По шкале интервалов измеряют величину потенциальной энергии или координату точки на прямой, на которой не отмечены ни начало, ни единица измерения; по шкале отношений - большинство физических единиц: массу тела, длину, заряд, а также цены в экономике. Время измеряется по шкале разностей, если год принимаем естественной единицей измерения, и по шкале интервалов в общем случае. В процессе развития соответствующей области знания тип шкалы может меняться. Так, сначала температура измерялась по порядковой шкале (холоднее - теплее), затем - по интервальной (шкалы Цельсия, Фаренгейта, Реомюра) и, наконец, после открытия абсолютного нуля температур - по шкале отношений (шкала Кельвина) [22]. Следует отметить, что среди специалистов иногда имеются разногласия по поводу того, по каким шкалам следует считать измеренными те или иные реальные величины [37, 39, 40, 63, 89].
Как справедливо отмечает Ю.Н.Толстова [6], могут оказаться полезными и иные шкалы, иные конструкции РТИ.
Инвариантные алгоритмы и средние величины
Основное требование к алгоритмам анализа данных формулируется в РТИ так: выводы на основе данных, измеренных в шкале определенного типа, не должны меняться при допустимом преобразовании шкалы измерения этих данных (другими словами, выводы должны быть инвариантны по отношению к допустимым преобразованиям шкалы). Таким образом, цель теории измерений - борьба с субъективизмом исследователя при приписывании численных значений реальным объектам. Так, расстояния можно измерять в метрах, микронах, милях, парсеках и других единицах измерения. Выбор единиц измерения зависит от исследователя, т.е. субъективен. Статистические выводы могут быть адекватны реальности только тогда, когда они не зависят от того, какую единицу измерения предпочтет исследователь, т.е. когда они инвариантны относительно допустимого преобразования шкалы.
В качестве примера рассмотрим обработку мнений экспертов, измеренных в порядковой шкале. Пусть Y1, Y2,...,Yn - совокупность оценок экспертов, "выставленных" одному объекту экспертизы, Z1, Z2,...,Zn - второму.
Как сравнивать эти совокупности? Самое простое - по средним значениям. А как вычислять средние? Известны различные виды средних величин: среднее арифметическое, медиана, мода, среднее геометрическое, среднее гармоническое, среднее квадратическое. Обобщением нескольких из перечисленных является среднее по Колмогорову [29]. Для чисел X1, X2,...,Xn среднее по Колмогорову вычисляется по формуле G{(F(X1)+F(X2)+...F(Xn))/n}, где F - строго монотонная функция, G - функция, обратная к F. Если F(x) = x, то среднее по Колмогорову - это среднее арифметическое, если F(x) = ln x, то среднее геометрическое, если F(x) = 1/x, то среднее гармоническое, и т.д. Медиану и моду нельзя представить в виде средних по Колмогорову.
Общее понятие среднего (по Коши) таково: средней величиной является любая функция f(X1, X2,...Xn) такая, что при всех возможных значениях аргументов значение этой функции не меньше, чем минимальное из чисел X1, X2,...Xn , и не больше, чем максимальное из этих чисел.
При допустимом преобразовании шкалы значение средней величины, очевидно, меняется. Но выводы о том, для какой совокупности среднее больше, а для какой - меньше, не должны меняться (в соответствии с требованием инвариантности выводов, принятом в РТИ) . Сформулируем соответствующую математическую задачу поиска вида средних величин, результат сравнения которых устойчив относительно допустимых преобразований шкалы. Пусть f(X1, X2,...,Xn) - среднее по Коши. Пусть
f(Y1, Y2,...,Yn) < f(Z1, Z2,...,Zn). (1)
Тогда для устойчивости результата сравнения средних необходимо, чтобы для любого допустимого преобразования g из группы допустимых преобразований соответствующей шкалы было справедливо также неравенство
f(g(Y1), g(Y2),..., g(Yn)) < f (g(Z1), g(Z2),..., g(Zn)), (2)
т.е. среднее преобразованных значений из первой совокупности также было меньше среднего преобразованных значений для второй совокупности. Причем сформулированное условие должно быть верно для любых двух совокупностей Y1, Y2,...,Yn и Z1, Z2,...,Zn. Согласно РТИ только такими средними можно пользоваться.
С помощью развитой нами математической теории удается описать вид допустимых средних в основных шкалах:
из всех средних по Коши в порядковой шкале в качестве средних можно использовать только члены вариационного ряда (порядковые статистики), в частности, медиану, но не среднее арифметическое, среднее геометрическое и т.д.;
в шкала интервалов из всех средних по Колмогорову можно применять только среднее арифметическое;
в шкале отношений из всех средних по Колмогорову устойчивыми относительно сравнения являются только степенные средние и среднее геометрическое).
Доказательство первого из этих утверждений приведено в [12, 16, 17], второго и третьего - в [16, 17, 30], причем в [30] дано обобщение на случай взвешенных средних и несколько обобщены математические "условия регулярности", при справедливости которых верны рассматриваемые утверждения.
Приведем численный пример, показывающий некорректность использования среднего арифметического f(X1, X2) = (X1+X2)/2 в порядковой шкале. Пусть Y1= 1, Y2 = 11, Z1 = 6, Z2 = 8. Тогда f(Y1, Y2) = 6, что меньше, чем f(Z1, Z2) = 7. Пусть строго возрастающее преобразование g таково, что g(1) = 1, g(6) = 6, g(8) = 8, g (11) = 99. Тогда f(g(Y1), g(Y2)) = 50, что больше, чем f(g(Z1), g(Z2)) = 7. В результате преобразования шкалы упорядоченность средних изменилась.
Кроме расчета средних, аналогичные задачи рассмотрены для других алгоритмов статистического анализа данных, в частности, связанных с расстояниями [13,14] и мерами связи случайных признаков [17,31].
Приведенные результаты о средних величинах [17, 30] Я.Э.Камень применил для анализа методов агрегирования датчиков в АСУ ТП доменных печей [32]. Л.Д.Мешалкин выступил с критикой требования равносильности условий (13) и (14) и предложил собственную постановку [33].
Велико прикладное значение РТИ в задачах стандартизации и управления качеством [34], в частности, в квалиметрии [26]. Так, В.В.Подиновский показал, что любое изменение коэффициентов весомости единичных показателей качества продукции приводит к изменению упорядочения изделий по средневзвешенному показателю [35]. Н.В.Хованов развил одну из возможных теорий шкал измерения качества [36].
Максимальными инвариантами в порядковой шкале являются ранжировки, возможно, со связями (синонимы: упорядочения, нестрогие линейные порядки, квазисерии). Поэтому от теории измерений - естественный путь к применению иных методов статистики объектов нечисловой природы, в частности, рассмотренных в обзорах [1-3, 37].
Рассмотрим в качестве примера один сюжет, связанный с ранжировками и рейтингами.
Методы средних баллов
В настоящее время распространены экспертные, маркетинговые, квалиметрические, социологические и др. опросы, в которых опрашиваемых просят выставить баллы объектам, изделиям, технологическим процессам, предприятиям, проектам, заявкам на выполнение научно-исследовательских работ, идеям, проблемам, программам, политикам и т.п., а затем рассчитывают средние баллы и рассматривают их как интегральные оценки, выставленные коллективом опрошенных. Какими формулами пользоваться для вычисления средних величин? Обычно применяют среднее арифметическое. Мы уже более 25 лет знаем, что такой способ некорректен, поскольку баллы обычно измерены в порядковой шкале (см. выше). Обоснованным является использование медиан в качестве средних баллов. Однако полностью игнорировать средние арифметические нецелесообразно из-за их распространенности. Поэтому целесообразно использовать одновременно оба метода - и метод средних арифметических рангов (баллов), и методов медианных рангов. Такая рекомендация находится в согласии с концепцией устойчивости [17], рекомендующей использовать различные методы для обработки одних и тех же данных с целью выделить выводы, получаемые одновременно при всех методах.
Рассмотрим конкретный пример применения только что сформулированного подхода.
Анализировались восемь математических моделей некоторого физико-химического явления, обозначенные следующим образом: Д, Л, М-К, Б, Г-Б, Сол, Стеф, К. В 12 экспериментах измерены реальные значения интересующей исследователей характеристики этого явления. Для условий этих 12 экспериментов найдены расчетные значения рассматриваемой характеристики по каждой из 8 моделей. В приведенной ниже таблице приведены ранги 8 моделей по точности приближения в отдельных экспериментальных точках (ранг 1 - самая точная модель, ранг 2 - вторая по точности, ... , ранг 8 - самая далекая от истинного экспериментального значения модель). Ранжировки получены путем сравнения относительных погрешностей моделей.
Табл. Ранги 8 моделей по точности
приближения и результаты расчетов