Вероятностно статистические методы исследования. Вероятностные и статистические методы. Теоретические частоты предпочтений

В настоящей лекции представлена систематизация отечественных и зарубежных методов и моделей анализа риска. Различают следующие методы анализа риска (рис. 3): детерминированные; вероятностно-статистические (статистические, теоретико-вероятностные и вероятностно-эвристические); в условиях неопределенности нестатистической природы (нечеткие и нейросетевые); комбинированные, включающие различные комбинации перечисленных выше методов (детерминированных и вероятностных; вероятностных и нечетких; детерминированных и статистических).

Детерминированные методы предусматривают анализ этапов развития аварий, начиная от исходного события через последовательность предполагаемых отказов до установившегося конечного состояния. Ход аварийного процесса изучается и предсказывается с помощью математических имитационных моделей. Недостатками метода являются: потенциальная возможность упустить редко реализующиеся, но важные цепочки развития аварий; сложность построения достаточно адекватных математических моделей; необходимость проведения сложных и дорогостоящих экспериментальных исследований.

Вероятностно-статистические методы анализа риска предполагают как оценку вероятности возникновения аварии, так и расчет относительных вероятностей того или иного пути развития процессов. При этом анализируются разветвленные цепочки событий и отказов, выбирается подходящий математический аппарат и оценивается полная вероятность аварии. Расчетные математические модели при этом можно существенно упростить по сравнению с детерминированными методами. Основные ограничения метода связаны с недостаточной статистикой по отказам оборудования. Кроме того, применение упрощенных расчетных схем снижает достоверность получаемых оценок риска для тяжелых аварий. Тем не менее, вероятностный метод в настоящее время считается одним из наиболее перспективных. На его основе построены различные методики оценки рисков , которые в зависимости от имеющейся исходной информации делятся на:

Статистические, когда вероятности определяются по имеющимся статистическим данным (при их наличии);

Теоретико-вероятностные, используемые для оценки рисков от редких событий, когда статистика практически отсутствует;

Вероятностно-эвристические, основанные на использовании субъективных вероятностей, получаемых с помощью экспертного оценивания. Используются при оценке комплексных рисков от совокупности опасностей, когда отсутствуют не только статистические данные, но и математические модели (или их точность слишком низка).

Методы анализа риска в условиях неопределенностей нестатистической природы предназначены для описания неопределенностей источника риска – ХОО, связанных с отсутствием или неполнотой информации о процессах возникновения и развития аварии; человеческими ошибками; допущениями применяемых моделей для описания развития аварийного процесса.

Все перечисленные выше методы анализа риска классифицируют по характеру исходной и результирующей информации на качественные и количественные .

Рис. 3. Классификация методов анализа риска

Методы количественного анализа риска характеризуются расчетом показателей риска. Проведение количественного анализа требует высокой квалификации исполнителей, большого объема информации по аварийности, надежности оборудования, учета особенностей окружающей местности, метеоусловий, времени пребывания людей на территории и вблизи объекта, плотности населения и других факторов.

Сложные и дорогостоящие расчеты зачастую дают значение риска, точность которого невелика. Для опасных производственных объектов точность расчетов индивидуального риска, даже в случае наличия всей необходимой информации, не выше одного порядка. При этом проведение количественной оценки риска более полезно для сравнения различных вариантов (например, размещения оборудования), чем для заключения о степени безопасности объекта. Зарубежный опыт показывает, что наибольший объем рекомендаций по обеспечению безопасности вырабатывается с применением качественных методов анализа риска, использующих меньший объем информации и затрат труда. Однако количественные методы оценки риска всегда очень полезны, а в некоторых ситуациях – единственно допустимы для сравнения опасностей различной природы и при экспертизе опасных производственных объектов.

К детерминированным методам относят следующие:

- качественные (проверочного листа (Check-list); “Что будет если?” (What - If); Предварительный анализ опасности (Process Hazard and Analysis) (PHA); “Анализ вида и последствий отказов” (АВПО) (Failure Mode and Effects Analysis) (FMEA); Анализ ошибочных действий (Action Errors Analysis) (AEA); Концептуальный анализ риска (Concept Hazard Analysis) (CHA); Концептуальный обзор безопасности (Concept Safety Review) (CSR); Анализ человеческих ошибок (Human Hazard and Operability) (HumanHAZOP); Анализ влияния человеческого фактора (Human Reliability Analysis) (HRA) и ошибки персонала (Human Errors or Interactions) (HEI); Логического анализа;

- количественные (Методы, основанные на распознавании образов (кластерный анализ); Ранжирование (экспертные оценки); Методика определения и ранжирования риска (Hazard Identification and Ranking Analysis) (HIRA); Анализ вида, последствий и критичности отказа (АВПКО) (Failure Mode, Effects and Critical Analysis) (FMECA); Методика анализа эффекта домино (Methodology of domino effects analysis); Методика определения и оценки потенциального риска (Methods of potential risk determination and evaluation)); Количественное определение влияния на надежность человеческого фактора (Human Reliability Quantification) (HRQ).

К вероятностно-статистическим методам относятся:

Статистические: качественные методы (карты потоков) и количественные методы (контрольные карты).

К теоретико-вероятностным методам относятся:

- качественные (Причины последовательности несчастных случаев (Accident Sequences Precursor) (ASP));

- количественные (Анализ деревьев событий) (АДС) (Event Tree Analysis) (ETA); Анализ деревьев отказов (АДО) (Fault Tree Analysis) (FTA); Оценка риска минимальных путей от инициирующего до основного события (Short Cut Risk Assessment) (SCRA); Дерево решений; Вероятностная оценка риска ХОО.

К вероятностно-эвристическим методам относятся:

- качественные – экспертного оценивания, метод аналогий;

- количественные – балльных оценок, субъективных вероятностей оценки опасных состояний, согласования групповых оценок и т.п.

Вероятностно-эвристические методы используются при недостатке статистических данных и в случае редких событий, когда возможности применения точных математических методов ограничены из-за отсутствия достаточной статистической информации о показателях надежности и технических характеристиках систем, а также из-за отсутствия надежных математических моделей, описывающих реальное состояние системы. Вероятностно-эвристические методы основываются на использовании субъективных вероятностей, получаемых с помощью экспертного оценивания.

Выделяют два уровня использования экспертных оценок: качественный и количественный. На качественном уровне определяются возможные сценарии развития опасной ситуации из-за отказа системы, выбор окончательного варианта решения и др. Точность количественных (балльных) оценок зависит от научной квалификации экспертов, их способностей оценивать те или иные состояния, явления, пути развития ситуации. Поэтому при проведении экспертных опросов для решения задач анализа и оценки риска необходимо использовать методы согласования групповых решений на основе коэффициентов конкордации; построения обобщенных ранжировок по индивидуальным ранжировкам экспертов с использованием метода парных сравнений и другие. Для анализа различных источников опасности химических производств методы на основе экспертных оценок могут использоваться для построения сценариев развития аварий, связанных с отказами технических средств, оборудования и установок; для ранжирования источников опасности.

К методам анализа риска в условиях неопределенности нестатистической природы относятся:

- нечеткие качественные (Метод анализа опасности и работоспособности (АОР) (Hazard and Operability Study) (HAZOP)и Методы, основанные на распознавании образов (нечеткая логика));

- нейросетевые методы прогнозирования отказов технических средств и систем, технологических нарушений и отклонений состояний технологических параметров процессов; поиска управляющих воздействий, направленных на предотвращение возникновения аварийных ситуаций, и идентификации предаварийных ситуаций на химически опасных объектах.

Заметим, что анализ неопределенностей в процессе оценки риска – это перевод неопределенности исходных параметров и предположений, использованных при оценке риска в неопределенности результатов.

Для достижения желаемого результата освоения дисциплины, будут подробно рассмотрены на практических занятиях следующие СМММ СТО:

1. Основы вероятностных методов анализа и моделирования СС;

2. Статистические математические метолы и модели сложных систем;

3. Основы теории информации;

4. Методы оптимизации;

Заключительная часть. (В заключительной части подводится краткий итог лекции и даются рекомендации по самостоятельной работе для углубления, расширения и практического применения знаний по данной теме).

Таким образом, были рассмотрены основные понятия и определения техносферы, системный анализ сложных систем и различные способы решения задач проектирования сложных техносферных систем и объектов.

Практическое занятие по данной теме будет посвящено примерам проектов сложных систем с использованием системного и вероятностного подходов.

В конце занятия преподаватель отвечает на вопросы по материалу лекции и объявляет задание на самоподготовку:

2) доработать конспект лекции примерами систем большого масштаба: транспорт, связь, промышленность, коммерция, системами видеонаблюдения и системы глобального контроля за лесными пожарами.

Разработал:

доцент кафедры О.М. Медведева

Лист регистрации изменений

В соответствии с тремя основными возможностями - принятие решения в условиях полной определенности, риска и неопределенности - методы и алгоритмы принятия решения можно разделить на три основных вида: аналитические, статистические и основанные на нечеткой формализации. В каждом конкретном случае метод принятия решения выбирается, исходя из поставленной задачи, доступных исходных данных, имеющихся моделей задачи, среды принятия решения, процесса принятия решения, требуемой точности решения, личных предпочтений аналитика.

В некоторых информационных системах процесс выбора алгоритма может быть автоматизирован:

В соответствующей автоматизированной системе заложена возможность использования множества разнотипных алгоритмов (библиотека алгоритмов);

Система в диалоговом режиме предлагает пользователю ответить на ряд вопросов об основных характеристиках рассматриваемой задачи;

По результатам ответов пользователя система предлагает наиболее подходящий (в соответствии с заданными в ней критериями) алгоритм из библиотеки.

2.3.1 Вероятностно-статистические методы принятия решения

Вероятностно-статистические методы принятия решения (МПР) используются в том случае, когда эффективность принимаемых решений зависит от факторов, представляющих собой случайные величины, для которых известны законы распределения вероятностей и другие статистические характеристики. При этом каждое решение может привести к одному из множества возможных исходов, причем каждый исход имеет определенную вероятность появления, которая может быть рассчитана. Показатели, характеризующие проблемную ситуацию, также описываются с помощью вероятностных характеристик.При таких ЗПР ЛПР всегда рискует получить не тот результат, на который ориентируется, выбирая оптимальное решение на основе осредненных статистических характеристик случайных факторов, то есть решение принимается в условиях риска.

На практике вероятностные и статистических методы часто применяются, когда сделанные на основе выборочных данных выводы переносятся на всю совокупность (например, с выборки на всю партию продукции). Однако при этом в каждой конкретной ситуации следует предварительно оценить принципиальную возможность получения достаточно достоверных вероятностных и статистических данных.

При использовании идей и результатов теории вероятностей и математической статистики при принятии решений базой является математическая модель, в которой объективные соотношения выражены в терминах теории вероятностей. Вероятности используются прежде всего для описания случайности, которую необходимо учитывать при принятии решений. Имеются в виду как нежелательные возможности (риски), так и привлекательные («счастливый случай»).

Суть вероятностно-статистических методов принятия решений состоит в использовании вероятностных моделей на основе оценивания и проверки гипотез с помощью выборочных характеристик .

Подчеркнем, что логика использования выборочных характеристик для принятия решений на основе теоретических моделей предполагает одновременное использование двух параллельных рядов понятий – относящиеся к теории (вероятностной модели) и относящиеся к практике (выборке результатов наблюдений). Например, теоретической вероятности соответствует частота, найденная по выборке. Математическому ожиданию (теоретический ряд) соответствует выборочное среднее арифметическое (практический ряд). Как правило, выборочные характеристики являются оценками теоретических характеристик.

К преимуществам использования этих методов относится возможность учета различных сценариев развития событий и их вероятностей. Недостатком этих методов является то, что используемые в расчетах значения вероятностей развития сценариев обычно практически очень трудно получить.

Применение конкретного вероятностно-статистического метода принятия решений состоит из трех этапов:

Переход от экономической, управленческой, технологической реальности к абстрактной математико-статистической схеме, т.е. построение вероятностной модели системы управления, технологического процесса, процедуры принятия решений, в частности по результатам статистического контроля, и т.п.

Проведение расчетов и получение выводов чисто математическими средствами в рамках вероятностной модели;

Интерпретация математико-статистических выводов применительно к реальной ситуации и принятие соответствующего решения (например, о соответствии или несоответствии качества продукции установленным требованиям, необходимости наладки технологического процесса и т.п.), в частности, заключения (о доле дефектных единиц продукции в партии, о конкретном виде законов распределения контролируемых параметров технологического процесса и др.).

Вероятностную модель реального явления следует считать построенной, если рассматриваемые величины и связи между ними выражены в терминах теории вероятностей. Адекватность вероятностной модели обосновывают, в частности, с помощью статистических методов проверки гипотез.

Математическая статистика по типу решаемых задач обычно делится на три раздела: описание данных, оценивание и проверка гипотез. По виду обрабатываемых статистических данных математическая статистика делится на четыре направления:

Одномерная статистика (статистика случайных величин), в которой результат наблюдения описывается действительным числом;

Многомерный статистический анализ, где результат наблюдения над объектом описывается несколькими числами (вектором);

Статистика случайных процессов и временных рядов, где результат наблюдения – функция;

Статистика объектов нечисловой природы, в которой результат наблюдения имеет нечисловую природу, например, является множеством (геометрической фигурой), упорядочением или получен в результате измерения по качественному признаку.

Пример, когда целесообразно использовать вероятностно-статистические модели.

При контроле качества любой продукции для принятии решения о том соответствует ли выпускаемая партия продукции установленным требованиям, из нее отбирается выборка. По результатам контроля выборки делается заключение о всей партии. В этом случае очень важно избежать субъективизма при формировании выборки, т.е необходимо, чтобы каждая единица продукции в контролируемой партии имела одинаковую вероятность быть отобранной в выборку. Выбор на основании жребия в такой ситуации не является достаточно объективным. Поэтому в производственных условиях отбор единиц продукции в выборку обычно осуществляют не с помощью жребия, а по специальным таблицам случайных чисел или с помощью компьютерных датчиков случайных чисел.

При статистическом регулировании технологических процессов на основе методов математической статистики разрабатываются правила и планы статистического контроля процессов, направленные на своевременное обнаружение разладки технологических процессов и принятия мер к их наладке и предотвращению выпуска продукции, не соответствующей установленным требованиям. Эти меры нацелены на сокращение издержек производства и потерь от поставки некачественных единиц продукции. При статистическом приемочном контроле на основе методов математической статистики разрабатываются планы контроля качества путем анализа выборок из партий продукции. Сложность заключается в том, чтобы уметь правильно строить вероятностно-статистические модели принятия решений, на основе которых можно ответить на поставленные выше вопросы. В математической статистике для этого разработаны вероятностные модели и методы проверки гипотез3.

Кроме того, в ряде управленческих, производственных, экономических, народнохозяйственных ситуаций возникают задачи другого типа – задачи оценки характеристик и параметров распределений вероятностей.

Или при статистическом анализе точности и стабильности технологических процессов надлежит оценить такие показатели качества, как среднее значение контролируемого параметра и степень его разброса в рассматриваемом процессе. Согласно теории вероятностей в качестве среднего значения случайной величины целесообразно использовать ее математическое ожидание, а в качестве статистической характеристики разброса – дисперсию, среднее квадратическое отклонение или коэффициент вариации. Отсюда возникает вопрос: как оценить эти статистические характеристики по выборочным данным и с какой точностью это удается сделать? Аналогичных примеров в литературе много. Все они показывают, как теория вероятностей и математическая статистика могут быть использованы в производственном менеджменте при принятии решений в области статистического управления качеством продукции.

В конкретных областях применений используются как вероятностно-статистические методы широкого применения, так и специфические. Например, в разделе производственного менеджмента, посвященного статистическим методам управления качеством продукции, используют прикладную математическую статистику (включая планирование экспериментов). С помощью ее методов проводится статистический анализ точности и стабильности технологических процессов и статистическая оценка качества. К специфическим методам относятся методы статистического приемочного контроля качества продукции, статистического регулирования технологических процессов, оценки и контроля надежности и др.

В производственном менеджменте, в частности, при оптимизации качества продукции и обеспечения соответствия требованиям стандартов особенно важно применять статистические методы на начальном этапе жизненного цикла продукции, т.е. на этапе научно-исследовательской подготовки опытно-конструкторских разработок (разработка перспективных требований к продукции, аванпроекта, технического задания на опытно-конструкторскую разработку). Это объясняется ограниченностью информации, доступной на начальном этапе жизненного цикла продукции, и необходимостью прогнозирования технических возможностей и экономической ситуации на будущее.

Наиболее распространенными вероятностно-статистическими методами являются регрессионный анализ, факторный анализ, дисперсионный анализ, статистические методы оценки риска, метод сценариев и т.д. Все большее значение приобретает область статистических методов, посвященная анализу статистических данных нечисловой природы, т.е. результатов измерений по качественным и разнотипным признакам. Одно из основных применений статистики объектов нечисловой природы - теория и практика экспертных оценок, связанные с теорией статистических решений и проблемами голосования.

Роль человека при решении задач методами теории статистических решений заключается в постановке задачи, т. е. в приведении реальной задачи к соответствующей типовой, в определении вероятностей событий на основе статистических данных, а также в утверждении получаемого оптимального решения.

Особенный интерес представляет количественная оценка предпринимательского риска при помощи методов математической статистики. Основными инструментами этого метода оценки являются:

§ вероятность появления случайной величины ,

§ математическое ожидание или среднее значение исследуемой случайной величины,

§ дисперсия ,

§ стандартное (среднеквадратическое) отклонение ,

§ коэффициент вариации ,

§ распределение вероятностей исследуемой случайной величины.

Для принятия решения нужно знать величину (степень) риска, которая измеряется двумя критериями:

1) среднее ожидаемое значение (математическое ожидание),

2) колебания (изменчивость) возможного результата.

Среднее ожидаемое значение это средневзвешенное значение случайной величины, которое связано с неопределенностью ситуации:

где значение случайной величины.

Среднее ожидаемое значение измеряет результат, который мы ожидаем в среднем.

Среднее значение является обобщенной качественной характеристикой и не позволяет принятия решения в пользу какого-нибудь отдельного значения случайной величины.

Для принятия решения необходимо измерить колебания показателей, то есть определить меру изменчивости возможного результата.

Колебание возможного результата представляет собой степень отклонения ожидаемого значения от средней величины.

Для этого на практике обычно используют два тесно связанных критерия: «дисперсия» и «среднеквадратическое отклонение».

Дисперсия – средневзвешенное из квадратов действительных результатов от среднего ожидаемого:

Среднеквадратическое отклонение – это квадратный кореньиз дисперсии. Оно является размерной величиной и измеряется в тех же единицах, в которых измеряется исследуемая случайная величина:

Дисперсия и среднеквадратическое отклонение служат мерой абсолютного колебания. Для анализа обычно используется коэффициент вариации.

Коэффициент вариации представляет собой отношение среднеквадратического отклонения к среднему ожидаемому значению , умноженное на 100%

или .

На коэффициент вариации не влияют абсолютные значения исследуемого показателя.

С помощью коэффициента вариации можно сравнивать даже колебания признаков, выраженных в разных единицах измерения. Коэффициент вариации может изменяться от 0 до 100%. Чем больше коэффициент, тем больше колебания.

В экономической статистике установлена такая оценка разных значений коэффициента вариации:

до 10% - слабое колебание, 10 – 25% - умеренное, свыше 25% - высокое.

Соответственно, чем выше колебания, тем больше риск.

Пример. Владелец небольшого магазина вначале каждого дня закупает для реализации некоторый скоропортящийся продукт. Единица этого продукта стоит 200 грн. Цена реализации – 300 грн. за единицу. Из наблюдений известно, что спрос на этот продукт на протяжении дня может быть 4, 5, 6 или 7 единиц с соответствующими вероятностями 0,1; 0,3; 0,5; 0,1. Если продукт на протяжении дня не будет реализован, то в конце дня его всегда купят по цене 150 грн. за единицу. Сколько единиц этого продукта должен закупить владелец магазина вначале дня?

Решение. Построим матрицу прибыли владельца магазина. Вычислим прибыль, которую получит владелец, если, например, он закупит 7 единиц продукта, а реализует на протяжении дня 6 и в конце дня одну единицу. Каждая единица продукта, реализованная на протяжении дня, дает прибыль в 100 грн., а в конце дня – потери 200 – 150 = 50 грн. Таким образом, прибыль в этом случае будет составлять:

Аналогично проводятся расчеты при других сочетаниях предложения и спроса.

Ожидаемая прибыль вычисляется как математическое ожидание возможных значений прибыли каждой строки построенной матрицы с учетом соответствующих вероятностей. Как видим, среди ожидаемых прибылей наибольшая равна 525 грн. Она соответствует закупке рассматриваемого продукта в количестве 6 единиц.

Для обоснования окончательной рекомендации о закупке необходимого количества единиц продукта вычислим дисперсию, среднеквадратическое отклонение и коэффициент вариации для каждого возможного сочетания предложения и спроса продукта (каждой строки матрицы прибыли):


400	0,1	40	16000
400	0,3	120	48000
400	0,5	200	80000
400	0,1	40	16000
	1,0	400	160000


350	0,1	35	12250
500	0,3	150	75000
500	0,5	250	125000
500	0,1	50	25000
	1,0	485	2372500


300	0,1	30	9000
450	0,3	135	60750
600	0,5	300	180000
600	0,1	60	36000
	1,0	525	285750

Что касается закупки владельцем магазина 6 единиц продукта в сравнении с 5 и 4 единицами, то это неочевидно, поскольку риск при закупке 6 единиц продукта (19,2%) больше, чем при закупке 5 единиц (9,3%) и тем более, чем при закупке 4 единиц (0%).

Таким образом, имеем всю информацию об ожидаемых прибылях и рисках. И решать, сколько единиц продукта нужно закупить каждое утро владельцу магазина с учетом своего опыта, склонности к риску.

На наш взгляд, владельцу магазина следует рекомендовать каждое утро закупать 5 единиц продукта и его средняя ожидаемая прибыль будет равна 485 грн. и если сравнить это с закупкой 6 единиц продукта, при которой средняя ожидаемая прибыль составляет 525 грн., что на 40 грн. больше, но риск в этом случае будет большим в 2,06 раза.

Рассматриваемая группа методов является наиболее важной в социологических исследованиях, данные методы применяются практически в каждом социологическом исследовании, которое можно считать действительно научным. Они направлены в основном на выявление в эмпирической информации статистических закономерностей, т.е. закономерностей, выполняющихся "в среднем". Собственно, социология и занимается изучением "среднего человека". Кроме того, еще одна важная цель применения вероятностных и статистических методов в социологии – оценка надежности выборки. Насколько велика уверенность, что выборка дает более-менее точные результаты и какова погрешность статистических выводов?

Главный объект изучения при применении вероятностных и статистических методов – случайные величины . Принятие случайной величиной некоторого значения является случайным событием – событием, которое при осуществлении данных условий может как произойти, так и не произойти. Например, если социолог проводит опросы в сфере политических предпочтений на улице города, то событие "очередной респондент оказался сторонником партии власти" является случайным, если ничего в респонденте заранее не выдавало его политических предпочтений. Если же социолог опросил респондента у здания Областной Думы, то событие уже не случайное. Случайное событие характеризуется вероятностью его наступления. В отличие от классических задач на игральные кости и карточные комбинации, изучаемых в рамках курса теории вероятностей, в социологических исследованиях вычислить вероятность не так просто.

Важнейшей базой для эмпирической оценки вероятности является стремление частоты к вероятности , если под частотой понимать отношение, сколько раз произошло событие к тому, сколько раз оно теоретически могло бы произойти. Например, если среди 500 случайно отобранных на улицах города респондентов 220 оказались сторонниками партии власти, то частота появления таких респондентов составляет 0,44. В случае репрезентативной выборки достаточно большого размера мы получим примерную вероятность события или примерную долю людей, обладающих заданным признаком. В нашем примере при удачно подобранной выборке получим, что примерно 44% горожан – сторонники партии власти. Разумеется, поскольку опрошены не все горожане, а некоторые в процессе опроса могли солгать, то имеется некоторая погрешность.

Рассмотрим некоторые задачи, возникающие при статистическом анализе эмпирических данных.

Оценка распределения величины

Если некоторый признак можно выразить количественно (например, политическую активность гражданина как величину, показывающую, сколько раз за последние пять лет он участвовал в выборах различного уровня), то может быть поставлена задача оценить закон распределения этого признака как случайной величины. Другими словами, закон распределения показывает, какие значения величина принимает чаще, а какие реже, и насколько чаще/реже. Чаще всего как в технике и природе, так и в обществе встречается нормальный закон распределения . Его формула и свойства изложены в любом учебнике по статистике, а на рис. 10.1 приведен вид графика – это "колоколообразная" кривая, которая может быть более "вытянута" вверх или более "размазана" по оси значений случайной величины. Суть нормального закона в том, что чаще всего случайная величина принимает значения близ некоторого "центрального" значения, называемого математическим ожиданием , а чем дальше от него, тем реже туда "попадает" величина.

Примеров распределений, которые с небольшой погрешностью можно принять за нормальные, много. Еще в XIX в. бельгийский ученый А. Кетле и англичанин Ф. Гальтон доказали, что распределение частот встречаемости любого демографического или антропометрического показателя (продолжительности жизни, роста, возраста вступления в брак и т.д.) характеризуется "колоколообразным" распределением. Тот же Ф. Гальтон и его последователи доказали, что и психологические осооенности, например, способности, подчиняются нормальному закону .

Рис. 10.1.

Пример

Самый яркий пример нормального распределения в социологии касается социальной активности людей. Согласно закону нормального распределения получается, что социально-активных людей в обществе обычно около 5–7%. Все эти социально- активные люди ходят на митинги, конференции, семинары и т.д. Примерно такое же количество вообще отстраняются от участия в социальной жизни. Основная масса людей (80–90%) вроде бы равнодушна к политике и общественной жизни, однако отслеживает те процессы, которые ей интересны, хотя в целом относится к политике и обществу отстраненно, значительной активности не проявляет. Такие люди пропускают большинство политических событий, но время от времени смотрят новости по телевидению или в Интернете. Также они ходят голосовать на наиболее важные выборы, особенно если им "грозят кнутом" или "поощряют пряником". Члены этих 80–90% с общественно-политической точки зрения почти бесполезны поодиночке, но центрам социологических исследований эти люди вполне интересны, так как их очень много, и их предпочтения нельзя игнорировать. То же касается и околонаучных организаций, выполняющих исследования по заказам политических деятелей или торговых корпораций. И мнение "серой массы" по ключевым вопросам, связанным с прогнозированием поведения многих тысяч и миллионов людей на выборах, а также при острых политических событиях, при расколе обществе и конфликтах разных политических сил, этим центрам не безразлично.

Разумеется, нс все величины распределены по нормальному распределению. Кроме него, наиболее важными в математической статистике являются биномиальное и показательное распределения, распределения Фишера-Снедекора, "Хи-квадрат", Стьюдента .

Оценка связи признаков

Простейший случай – когда требуется просто установить наличие/отсутствие связи. Наиболее популярным в этом вопросе является метод "Хи-квадрат". Данный метод ориентирован на работу с категориальными данными. Например, такими явно выступают пол, семейное положение. Некоторые данные на первый взгляд кажутся числовыми, но могут "превратиться" в категориальные путем разбиения интервала значений на несколько малых интервалов. Например, стаж работы на заводе можно разбить на категории "менее одного года", "от одного до трех лет", "от трех до шести лет" и "более шести лет".

Пусть у параметра X имеется п возможных значений: {х1,..., х г1}, а у параметра Y– т возможных значений: (у1,..., у т}, q ij – наблюдаемая частота появления пары (x i, у j), т.е. количество обнаруженных появлений такой пары. Вычисляем теоретические частоты, т.е. сколько раз должна была появиться каждая пара значений для абсолютно нс связанных между собой величин:

На основе наблюдаемых и теоретических частот вычисляем значение

Также требуется вычислить количество степеней свободы по формуле

где m , n – количество сведенных в таблицу категорий. Кроме того, выбираем уровень значимости . Чем более высокую надежность мы хотим получить, тем ниже уровень значимости следует брать. Как правило, выбирается значение 0,05, которое означает, что мы можем доверять результатам с вероятностью 0,95. Далее в справочных таблицах находим по количеству степеней свободы и уровню значимости критическое значение . Если , то параметры X и Y считаются независимыми. Если , то параметры X и Y – зависимые. Если, то опасно делать вывод о зависимости либо независимости параметров. В последнем случае целесообразно провести дополнительные исследования.

Заметим также, что критерий "Хи-квадрат" с очень высокой уверенностью можно использовать, лишь когда все теоретические частоты не ниже заданного порога, которым обычно считается равным 5. Пусть v – минимальная теоретическая частота. При v > 5 можно уверенно использовать критерий "Хи-квадрат". При v < 5 использование критерия становится нежелательным. При v ≥ 5 вопрос остается открытым, требуется дополнительное исследование о применимости критерия "Хи-квадрат".

Приведем пример применения метода "Хи-квадрат". Пусть, например, в некотором городе проведен опрос среди молодых болельщиков местных футбольных команд и получены следующие результаты (табл. 10.1).

Выдвинем гипотезу о независимости футбольных предпочтений молодежи города N от пола респондента на стандартном уровне значимости 0,05. Вычисляем теоретические частоты (табл. 10.2).

Таблица 10.1

Результаты опроса болельщиков

Таблица 10.2

Теоретические частоты предпочтений

Например, теоретическая частота для юношей-болельщиков Звезды получена как

аналогично – другие теоретические частоты. Далее вычисляем значение "Хи-квадрат":

Определяем количество степеней свободы . Для и уровня значимости 0,05 ищем критическое значение:

Поскольку , причем превосходство существенное, практически наверняка можно говорить, что футбольные предпочтения юношей и девушек города N сильно различаются, за исключением случая нерепрезентативной выборки, например, если исследователь не стал получать выборку из разных районов города, ограничившись опросом респондентов в своем квартале.

Более сложная ситуация – когда нужно количественно оценить силу связи. В этом случае часто применяются методы корреляционного анализа. Данные методы обычно рассматриваются в углубленных курсах математической статистики.

Аппроксимация зависимостей по точечным данным

Пусть имеется набор точек – эмпирических данных (X i, Yi), i = 1, ..., п. Требуется аппроксимировать реальную зависимость параметра у от параметра х, а также выработать правило вычисления значения у, когда х находится между двумя "узлами" Хi.

Существуют два принципиально разных подхода к решению поставленной задачи. Первый заключается в том, что среди функций заданного семейства (например, полиномов) выбирается функция, график которой проходит через имеющиеся точки. Второй подход не "принуждает" график функции проходить через точки. Наиболее популярный в социологии и ряде других наук метод – метод наименьших квадратов – относится ко второй группе методов.

Суть метода наименьших квадратов состоит в следующем. Дано некоторое семейство функций у (х, а 1, ..., а т) с m неопределенными коэффициентами. Требуется подобрать неопределенные коэффициенты за счет решения оптимизационной задачи

Минимальное значение функции d может выступать в качестве меры точности приближения. Если данное значение слишком велико, следует выбрать иной класс функций у либо расширить используемый класс. Например, если класс "полиномы степени не выше 3" не дал приемлемой точности, берем класс "полиномы степени не выше 4" или даже "полиномы степени не выше 5".

Чаще всего метод используют для семейства "полиномы степени не выше N":

Например, при N = 1 это семейство линейных функций, при N = 2 – семейство линейных и квадратичных функций, при N = 3 – семейство линейных, квадратичных и кубических функций. Пусть

Тогда коэффициенты линейной функции (N = 1) ищутся как решение системы линейных уравнений

Коэффициенты функции вида а 0 + а 1х + а 2х 2 (N = 2) ищутся как решение системы

Желающие применить этот метод для произвольного значения N могут сделать это, увидев закономерность, по которой составлены приведенные системы уравнений.

Приведем пример применения метода наименьших квадратов. Пусть численность некоторой политической партии менялась следующим образом:

Можно заметить, что изменения численности партии за разные годы не сильно отличаются, что позволяет нам аппроксимировать зависимость линейной функцией. Чтобы было проще вычислять, вместо переменной х – года – введем переменную t = х – 2010, т.е. первый год учета численности возьмем как "нулевой". Вычисляем М 1; М 2:

Теперь вычисляем М", М*:

Коэффициенты a 0, a 1 функции у = a 0t + а 1 вычисляются как решение системы уравнений

Решая данную систему, например, по правилу Крамера или методом подстановки, получаем: а 0 = 11,12; а 1 = 3,03. Таким образом, получаем приближение

которое позволяет не только оперировать одной функцией вместо набора эмпирических точек, но и вычислять значения функции, выходящие за границы исходных данных, – "предсказывать будущее".

Также заметим, что метод наименьших квадратов можно использовать не только для полиномов, но и для других семейств функций, например, для логарифмов и экспонент:

Степень достоверности модели, построенной на основе метода наименьших квадратов, может быть определена на основе меры "R-квадрат", или коэффициента детерминации. Он вычисляется как

Здесь . Чем ближе R 2 к 1, тем адекватнее модель.

Выявление выбросов

Выбросом ряда данных называется аномальное значение, резко выделяющееся в общей выборке или общем ряде. Например, пусть процент граждан страны, положительно относящихся к некоторому политику, составлял в 2008–2013 гг. соответственно 15, 16, 12, 30, 14 и 12%. Легко заметить, что одно из значений резко отличается от всех остальных. В 2011 г. рейтинг политика почему-то резко превысил обычные значения, державшиеся в пределах 12–16%. Наличие выбросов может быть обусловлено разными причинами:

1) ошибки измерения;
2) необычная природа входных данных (например, когда анализируется средний процент голосов, полученных политиком; это значение на избирательном участке в военной части может существенно отличаться от среднего значения по городу);
3) следствие закона (резко отличающиеся от остальных величины могут быть обусловлены математическим законом – например, в случае нормального распределения в выборку может попасть объект со значением, резко отличным от среднего);
4) катаклизмы (например, в период короткого, но острого политического противостояния уровень политической активности населения может резко измениться, как это произошло в ходе "цветных революций" 2000– 2005 гг. и "арабской весны" 2011 г.);
5) управляющие воздействия (например, если в год накануне исследования политик принял очень популярное решение, то в этот год его рейтинг может оказаться значительно выше, чем в другие годы).

Многие методы анализа данных неустойчивы к выбросам, поэтому для их эффективного применения нужно очистить данные от выбросов. Яркий пример неустойчивого метода – упомянутый выше метод наименьших квадратов. Простейший метод поиска выбросов основан на так называемом межквартильном расстоянии. Определяем диапазон

где Q m – значение т- го квартиля. Если некоторый член ряда не попадает в диапазон, то он расценивается как выброс.

Поясним на примере. Смысл квартилей состоит в том, что они делят ряд на четыре равные или примерно равные группы: первый квартиль "отделяет" левую четверть ряда, отсортированного по возрастанию, третий квартиль – правую четверть ряда, второй квартиль проходит посередине. Поясним, как искать Q 1, и Q 3. Пусть в отсортированном по возрастанию числовом ряду п значений. Если п + 1 делится на 4 без остатка, то Q k суть k (п + 1)/4-й член ряда. Например, дан ряд: 1, 2, 5, 6, 7, 8, 10, 11, 13, 15, 20, здесь количество членов п = 11. Тогда (п + 1)/4 = 3, т.е. первый квартиль Q 1 = 5 – третий член ряда; 3(п + 1)/4 = 9, т.е. третий квартиль Q:i= 13 – девятый член ряда.

Немного сложнее случай, когда п + 1 не кратно 4. Например, дан ряд 2, 3, 5, 6, 7, 8, 9, 30, 32, 100, где число членов п = 10. Тогда (п + 1)/4 = 2,75 -

позиция между вторым членом ряда (v2 = 3) и третьим членом ряда (v3= 5). Тогда берем величину 0,75v2 + 0,25v3 = 0,75 3 + 0,25 5 = 3,5 – это и будет Q 1. 3(п + 1)/4 = 8,25 – позиция между восьмым членом ряда (v8= 30) и девятым членом ряда (v9=32). Берем величину 0,25v8 + 0,75v9 = 0,25 30 + + 0,75 32 = 31,5 – это и будет Q 3. Существуют и другие варианты вычисления Q 1 и Q 3, но рекомендуется использовать изложенный здесь вариант.

Строго говоря, на практике обычно встречается "приближенно" нормальный закон – поскольку нормальный закон определяется для непрерывной величины на всей действительной оси, многие реальные величины не могут строго удовлетворять свойствам нормально распределенных величин.
Наследов А. Д. Математические методы психологического исследования. Анализ и интерпретация данных: учеб, пособие. СПб.: Речь, 2004. С. 49–51.
О важнейших распределениях случайных величин см., например: Орлов А. И. Математика случая: вероятность и статистика – основные факты: учеб. пособие. М.: МЗ-Пресс, 2004.

3.5.1. Вероятностно-статистический метод исследования.

Во многих случаях необходимо исследовать не только детерминированные, но и случайные вероятностные (статистические) процессы. Эти процессы рассматриваются на базе теории вероятностей.

Совокупность случайной величины х составляет первичный математический материал. Под совокупностью понимают множество однородных событий. Совокупность, содержащую самые различные варианты массового явления, называют генеральной совокупностью, или большой выборкой N. Обычно изучают лишь часть генеральной совокупности, называемой выборной совокупностью или малой выборкой.

Вероятностью Р (х) события х называют отношение числа случаев N(x), которые приводят к наступлению события х , к общему числу возможных случаев N:

P(x)=N(x)/N.

Теория вероятностей рассматривает теоретические распределения случайных величин и их характеристики.

Математическая статистика занимается способами обработки и анализа эмпирических событий.

Эти две родственные науки составляют единую математическую теорию массовых случайных процессов, широко применяемую для анализа научных исследований.

Очень часто применяют методы вероятностей и математической статистики в теории надежности, живучести и безопасности, которая широко используется в различных отраслях науки и техники.

3.5.2. Метод статистического моделирования или статистических испытаний (метод Монте-Карло).

Этот метод представляет собой численный метод решения сложных задач и основан на использовании случайных чисел, моделирующих вероятностные процессы. Результаты решения этим методом позволяют установить эмпирически зависимости исследуемых процессов.

Решение задач методом Монте-Карло эффективно лишь с использованием быстродействующих ЭВМ. Для решения задач методом Монте-Карло необходимо иметь статистический ряд, знать закон его распределения, среднее значение математическое ожидание т(х), среднеквадратичное отклонение.

С помощью этого метода можно получить сколь угодно заданную точность решения, т.е.

-> т(х)

3.5.3. Метод системного анализа .

Под системным анализом понимают совокупность приемов и методов для изучения сложных систем, представляющих собой сложную совокупность взаимодействующих между собой элементов. Взаимодействие элементов системы характеризуется прямыми и обратными связями.

Сущность системного анализа состоит в том, чтобы выявить эти связи и установить их влияние на поведение всей системы в целом. Наиболее полно и глубоко можно выполнить системный анализ методами кибернетики, которая представляет собой науку о сложных динамичных системах, способных воспринимать, хранить и перерабатывать информацию для целей оптимизации и управления.

Системный анализ складывается из четырех этапов.

Первый этап заключается в постановке задачи: определяют объект, цели и задачи исследования, а также критерии для изучения объекта и управления им.

Во время второго этапа определяют границы изучаемой системы и определяют ее структуру. Все объекты и процессы, имеющие отношение к поставленной цели, разбивают на два класса ~ собственно изучаемую систему и внешнюю среду. Различают замкнутые и открытые системы. При исследовании замкнутых систем влиянием внешней среды на их поведение пренебрегают. Затем выделяют отдельные составные части системы - ее элементы, устанавливают взаимодействие между ними и внешней средой.

Третий этап системного анализа заключается в составлении математической модели исследуемой системы. Вначале производят параметризацию системы, описывают основные элементы системы и элементарные воздействия на нее с помощью тех или иных параметров. При этом различают параметры, характеризующие непрерывные и дискретные, детерминированные и вероятностные процессы. В зависимости от особенностей процессов используют тот или ной математический аппарат.

В результате третьего этапа системного анализа формируются законченные математические модели системы, описанные на формальном, например алгоритмическом, языке.

На четвертом этапе анализируют полученную математическую модель, находят ее экстремальные условия в целях оптимизации процессов и управления системами и формулируют выводы. Оценку оптимизации производят по критерию оптимизации, принимающему в этом случае экстремальные значения (минимум, максимум, минимакс).

Обычно выбирают какой-либо один критерий, а для других устанавливают пороговые предельно-допустимые значения. Иногда применяют смешанные критерии, представляющие собой функцию от первичных параметров.

На основании выбранного критерия оптимизации составляют зависимость критерия оптимизации от параметров модели исследуемого объекта (процесса).

Известны различные математические методы оптимизации исследуемых моделей: методы линейного, нелинейного или динамического программирования; методы вероятностно-статистические, основанные на теории массового обслуживания; теория игр, которая рассматривает развитие процессов как случайные ситуации.

Вопросы для самоконтроля знаний

Методология теоретических исследований.

Основные разделы этапа теоретических разработок научного исследования.

Типы моделей и виды моделирования объекта исследования.

Аналитические методы исследования.

Аналитические методы исследования с использованием эксперимента.

Вероятностно-аналитический метод исследования.

Методы статического моделирования (метод Монте-Карло).

Метод системного анализа.