Последовательная схема принятия решения в задаче классификации сейсмосигналов

Чистова Г.К.
20.05.2005 | 14:00
Чистова Г.К., Пензенский государственный университет

Проблему снижения ошибки классификации можно решить с помощью последовательной схемы принятия решений. В отличие от классификации за один шаг, она содержит несколько уровней. На каждом из них осуществляют дополнительное измерение вектора признаков и результат классификации уточняется, пока не будет получено требуемое значение ошибки. При этом размер пространства признаков не изменяется.
В основу последовательной схемы принятия решения положен последовательный критерий отношения вероятностей Вальда. Критерий построен для выбора между двумя простыми гипотезами.
Пусть задан классификатор на два класса W1 и W2 . Случайная величина X имеет плотность распределения вероятности P(X|W). Тогда возможны два решения: измеренное значение X* отнести к классу W1 (гипотеза H1) или к классу W2 (гипотеза H2). Предположим, что принята гипотеза H1 с вероятностью правильной классификации Pb = 1-b, где b - ошибка второго рода, при этом ошибка первого рода равна a. Отношение максимального правдоподобия определяется как

,   (1)

где h - порог принятия решения. При однократной схеме измерения согласно критерию максимального правдоподобия, принимается гипотеза H1, для которой выполняется условие (1).
Если число наблюдений n вектора X* заранее определено, и производятся они независимо, то для получения оптимального значения вероятности правильной классификации можно воспользоваться критерием Неймана-Пирсона, по которому наибольшее значение Pb определяется отношением максимального правдоподобия
,   (2)

где Pn (X|W) - совместная плотность распределения вероятности векторов X1,...,Xn. Если l(n)(X*)іh, то решение принимается в пользу гипотезы H1. Значение h выбирается таким, чтобы обеспечить максимальное Pb при минимальном a.
Критерий Вальда как и критерий Неймана-Пирсона обладает оптимальными свойствами. В последовательной схеме принятия решения производится измерение , n=1, 2, ..., n, n + 1, ..., в результате чего отношение максимального правдоподобия принимает значения l(), ..., l(), ..., l(), l(),... .
Область возможных значений критической статистики l(n)(X*) разбивается на три непересекающиеся части: область правдоподобных G(H1), область неправдоподобных G(H2) и область сомнительных G* значений. На каждом шаге последовательной схемы наблюдений X1, ..., Xn , n = 1, 2, ..., решение принимается по следующему правилу:
  • если l(n)(X*)іA , т.е. l(n)(X*)ОG(H1), то принимается гипотеза H1;
  • если l(n)(X*)ЈB , т.е. l(n)(X*)ОG(H2), то принимается гипотеза H2;
  • если A<l(n)(X*)<B , т.е. l(n)(X*)ОG*,то окончательный вывод откладывается и производится следующее (n+1)-е наблюдение.
Постоянные A и B называются соответственно верхним и нижним порогами (останавливающими границами) и вычисляются по выражениям
.   (3)

Выбор останавливающих границ A и B зависит от вероятностей ошибок первого и второго рода.
Когда число классов больше двух, может быть применен обобщенный последовательный критерий отношения вероятностей.
Конкретное значение объема выборки - величина случайная и может превосходить среднее значение. Чтобы этого избежать, на практике можно использовать усеченный последовательный критерий, в котором устанавливается максимальное значение объема выборки n=N. Решающее правило будет иметь следующий вид: выполняется обычная последовательная процедура и принимается решение H1, если l(n)(X*)іA и решение H2, если l(n)(X*)ЈB; если же процесс достигнет N-го шага, то принимается решение H1, если l(N)(X*)і1 и решение H2, если l(N)(X*) < 1.
Расчеты произведены для задачи обнаружения сигнала группы людей при наличии помехи от проезжающего автомобиля. Вероятность ложного срабатывания снизилась с 0,08 до 0,03 при незначительном уменьшении вероятности правильного обнаружения с 0,92 до 0,90 для одно- и трехкратной схем измерения соответственно.