"Метод ограниченного хаоса" - читать интересную книгу автора (Архангельский Глеб)

Кластерный анализ и метод ограниченного хаоса


Напомним вкратце суть кластерного анализа. Имеется N объектов, каждый характеризуется m признаками. Признаки могут допускать измерение с помощью линейных шкал (температура, скорость…), а могут и не допускать, и тогда приходится применять ординальные шкалы.

В пространстве объектов вводится метрика — расстояние между объектами, тем или иным образом определяемое с помощью их признаков. Например, если объекты — точки на плоскости, а признаки — их координаты в декартовой системе координат, то распространенный способ введения метрики — считать расстоянием между точками число, равное корню квадратному из суммы квадратов разностей координат по каждой оси.

На основании каким-либо образом введенного расстояния между объектами, с помощью различных методов эти объекты группируются в кластеры — группы объектов, близких друг другу с точки зрения выбранной метрики. Такими кластерами могут быть, например, основные направления политической ориентации населения или разделы тематического каталога библиотеки.

Зафиксируем важнейшее отличие кластерного анализа от описанного выше метода. Кластерный анализ лишь выявляет степень близости объектов. Метод говорит о том, каким образом вмешиваться в ситуацию с точки зрения максимизации функции полезности. Вспоминая различение «научных» и «инженерных» задач из начала статьи, можно сказать, что кластерный анализ входит в совокупность «научного материала», который мы пытаемся перевести «в методологическую плоскость».

Итак, кластерный анализ может быть вспомогательным инструментом метода, особенно если совокупную полезность удастся свести к признакам элементов и способам задания метрики, т.е. кластерный анализ будет сразу же давать информацию о том, где проводить границы, и не потребуется проводить дополнительного исследования кластеризации, которую он предлагает, на оптимальность с точки зрения максимизации полезности. Примером возможности сведения функции полезности к признакам объектов и способам задания расстояния между объектами может служить такая ее подлежащая минимизации компонента, как «количество нежелательных взаимодействий» (вспомним сапоги, хранимые вместе с бумагами). Отметив принципиальную возможность работы в этом направлении, дальше углубляться в этот вопрос не будем.