"В.Н.Щеглов. Модели признаков смерти от злокачественных новообразований для населения," - читать интересную книгу автора(незарегистрированных) переменных, медленно эволюционирующих во времени. Для
того, чтобы сделать К мало зависящими от этих переменных, сам алгоритм построен на сопоставлении каждой целевой строки со своей окрестностью не целевых строк при вычислении каждой целевой модели; аналогично вычисляются и модели "контроля" (не целевые). Отметим еще способ вычисления АМКЛ в случае так называемых "редких" множеств целевых состояний. Предположим, что массив данных содержит сотню целевых и тысячу не целевых состояний (контрольных измерений). В этом случае стандартное решение приводит к целевой АМКЛ, в которой многие К встречаются лишь по одному разу (т. е. с минимальной оценкой) и ранги (число переменных в К) велики, что влечет трудности при интерпретации таких К. Этого и следовало бы ожидать: при весьма большом числе не целевых состояний почти всегда найдется состояние, сходное с целевым, и для "отделения" целевого состояния от не целевых, приходится увеличивать ранг К* . Пространства целевых и не целевых строк иногда оказываются в этом случае неотделимыми: наблюдается совпадения этих состояний объекта (неотделимость пространств К* и К). Подобные пары строк приходится удалять в основном из-за ограниченности используемого "словаря" Х. Следует иметь в виду, что основная цель вычисления логических моделей заключается в поиске их семантики, которая с точки зрения исследователя каким-то образом согласовывалась бы с уже известными данными или была бы интересна с какой-либо иной точки зрения. Такое согласование могло бы быть достигнуто после специального обзора литературных или иных данных, например, после использования информационной поисковой системы. Другими словами, цель логического моделирования заключается в наилучшем согласовании на используемых массивах всегда истинны в случае отделимости исследуемых пространств. Массив данных был предоставлен В.А. Хромушиным и А.В. Черешневым. Для удобства обзора моделей (списки выводов К* и отдельно К) эти конъюнкции нумеровались в порядке убывания их частоты встречаемости (или Г) в массиве, далее записывалась их частота и затем соответствующий каждой конъюнкции набор Хi. Для краткости записи моделей в данной статье (она имеет в основном методический характер) из общего списка упорядоченных по оценкам Г К* была отобрана лишь их половина (с большими Г), всего 14 К*, причем, при одинаковых Г предпочтение отдавали К* с меньшим рангом r, они более информационные (обратный пример - для генератора случая r стремится к n). Поскольку К* имели вообще сравнительно малые частоты, общую интерпретацию было решено провести следующим образом. Просматривался список К*, затем, начиная с К* с наибольшей частотой, к ней подбиралась наиболее близкая К, которая имела совпадающий индекс для Хi, желательно по первой переменной (за неимением таковой - вторая совпадающая Х и т. д.). В этих вычислениях список К просматривался также, начиная с наибольших частот (К, которые встречались лишь по одному разу, не рассматривались; всего выбиралось также 14 К). Для анализа была взята выборка за 2002 - 2003 годы, вся выборка была упорядочена по дате смерти. Семантика обозначений и индексов для Х частично приведена также в тексте п. 2 при интерпретации К и К*. |
|
|