Рассмотрен один из аспектов задачи оценивания степени различий двух и более разбиений конечного множества на дизъюнктные части. В специальной кластерной метрике, введенной на семействе всех таких разбиений, изучена структура кратчайших маршрутов между двумя разбиениями. Предложен алгоритм построения таких маршрутов.
Цель настоящей работы - разработка компьютерной программы, реализующей алгоритм из [4], а также исследование возможностей и характеристик этого алгоритма.
Тот факт, что поле комплексных чисел невозможно упорядочить согласованно с умножением и сложением, мешает естественности введения интервала в комплексном случае. Та же интуитивная идея ограниченной неопределённости или небольшого отклонения для элементов ℂ может приводить к использованию разных базовых; объектов. Так, если важен модуль отклонения, то за интервал естественно брать круг на комплексной плоскости (все элементы, мало отклоняющиеся от центра), если рассматривать запись числа в алгебраической форме, то интервалами естественно становятся прямоугольники на комплексной плоскости, если же рассматривать комплексные числа в показательной форме, то базовым объектом естественно выбирать сектор.
В работе получено точное распределение коллигативного коэффициента, ранее введенного автором для изучения силы связи между бинарными показателями в качестве альтернативы коэффициенту корреляции Пирсона, применение которого для бинарных показателей не всегда корректно. На основе этого распределения предложен новый статистический критерий, устанавливающий факт связи двух бинарных показателей. Описываются применения этого критерия к методам классификации данных и медицинским задачам дифференциальной диагностики.
В статье предлагается и обосновывается способ присвоения числовых меток (квантификация) кластерам, связанный с их построением на основе агломеративного кластерного алгоритма, рассматриваются проблемы, которые могут возникнуть при такой квантификации, в частности, возникновение числовых меток кластеров, значения которых противоречат их естественному порядку (инверсии). Предложен новый вариант алгоритма, при котором подобные инверсии не возникают.
Предлагается новый, по сути нечисловой, подход к изучению структуры кластерного разбиения с возможностью сравнения нескольких кластеризаций одного и того же конечного множества объектов. Подход основан на представлении кластеризуемых объектов и формирующих признаков этих объектов точками одного и того же искусственно построенного универсального пространства. При этом предложены как количественные характеристики рассматриваемых кластеризаций, так и способ чисто визуального анализа даже в случае, когда количество формирующих разбиения показателей достаточно велико, поскольку размерность универсального пространства может выбираться практически произвольно.
В работе детально описан алгоритм оптимизации кластерного разбиения. Критерием качества выбрано суммарное внутрикластерное рассеивание по всем вновь организуемым кластерам. Уменьшение этого рассеивание достигается направленным пошаговым перемещением отдельных объектов между кластерами. Алгоритм реализован в виде компьютерной программы. Приведены примеры его работы на реальных данных.
В настоящей работе рассмотрен вариант задачи анфолдинга, в которой положение части объектов (целей) уже известно, и требуется локализовать только наблюдателей - оставшуюся часть множества объектов. Предлагается процесс заполнения пропущенных позиций матрицы различий реализовать через построение промежуточной визуализации в искусственном пространстве изображений с точным соблюдением всех заданных изначально расстояний. При этом оказывается, что для того, чтобы сделать построение промежуточной визуализации простым и, желательно, однозначным, достаточно подобрать подходящую размерность пространства изображений. Если возможность неоднозначного построения, тем не менее, будет не полностью исключена, то она окажется сведенной к небольшому количеству возможных вариантов. После построения каждого из допустимых вариантов промежуточной визуализации недостающие в исходных данных различия уже вычисляются, и есть возможность заполнить матрицу различий целиком. Выбор из набора потенциальных вариантов заполнения матрицы можно затем осуществить путем их перебора.
В работе предложен единый подход к нескольким вариантам решения задачи о квантификации кластеров уже имеющегося кластерного разбиения конечного множества. В результате применения любого из предлагаемых подходов каждый кластер получает, вообще говоря, векторные метки. Для этого применяется методика, близкая к анализу латентных классов: каждый объект или каждый признак в рамках кластера отождествляется с некоторым вектором, а из полученных векторов геометрическим методами извлекается некая общая часть, вектор, в наибольшей степени близкий к каждому из построенных векторов. Этот вектор и объявляется меткой кластера.
В случае, когда изучаемые объекты разбиты на кластеры, для построения более точных математических моделей удобно использовать искусственную переменную, которая каждому объекту ставит в соответствие его кластер. Эта кластерная переменная нуждается в переводе в числовую форму, т.е. в квантификации. Сегодня для решения этой задачи часто применяют алгоритм анализа соответствий. Он позволяет квантифицировать сразу пару нечисловых переменных по таблицеих сопряженности. Но оказывается, метод перестает работать в случае, когда кластеры в задаче выделяются предельно четко, в частности, он склонен приписывать различным кластерам одинаковые метки. Поэтому актуальна задача его модификации. В работе обсуждаются несколько методов идентификации и последующего обхода формальных сбоев методики анализа соответствий для случая четко выделяющихся кластеров.
В работе детально описан алгоритм оптимизации кластерного разбиения. Критерием качества выбрано суммарное внутрикластерное рассеивание по всем вновь организуемым кластерам. Уменьшение этого рассеивание достигается направленным пошаговым перемещением отдельных объектов между кластерами. Алгоритм реализован в виде компьютерной программы. Приведены примеры его работы на реальных данных.
В настоящей работе рассмотрен вариант задачи анфолдинга, в которой положение части объектов (целей) уже известно, и требуется локализовать только наблюдателей - оставшуюся часть множества объектов. Предлагается процесс заполнения пропущенных позиций матрицы различий реализовать через построение промежуточной визуализации в искусственном пространстве изображений с точным соблюдением всех заданных изначально расстояний. При этом оказывается, что для того, чтобысделать построение промежуточной визуализации простым и, желательно, однозначным, достаточно подобрать подходящую размерность пространства изображений. Если возможность неоднозначного построения, тем не менее, будет не полностью исключена, то она окажется сведенной к небольшому количеству возможных вариантов.После построения каждого из допустимых вариантов промежуточной визуализации недостающие в исходных данных различия уже вычисляются, и есть возможностьзаполнить матрицу различий целиком. Выбор из набора потенциальных вариантов заполнения матрицы можно затем осуществить путем их перебора.