Исследование влияния параметров алгоритма k-ближайших соседей на метрики качества моделей (2024)

В данной статье было проведено исследование влияния параметра k, размера обучающей выборки и ряда популярных метрик расстояний для метода k-ближайших соседей (kNN - k-nearest neighbors) на качество моделей с использованием метрик RMSE и R2. Алгоритм K-ближайших соседей является одним из самых популярных среди ML-моделей для решения задач классификации и регрессии. Тщательная настройка параметров - фундаментальный аспект для достижения баланса между точностью и эффективностью модели. Важность правильного выбора параметров k и метрики расстояния является ключевым фактором для создания модели с высокой точностью. В результате исследования были получены оптимальные значения параметра k алгоритма, которые применимы для решения большинства прикладных задач. Наиболее часто используемые метрики, такие как Евклидова и Манхэттенская, показали сопоставимую эффективность по сравнению с метриками Чебышева и Махаланобиса. Практическая применимость оптимальных характеристик алгоритма делает его решения востребованными в разнообразных прикладных задачах классификации и регрессии.

Тип: Статья
Автор (ы): Родионов Алексей Владимирович, Ищенко К. Л.
Ключевые фразы: метод k-ближайших соседей, регрессия, метрики расстояний, Евклидово расстояние, расстояние городских кварталов (манхэттенское расстояние), расстояние Махаланобиса, расстояние Чебышева, расстояние Минковского

Идентификаторы и классификаторы

УДК
681.3.06. <Математическое обеспечение (программирование). Программы ЦВМ>. Исключено E&C 18 [1996]
Текстовый фрагмент статьи