Архив статей журнала

АЛГОРИТМЫ ПЕРВИЧНОГО АНАЛИЗА ЛОКАЛЬНЫХ ОБЪЕКТОВ ФЛУОРЕСЦЕНЦИИ В СЕКВЕНАТОРЕ ДНК "НАНОФОР СПС" (2024)
Выпуск: Т. 23 № 4 (2024)
Авторы: Манойлов Владимир Владимирович, Бородинов Андрей Геннадьевич, Заруцкий Игорь Вячеславович, Петров Александр Иванович, Сараев Алексей Сергеевич, Курочкин Владимир Ефимович

В секвенаторе ДНК «Нанофор СПС», разработанном в Институте аналитического приборостроения РАН, реализован метод массового параллельного секвенирования для расшифровки последовательности нуклеиновых кислот. Этот метод позволяет определять последовательность нуклеотидов в ДНК или РНК, содержащих от нескольких сотен до сотен миллионов звеньев мономеров. Таким образом, имеется возможность получения подробной информации о геноме различных биологических объектов, в том числе человека, животных и растений. Важнейшей частью этого прибора является программное обеспечение, без которого невозможно решение задач по расшифровке генома. Выходными данными оптической детекции в секвенаторе являются набор изображений по четырем каналам, соответствующим типам нуклеотидов: A, C, G, T. С помощью специального программного обеспечения определяется положение молекулярных кластеров и их интенсивностные характеристики вместе с параметрами окружающего фона. В ходе создания программного обеспечения прибора были разработаны алгоритмы и программы обработки сигналов флуоресценции, рассмотренные в работе. Также, для отладки и тестирования рабочих программ созданы модели построения изображений, аналогичных реальным данным, получаемым в ходе работы секвенатора. Данные модели позволили получить значительный массив информации без запуска дорогостоящих экспериментов. За последние годы достигнуты значительные успехи в области машинного обучения, в том числе и в области биоинформатики, что привело к реализации наиболее распространенных моделей и возможности их применения для практических задач. Однако, если на этапе вторичного анализа биоинформационных данных эти методы широко зарекомендовали себя, то их потенциал для первичного анализа остается недостаточно раскрытым. В данной работе особое внимание уделяется разработке и внедрению методов машинного обучения для первичного анализа оптических изображений сигналов флуоресценции в реакционных ячейках. Описаны методы кластеризации и их апробация на моделях и на изображениях, полученных на приборе. Цель этой статьи - продемонстрировать возможности алгоритмов первичного анализа сигналов флуоресценции, получающихся в процессе секвенирования на приборе «Нанофор СПС». В работе описаны основные задачи анализа сигналов флуоресценции и сравниваются традиционные методы их решения с использованием технологий машинного обучения.

Сохранить в закладках
БЕССТРЕССОВЫЙ АЛГОРИТМ УПРАВЛЕНИЯ БЕГОВЫМИ ПЛАТФОРМАМИ НА ОСНОВЕ НЕЙРОСЕТЕВЫХ ТЕХНОЛОГИЙ (2024)
Выпуск: Т. 23 № 3 (2024)
Авторы: Обухов Артём Дмитриевич, Дедов Денис Леонидович, Волков Андрей Андреевич, Назарова Александра Олеговна, Теселкин Даниил Вячеславович

В статье рассматривается задача прогнозирования скорости человека с использованием нейросетевых технологий и компьютерного зрения для минимизации запаздывания в системах управления беговыми платформами, приводящего к риску для здоровья пользователя. Для ее решения разработан бесстрессовый алгоритм, включающий прогнозирование положения и скорости пользователя на беговой платформе, включающий процедуру расчета скорости беговой платформы на основе анализа положения и характера движения пользователя, схему сбора и обработки данных для обучения нейросетевых методов, процедуру определения необходимого количества прогнозируемых кадров для устранения запаздывания. Научная новизна исследования состоит в разработке алгоритма управления беговыми платформами, объединяющего технологии компьютерного зрения для распознавания модели тела пользователя платформы, нейронные сети и методы машинного обучения для определения итоговой скорости человека на основе объединения данных о положении человека в кадре, текущей и прогнозируемой скорости человека. Предложенный алгоритм реализован с использованием библиотек Python, проведена его апробация в ходе экспериментальных исследований при анализе предшествующих 10 и 15 кадров для прогнозирования 10 и 15 следующих кадров. В результате сравнения алгоритмов машинного обучения (линейная регрессия, дерево решений, случайный лес, многослойные, сверточные и рекуррентные нейронные сети) при различных величинах длин анализируемых и прогнозируемых кадров наилучшую точность при прогнозировании положения показал алгоритм RandomForestRegressor, а при определении текущей скорости - плотные многослойные нейронные сети. Проведены экспериментальные исследования по применению разработанного алгоритма и моделей для определения скорости человека (при прогнозе в диапазоне 10-15 кадров получена точность более 90%), а также по их интеграции в систему управления беговой платформой. Испытания показали работоспособность предложенного подхода и корректность работы системы в реальных условиях. Разработанный алгоритм позволяет не использовать чувствительные к помехам датчики, требующие закрепления на теле человека, а прогнозировать действия пользователя за счет анализа всех точек тела человека для снижения запаздывания в различных человеко-машинных системах.

Сохранить в закладках
МЕТОДИКА СБОРА ДАННЫХ ОБ АКТИВНОСТИ ВРЕДОНОСНОГО ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ ПОД ОС WINDOWS НА БАЗЕ MITRE ATT&CK (2024)
Выпуск: Т. 23 № 3 (2024)
Авторы: Смирнов Данил Вадимович, Евсютин Олег Олегович

Цифровизация современной экономики привела к масштабному проникновению информационных технологий в различные сферы человеческой деятельности. Кроме положительных эффектов это крайне обострило проблему противодействия киберугрозам, реализация которых злоумышленниками часто влечет за собой тяжелые последствия. Вредоносное программное обеспечение (ВПО) занимает важное место на современном ландшафте киберугроз, наиболее громкие киберпреступления последних лет связаны с применением ВПО. В связи с этим активно развивается проблемная область противодействия ВПО и одним из перспективных направлений исследований в данной области является создание методов детектирования ВПО на основе машинного обучения. Однако слабым местом многих известных исследований является построение достоверных наборов данных для моделей машинного обучения, когда авторы не раскрывают особенности формирования, предобработки и разметки данных о ВПО, что компрометирует воспроизводимость этих исследований. В данной работе предлагается методика сбора данных об активности ВПО, основанная на матрице MITRE ATT&CK и Sigma-правилах, и рассчитанная на операционные системы семейства Windows. Предлагаемая методика направлена на повышение качества наборов данных, содержащих характеристики поведения ВПО и легитимных процессов, а также на сокращение времени разметки данных экспертным способом. Для апробации методики подготовлен программный стенд и проведены эксперименты, подтвердившие ее адекватность.

Сохранить в закладках
ОЦЕНИВАНИЕ ИНФОРМАТИВНОСТИ ПРИЗНАКОВ В НАБОРАХ ДАННЫХ ДЛЯ ПРОВЕДЕНИЯ ПРОДЛЁННОЙ АУТЕНТИФИКАЦИИ (2024)
Выпуск: Т. 23 № 1 (2024)
Авторы: Давыденко Сергей Андреевич, Костюченко Евгений Юрьевич, Новиков Сергей Николаевич

Продлённая аутентификация позволяет избавиться от недостатков, присущих статической аутентификации, например, идентификаторы могут быть потеряны или забыты, пользователь совершает только первоначальный вход в систему, что может быть опасно не только для областей, требующих обеспечения высокого уровня безопасности, но и для обычного офиса. Динамическая проверка пользователя во время всего сеанса работы может повысить безопасность системы, поскольку во время работы пользователь может подвергнуться воздействию со стороны злоумышленника (например, быть атакованным) или намеренно передать ему права. В таком случае оперировать машиной будет не пользователь, который выполнил первоначальный вход. Классификация пользователей во время работы системы позволит ограничить доступ к важным данным, которые могут быть получены злоумышленником. Во время исследования были изучены методы и наборы данных, использующихся для продлённой аутентификации. Затем был сделан выбор наборов данных, которые использовались в дальнейшем исследовании: данные о движении смартфона и смарт-часов (WISDM) и динамике активности мыши (Chao Shen’s, DFL, Balabit). Помочь улучшить результаты работы моделей при классификации может предварительный отбор признаков, например, через оценивание их информативности. Уменьшение размерности признаков позволяет снизить требования к устройствам, которые будут использоваться при их обработке, повысить объём перебора значений параметров классификаторов при одинаковых временных затратах, тем самым потенциально повысить долю правильных ответов при классификации за счёт более полного перебора параметров значений. Для оценивания информативности использовались метод Шеннона, а также алгоритмы, встроенные в программы для анализа данных и машинного обучения (WEKA: Machine Learning Software и RapidMiner). В ходе исследования были выполнены расчёты информативности каждого признака в выбранных для исследования наборах данных, затем с помощью RapidMiner были проведены эксперименты по классификации пользователей с последовательным уменьшением количества используемых при классификации признаков с шагом в 20%. В результате была сформирована таблица с рекомендуемыми наборами признаков для каждого набора данных, а также построены графики зависимостей точности и времени работы различных моделей от количества используемых при классификации признаков.

Сохранить в закладках
СИСТЕМА АНАЛИЗА ТОНАЛЬНОСТИ ТЕКСТА НА ТЕЛУГУ НА ОСНОВЕ НОВОГО ПАССИВНО-АГРЕССИВНОГО КЛАССИФИКАТОРА С НЕЧЕТКИМ ВЗВЕШИВАНИЕМ (2024)
Выпуск: Т. 23 № 1 (2024)
Авторы: Найду Дж Джанардана, Сешашаяи M

Обработка естественного языка (NLP) - это разновидность искусственного интеллекта, демонстрирующая, как алгоритмы могут взаимодействовать с людьми на их уникальных языках. Кроме того, анализ настроений в NLP лучше проводится во многих программах, включая оценку настроений на телугу. Для обнаружения текста на телугу используются несколько неконтролируемых алгоритмов машинного обучения, таких как кластеризация k-средних с поиском с кукушкой. Однако эти методы с трудом справляются с кластеризацией данных с переменными размерами и плотностью кластеров, низкой скоростью поиска и плохой точностью сходимости. В ходе этого исследования была разработана уникальная система анализа настроений на основе машинного обучения для текста на телугу, позволяющая устранить указанные недостатки. Первоначально, на этапе предварительной обработки, предлагаемый алгоритм линейного преследования (LPA) удаляет слова в пробелах, знаках препинания и остановках. Затем для маркировки POS в этом исследовании было предложено условное случайное поле с лексическим взвешиванием; После этого предлагается надуманный пассивно-агрессивный классификатор с нечетким взвешиванием (CPSC-FWC) для классификации настроений в тексте на телугу. Следовательно, предлагаемый нами метод дает эффективные результаты с точки зрения точности, воспроизводимости и показателя f1.

Сохранить в закладках
АНАЛИТИЧЕСКИЙ ОБЗОР МЕТОДОВ АВТОМАТИЧЕСКОГО АНАЛИЗА ЭКСТРАЛИНГВИСТИЧЕСКИХ КОМПОНЕНТОВ СПОНТАННОЙ РЕЧИ (2024)
Выпуск: Т. 23 № 1 (2024)
Авторы: Поволоцкая Анастасия Андреевна, Карпов Алексей Анатольевич

Точность систем автоматического распознавания спонтанной речи далека от тех, которые демонстрируют системы распознавания подготовленной речи. Обусловлено это тем, что спонтанная речь не характеризуется той плавностью и отсутствием сбоев, что подготовленная. Спонтанная речь варьируется от диктора к диктору: отличное произношение фонем, наличие пауз, речевых сбоев и экстралингвистических компонентов (смех, кашель, чихание, и цыканье при выражении эмоции раздражения и др.) прерывают плавность вербальной речи. Экстралингвистические компоненты очень часто несут важную паралингвистическую информацию, поэтому для систем автоматического распознавания спонтанной речи важно распознавать подобные явления в потоке речи. В данном обзоре проанализированы научные работы, посвященные проблеме автоматического анализа экстралингвистических компонентов спонтанной речи. Рассмотрены и описаны как отдельные методы и подходы по распознаванию экстралингвистических компонентов в потоке речи, так и работы, связанные с многоклассовой классификацией изолированно записанных экстралингвистических компонентов. Наиболее распространенными методами анализа экстралингвистических компонентов являются нейронные сети, такие как глубокие нейронные сети и сети на основе моделей-трансформеров. Приведены основные понятия, относящиеся к термину экстралингвистические компоненты, предложена оригинальная систематизация экстралингвистических компонентов в русском языке, описаны корпуса и базы данных звучащей разговорной речи как на русском, так и на других языках, также приведены наборы данных экстралингвистических компонентов, записанных изолированно. Точность распознавания экстралингвистических компонентов повышается при соблюдении следующих условия работы с речевым сигналом: предобработка аудиосигналов вокализаций показала повышение точности классификации отдельно записанных экстралингвистических компонентов; учет контекста (анализ нескольких фреймов речевого сигнала) и использовании фильтров для сглаживания временных рядов после извлечения векторов признаков показали повышение точности при пофреймовом анализе речевого сигнала со спонтанной речью.

Сохранить в закладках