Представлена новая методика идентификации автора программного кода, основанная на multi-view-подходе. Целью исследования является повышение точности и устойчивости идентификации авторства за счет объединения различных представлений программного кода: исходного кода, абстрактного синтаксического дерева, графа потока управления и дизассемблированного кода. Для построения моделей использовались современные методы машинного обучения, позволяющие интегрировать и анализировать комплексные признаки из разных источников. Нроведенные эксперименты показали, что разработанная multi-view-архитектура обеспечивает значительное улучшение качества идентификации по сравнению с традиционными подходами, использующими только одно представление кода. Так, на задачах с закрытым множеством авторов достигнуты значения точности и F1 -макро до 0,97, а на открытых множествах отмечена высокая устойчивость к появлению новых авторов и вариативности стилей программирования. В задаче верификации автора комплексные признаки позволили достичь точности до 0,98 и снизить EER до 0,04.
Идентификаторы и классификаторы
- SCI
- Образование
- УДК
- 004.85. Обучение
В условиях стремительного развития информационных технологий и повсеместного внедрения ПО вопросы информационной безопасности (ИБ) приобретают все большую актуальность. Одним из актуальных направлений ИБ является идентификация авторства программного кода.
Если у вас возникли вопросы или появились предложения по содержанию статьи, пожалуйста, направляйте их в рамках данной темы.
Список литературы
1. Alrabaee S. Binary code fingerprinting for cybersecurity: Application to malicious code fingerprinting / S. Alrabaee, M. Debbabi, P. Shirani, L. Wang, A. Youssef, A. Rahimian, L. Nouh, D. Mouheb, H. Huang. - Cham: Springer, 2020. - 249 p.
2. HajiHosseinKhani S. AuthAttLyzer-V2: Unveiling Code Authorship Attribution Using Enhanced Ensemble Learning Models and Generating Benchmark Dataset / S. HajiHos-seinKhani, B. Joshi, A. Habibi Lashkari // Data Science. CSCE 2024.Communications in Computer and Information Science. -Cham: Springer, 2025. - Vol. 2253. - P. 148-165.
3. Gurioli A. Stylometry for real-world expert coders: a zero-shot approach / A. Gurioli, M. Gabbrielli, S. Zacchiroli // PeerJ Computer Science. - 2024. - Vol. 10. - Р. e2429. EDN: MVHLLM
4. Alsulami B. Source Code Authorship Attribution Using Long Short-Term Memory Based Networks / B. Alsulami, E. Dauber, R. Harang, S. Mancoridis, R. Greenstadt // Computer Security. Lecture Notes in Computer Science. - Cham: Springer, 2017. - Vol. 10492. - P. 65-82.
5. Caliskan-Islam A. De-anonymizing programmers via code stylometry / A. Calis-kan-Islam, R. Harang, A. Liu, A. Narayanan, C. Voss, F. Yamaguchi, R. Green-stadt // Proceedings of the 24th USENIX Security Symposium. - Berkeley, CA: USENIX Association, 2015. - P. 255-270.
6. Frantzeskou E. Source code authorship analysis using byte-level or n-gram fea-tures / E. Frantzeskou, E. Stamatatos, S. Gritzalis, C. Chaski / Journal of Systems and Software / Information and Software Technology. - 2006. - Vol. 6. -P. 508-515.
7. Ilyas M. Source Code Author Attribution Using Author’s Programming Style and Code Smells / M. Ilyas, T. Zia, M. Gull // International Journal of Intelligent Sys-tems and Applications. - 2017. - Vol. 9, No. 5. - P. 22-33. DOI: 10.5815/ijisa.2017.05.04 EDN: ZTKPME
8. Gorchakov A.V. Source Code Embeddings Based on Control Flow Graphs and Markov Chains for Program Classification / A.V. Gorchakov, L.A. Demidova, V.V. Maslennikov // Proc. 6th Int. Conf. on Control Systems, Mathematical Modeling, Automation and Energy Efficiency (SUMMA). - Lipetsk, Russian Federation, 2024. - P. 328-333.
9. Bogdanova A. Source code authorship attribution using file embeddings // Companion Proceedings of the 2021 ACM SIGPLAN: International Conference on Systems, Programming, Languages, and Applications: Software for Humanity. - 2021. - P. 31-33. EDN: ETUHKO
10. Zhen L. RoPGen: Towards Robust Code Authorship Attribution via Automatic Coding Style Transformation // Proceedings of the 44th IEEE International Conference on Software Engineering (ICSE). - Pittsburgh, PA, USA, 2022. -P. 1906-1918.
11. Yang X. Authorship attribution of source code by using back propagation neural network based on particle swarm optimization / X. Yang, G. Xu, Q. Li, Y. Guo, M. Zhang // PLoS ONE. - 2017. - Vol. 12, No. 11. - Р. e0187204.
12. Mahbub P. Authorship Identification of Source Code Segments Written by Multi-ple Authors Using Stacking Ensemble Method / P. Mahbub, N.Z. Oishie, S.M.R. Haque // Proceedings of the 22nd International Conference on Computer and In-formation Technology (ICCIT). - Dhaka, Bangladesh: IEEE, 2019. - P. 1-6.
13. Alvarez-Fidalgo D. CLAVE: A deep learning model for source code authorship verification with contrastive learning and transformer encoders / D. Alvarez-Fidalgo, F. Ortm // Information Processing Management. - 2025. - Vol. 62. -Р. 104005. EDN: JGOIBF
14. Choi S. I Can Find You in Seconds! Leveraging Large Language Models for Code Authorship Attribution / S. Choi, Y.K.Tan, M.H. Meng, M. Ragab, S. Mondal, D. Mohaisen, K.M.M. Aung [Электронный ресурс]. - (дата обращения: 15.08.2025). DOI: 10.48550/arXiv.2501.08165
15. Adam I. Learning Explainable Multi-view Representations for Malware Authorship Attribution / I. Adam, A. Waagen, D. Warmsley, J. Xu // Proc. 2023 IEEE Int. Conf. on Big Data (BigData). - 2023. - P. 3099-3106.
16. Романов А.С. Методология идентификации автора текстовой информации для решения задач кибербезопасности: дис.. д-ра техн. наук. - Томск: ТУСУР, 2025 [Электронный ресурс]. - URL: https://postgraduate.tusur.ru/urls/51p1ctn6(датаобращения:06.09.2025).
17. GitHub [Электронный ресурс]. - URL: https://github.com/(датаобращения:15.08.2025).
18. Kurtukova A.Complex Cases of Source Code Authorship Identification Using a Hybrid Deep Neural Network / A. Kurtukova, A. Romanov, A. Shelupanov, A. Fedotova // Future Internet. - 2022. - Vol. 14. - Р. 287. EDN: RANSYS
Выпуск
Другие статьи выпуска
Работа посвящена применению методов цифрового моделирования для анализа изменений характеристик солнечной батареи космического аппарата в процессе её эксплуатации. Описывается процесс создания модели солнечной батареи с использованием современных инструментов моделирования, включая учёт особенностей функционирования в условиях космического пространства. Приводится методика расчёта освещённости панелей солнечной батареи для околоземных орбит. Для верификации модели проведено сравнение выходных данных моделирования с телеметрическими данными солнечных батарей, находящихся в эксплуатации на реальных космических аппаратах. Особое внимание уделено практическим рекомендациям по применению модели на этапе проектирования и наземных испытаний.
Проведен сравнительный анализ вольтодобавочной и изолированной топологий резонансного LLC-преобразователя с двухполярным выходным напряжением. Установлено, что вольтодобавочная топология позволяет снизить массогабаритные параметры и потери трансформатора, сохраняя при этом требуемые выходные параметры при колебаниях нагрузки. Проведена оценка действующих значений тока резонансных контуров, определяющая статические потери, показывающая увеличение действующего тока резонансного контура вольтодобавочной топологии в 1,5 раза относительно изолированного аналога. Результаты работы свидетельствуют о значительном улучшении массогабаритных показателей с сохранением прежней энергоэффективности предложенного преобразователя по сравнению с классическими изолированными решениями.
Предложен алгоритм построения нечеткого классификатора типа Min-Max с адаптацией параметра максимального размера гипербокса с помощью регрессионной модели. Модель для нахождения параметра разрабатывалась на основе методов машинного обучения. Для этого предложена система из 38 метапризнаков, характеризующих свойства наборов данных и вычисляемых рекуррентно для обеспечения онлайн-обучения. Проведен вычислительный эксперимент построения классификаторов предложенным алгоритмом для решения таких задач кибербезопасности, как обнаружение спама, обнаружение фишинговых сайтов и обнаружение атак на сетевые ресурсы. В задачах обнаружения спама и фишинговых сайтов предлагаемый алгоритм продемонстрировал статистически значимое увеличение точности по сравнению с алгоритмом классификации типа Min-Max без использования регрессионной модели.
Для кластеризации имеющейся выборки статистических данных предложена списочная регрессионная модель, содержащая в каждом уравнении списка полный набор входных переменных. Задача оценивания неизвестных параметров этой модели с помощью метода наименьших модулей сведена к задаче частично булевого линейного программирования. Для контроля количества регрессоров в уравнениях списка оптимизационная задача расширена дополнительными ограничениями. Решение этой задачи позволяет получить наилучший состав входящих в уравнения списка регрессоров, коэффициенты уравнений и правило их переключения. Проведены вычислительные эксперименты, подтвердившие корректность разработанного математического аппарата.
Проводится сравнительный анализ архитектурных особенностей ROS1 и ROS2 применительно к задаче обработки облаков точек LIDAR. Учитывая требования горнодобывающей отрасли к надежности, масштабируемости и устойчивости к отказам, рассмотрены ключевые компоненты обеих версий ROS, их архитектурные различия, ограничения ROS1 и преимущества ROS2. Особое внимание уделено реализации конвейера предобработки LiDAR-данных в ROS2, вопросам интеграции с модулями SLAM и обнаружения объектов, а также проблемам конфигурации DDS и настройки QoS. Также рассматриваются сложности, возникающие при переходе с ROS1 на ROS2, и предлагаются рекомендации по их преодолению, включая использование мостов для совместной работы узлов. Представленные результаты могут быть полезны при проектировании надежных и эффективных систем управления беспилотными транспортными средствами в условиях карьеров и других сложных производственных сред.
Проведён технический анализ трёх типов аналогово-цифровых преобразователей (АЦП) поразрядного взвешивания: классический АЦП, нейронный самомаршрутизирующийся АЦП (НС АЦП) и НС АЦП с модулем расширенной внутренней диагностики (НС АЦП МРВД). Рассмотрены особенности каждого варианта, включая время преобразования, точность преобразования, возможность многоканального преобразования сигналов, динамическое изменение разрядности и диагностику точности. Показано, что как НС АЦП, так и НС АЦП МРВД позволяют обеспечить требуемую скорость получения данных в контуре управления (4 мс на цикл для приведенного примера) без использования внешнего мультиплексора, а внедрение МРВД сокращает число отдельных измерений на ~25% при сохранении полного объёма информации и повышает быстродействие измерительной подсистемы.
Рассматриваются принципы построения и внедрения программного комплекса «SZMK», предназначенного для цифровизации бизнес-процесса производства металлических конструкций. Предложено архитектурное решение, реализующее сквозное цифровое сопровождение проектной документации на всех этапах жизненного цикла - от моделирования 3D-конструкций до их архивирования, передачи в производство и синхронизации с ERP-системой. Описаны реализованные модули, включающие инструменты верификации моделей, маршрутизации чертежей, автоматической идентификации и визуализации степени готовности изделий. Особое внимание уделено механизму унификации проектных элементов, направленному на сокращение дублирования и стандартизацию проектных решений. Проведён анализ функциональных возможностей системы и её роли в формировании единого информационного пространства предприятия. Представленные решения демонстрируют эффективность цифровой трансформации процессов управления проектной информацией в условиях реального производства.
Представлен расширенный сравнительный анализ современных программных средств, предназначенных для моделирования различных процессов и систем в широком диапазоне областей - от физики, химии и математики до электротехники и систем управления. Рассматриваются как коммерческие, так и открытые программные платформы, включая COMSOL Multiphysics, Ansys Fluent, MatLab/Simulink, OpenFOAM, DWSIM, LTSpice и др. Особое внимание уделено классификации систем моделирования по области применения, типу лицензирования, уровню абстракции и используемым парадигмам моделирования. Статья подробно анализирует особенности и архитектуру двух российских систем моделирования - МАРС и SimInTech, их функциональные возможности, интеграционные решения, лицензирование, документацию и области применения. Выполнен сравнительный анализ этих отечественных решений с зарубежными аналогами, выявлены их преимущества, недостатки и потенциальные ниши применения. Также обсуждаются ключевые тенденции в развитии средств моделирования, включая рост значимости открытого программного обеспечения, развитие цифровых двойников, интеграцию с ИИ и облачными платформами, а также стандартизацию через такие инициативы, как Modelica, FMI и CAPE-OPEN. Статья представляет интерес как для исследователей и инженеров, так и для преподавателей и студентов технических направлений.
ГРАФОВЫЕ МОДЕЛИ, КОРРЕЛЯЦИЯ ИНЦИДЕНТОВ, ИНФОРМАЦИОННАЯ БЕЗОПАСНОСТЬ, SOC, SIEM, EDR, NTA, CVSS, MITRE ATT&CK, TF-IDF, АВТОМАТИЗАЦИЯ АНАЛИЗА, АНАЛИЗ ИНЦИДЕНТОВ
Проблема восстановления изображений в условиях пониженной видимости остаётся актуальной, и для её решения разработано множество методов, однако универсального решения, одинаково эффективного для всех условий съёмки, не существует. Выполнен сравнительный анализ алгоритмов CLAHE, Retinex, физической модели тёмного канала (DCP) и нейросетевого подхода DehazeNet. Качество восстановленных изображений оценивалось по метрике BRISQUE, позволяющей объективно сравнивать результаты при отсутствии эталонных данных. Тестирование на реальных изображениях показало, что метод тёмного канала стабильно обеспечивает лучшие значения метрики среди рассматриваемых подходов, подтверждая свою универсальность и надёжность для практических приложений компьютерного зрения в условиях тумана и дымки.
Рассматриваются процесс управления и проблемы проектной деятельности в университете. Приводятся результаты моделирования и разработки информационной системы, обеспечивающей, помимо традиционного учета проектов, участников и результатов, внедрение методов отслеживания уровня готовности продуктов, учета сквозной проектной деятельности в рамках дисциплин и анализа проектной деятельности по различным критериям.
Рассмотрены основные задачи автоматизации и управления технологическим процессом экстракционной очистки актиноидов, а также представлен подход к моделированию экстракционной колонны в формате метода блочно-компонентных цепей (МБКЦ) в среде моделирования МАРС (моделирование и автоматический расчет систем) и автоматизации экстракционного процесса с учетом различных воздействий. При моделировании колонного аппарата для описания экстракционного процесса за основу была взята диффузионная модель, позволяющая учитывать условия массопереноса. Полученные результаты подтверждают возможность использования метода блочно-компонентных цепей для моделирования сложных химико-технологических систем и аппаратов с последующей интеграцией модели в автоматизированную систему управления (АСУ) для оптимизации и повышения эффективности технологических процессов.
Возникновение аварийных ситуаций на предприятиях приводит к прекращению или ослаблению рабочего потока, что несёт экономические убытки независимо от того, насколько быстро аварии устранены. Следовательно, возможность заранее предупредить возникновение подобных ситуаций будет крайне востребована во многих отраслях экономики. В работе реализован подход к подготовке данных из БД SCADA-системы. используя алгоритм вычисления средних значений параметров за единицу времени и корреляционный анализ. На подготовленных данных обучена модель машинного обучения, использующая реализацию метода случайного леса для классификации текущего состояния участка технологического объекта как предаварийной для симуляции работы реальной системы в потоковом режиме. Получившаяся модель без тонкой настройки и оптимизации гиперпараметров показала высокие значения точности предсказания и других метрик, что позволяет говорить о возможности использования моделей машинного обучения для решения задачи.
Статья раскрывает нормативную базу работы государственной системы, направленной на выявление, предотвращение и устранение последствий кибератак на информационные ресурсы Российской Федерации. Автором представлена нотация процесса обнаружения таких атак в соответствии с серией стандартов ГОСТ 59709-59712. Предложена модификация методики выявления компьютерных атак, которая в отличие от существующих подходов, основанных на сигнатурном анализе, включает использование алгоритмов машинного обучения. В результате исследования сформулирована гибридная методика выявления компьютерных инцидентов, которая содержит формализованную нотацию процессов, обеспечивающую соответствие требованиям национальных стандартов и механизмы предиктивного анализа на основе машинного обучения.
Нефтегазовая индустрия Российской Федерации - мощный драйвер развития экономики страны - напрямую зависит от скорости ввода в эксплуатацию новых месторождений по добыче полезных ископаемых. Снижение точности прогнозирования объемов добычи углеводородов российскими компаниями является следствием ухудшения качества их ресурсной базы. В данном исследовании оценивается эффективность прогностических моделей на основе машинного обучения для прогнозирования объемов добычи углеводородов. Изложен метод обучения прогностических моделей нейронных сетей, включающий в себя массив геолого-физических и проектных показателей разработки месторождений нефти и газа. Восстановлены недостающие геолого-геофизические данные при помощи различных методов аугментации.
Рассматривается разработка интерактивного лабораторного комплекса (ИЛК) для полигона учебных лабораторий, интегрирующего реальные установки, виртуальные модели и учебно-методические сервисы. Предлагается многоуровневая архитектура полигона и ИЛК, включая объектный, логический и визуальный уровни, среду моделирования МАРС, информационную систему управления лабораторией и микроконтроллерную часть. Демонстрационный пример с аппаратом воздушного охлаждения иллюстрирует взаимодействие цифрового двойника и реального объекта. Анализ показал, что ИЛК сочетает преимущества физических и виртуальных лабораторий, обеспечивая доступность и достоверность обучения.
Рассматриваются современные методы усовершенствования и адаптации полярных кодов, класса помехоустойчивых кодов, обладающих теоретически доказанной способностью приближаться к пределу Шеннона. Полярные коды были стандартизированы в 5G NR для управляющих каналов и рассматриваются в качестве одного из перспективных кандидатов для использования в системах связи 6G благодаря их высокой эффективности, гибкости и масштабируемости. Кратко изложены основные принципы построения полярных кодов, включая процесс поляризации каналов и базовые алгоритмы декодирования. Представлена реализация полярных кодов в спецификациях 5G, включая процедуры сегментации, добавления циклического избыточного кода (Cyclic Redundancy Check, CRC), перемежения и согласование скоростей. Далее рассмотрены современные направления развития полярных кодов: усовершенствованные схемы декодирования, в том числе с применением алгоритма распространения доверия и быстрого упрощенного последовательного исключения, коды на основе мультиядер, адаптация к условиям многолучевых каналов, а также подходы на базе нейронных сетей, направленные на оптимизацию декодеров и конструкций кодов под конкретные условия передачи. В заключении обсуждаются проанализированные методы, существующие проблемы и открытые вопросы, а также перспективы дальнейшего развития полярных кодов в контексте требований будущих беспроводных систем связи.
Представлены этапы разработки монолитных интегральных схем отражающего и поглощающего типа SPDT-переключателей, работающих в широкой полосе частот от 10 МГц до 67 ГГц, изготовленных на технологии 0,1 мкм GaAs-pHEMT. Описаны схемы переключателей, процесс моделирования и экспериментальное исследование микросхем. Представлено сравнение полученных параметров с текущим уровнем техники на различных технологиях. Предложен способ увеличения развязки переключателей с показателем более 32 дБ и с обеспечением значения вносимых потерь в открытом канале менее 3,4 дБ в диапазоне частот: 0,01-67 ГГц.
Издательство
- Издательство
- ТУСУР
- Регион
- Россия, Томск
- Почтовый адрес
- 634050, Томская обл, г Томск, пр-кт Ленина, д 40
- Юр. адрес
- 634050, Томская обл, г Томск, пр-кт Ленина, д 40
- ФИО
- Рулевский Виктор Михайлович (РЕКТОР)
- E-mail адрес
- schkarupo.anastasia@yandex.ru
- Контактный телефон
- +7 (902) 7689232
- Сайт
- https://tusur.ru/ru