ISSN 2224-1833
Язык: ru

ПРОБЛЕМЫ СОЦИАЛЬНО-ЭКОНОМИЧЕСКОГО РАЗВИТИЯ СИБИРИ

Архив статей журнала

ОСОБЕННОСТИ ПОЛУЧЕНИЯ И ИСПОЛЬЗОВАНИЯ ОТКРЫТЫХ ДАННЫХ ДЛЯ ПРОВЕДЕНИЯ СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ ИССЛЕДОВАНИЙ (2024)
Выпуск: № 2 (56) (2024)
Авторы: Патрусова Алена Михайловна, БИЛЬДАНОВ А.Н., Шадрина Алина, ВАХРУШЕВА Л.С.

В статье представлен обзорный анализ особенностей и возможностей поиска, а также использования открытых данных для проведения исследований, актуальность которых обусловлена необходимостью изучения современных инструментов работы с данными для выявления различных факторов, характеризующих состояние отраслей экономики страны, региона и отдельной организации. Исследование направлено на изучение инструментария для получения данных из различных источников, на формирование алгоритма подготовки данных к проведению анализа, включающего получение данных и рассмотрение особенностей работы с файлами различных типов. Рассмотрены способы получения открытых данных: на примере наборов данных Федеральной налоговой службы - скачивание файлов в формате CSV; посредством сервиса DaData с применением протокола API - получение данных в формате JSON. Представлены инструменты для чтения файлов форматов CSV и JSON, полученных из открытых источников, это библиотека Pandas языка программирования Python и специализированная программа для работы с данными Orange. Предложен алгоритм реализации подготовки данных к анализу, включающий несколько этапов: поиск достоверного источника данных; выбор метода получения данных; получение данных в виде файлов; проверка полученных файлов на корректность; проведение разведочного анализа данных; построение и оценка модели. Раскрыта программная реализация решений открытия файлов в указанных форматах и изучения датасета с данными, что является задачей аналитика данных с применением методов, функций и их комбинаций спектра современных инструментов Data Science.

Сохранить в закладках