ПРОБЛЕМЫ СОЦИАЛЬНО-ЭКОНОМИЧЕСКОГО РАЗВИТИЯ СИБИРИ
Архив статей журнала
В статье представлен обзорный анализ особенностей и возможностей поиска, а также использования открытых данных для проведения исследований, актуальность которых обусловлена необходимостью изучения современных инструментов работы с данными для выявления различных факторов, характеризующих состояние отраслей экономики страны, региона и отдельной организации. Исследование направлено на изучение инструментария для получения данных из различных источников, на формирование алгоритма подготовки данных к проведению анализа, включающего получение данных и рассмотрение особенностей работы с файлами различных типов. Рассмотрены способы получения открытых данных: на примере наборов данных Федеральной налоговой службы - скачивание файлов в формате CSV; посредством сервиса DaData с применением протокола API - получение данных в формате JSON. Представлены инструменты для чтения файлов форматов CSV и JSON, полученных из открытых источников, это библиотека Pandas языка программирования Python и специализированная программа для работы с данными Orange. Предложен алгоритм реализации подготовки данных к анализу, включающий несколько этапов: поиск достоверного источника данных; выбор метода получения данных; получение данных в виде файлов; проверка полученных файлов на корректность; проведение разведочного анализа данных; построение и оценка модели. Раскрыта программная реализация решений открытия файлов в указанных форматах и изучения датасета с данными, что является задачей аналитика данных с применением методов, функций и их комбинаций спектра современных инструментов Data Science.