Статья: ОСОБЕННОСТИ ПОЛУЧЕНИЯ И ИСПОЛЬЗОВАНИЯ ОТКРЫТЫХ ДАННЫХ ДЛЯ ПРОВЕДЕНИЯ СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ ИССЛЕДОВАНИЙ
В статье представлен обзорный анализ особенностей и возможностей поиска, а также использования открытых данных для проведения исследований, актуальность которых обусловлена необходимостью изучения современных инструментов работы с данными для выявления различных факторов, характеризующих состояние отраслей экономики страны, региона и отдельной организации. Исследование направлено на изучение инструментария для получения данных из различных источников, на формирование алгоритма подготовки данных к проведению анализа, включающего получение данных и рассмотрение особенностей работы с файлами различных типов. Рассмотрены способы получения открытых данных: на примере наборов данных Федеральной налоговой службы - скачивание файлов в формате CSV; посредством сервиса DaData с применением протокола API - получение данных в формате JSON. Представлены инструменты для чтения файлов форматов CSV и JSON, полученных из открытых источников, это библиотека Pandas языка программирования Python и специализированная программа для работы с данными Orange. Предложен алгоритм реализации подготовки данных к анализу, включающий несколько этапов: поиск достоверного источника данных; выбор метода получения данных; получение данных в виде файлов; проверка полученных файлов на корректность; проведение разведочного анализа данных; построение и оценка модели. Раскрыта программная реализация решений открытия файлов в указанных форматах и изучения датасета с данными, что является задачей аналитика данных с применением методов, функций и их комбинаций спектра современных инструментов Data Science.
Информация о документе
- Формат документа
- Кол-во страниц
- 1 страница
- Загрузил(а)
- Лицензия
- —
- Доступ
- Всем
- Просмотров
- 5
Информация о статье
- ISSN
- 2224-1833
- Журнал
- ПРОБЛЕМЫ СОЦИАЛЬНО-ЭКОНОМИЧЕСКОГО РАЗВИТИЯ СИБИРИ
- Год публикации
- 2024