В статье рассматриваются возможности применения методов Text Mining в практике анализа открытых вопросов анкеты. В работе представлен пример исследования униграмм и биграмм, а также поиска латентных топиков с помощью тематического моделирования. Эмпирическими материалами послужили данные проведённого в 2022 году анкетного опроса, в котором приняло участие 929 студентов одного московского экономического вуза. В открытом вопросе анкеты предлагалось определить миссию университета, что дало возможность представить в плоскости субъективной интерпретации предназначение высшей школы в современных условиях. Частотный анализ униграмм, дополненный качественным исследованием высказываний респондентов, позволил составить словарь студенческого дискурса о миссии вуза. Артикулирование биграмм осуществлялось на основе нескольких статистических метрик, с опорой на которые были проранжированы словосочетания и выделен ключевой набор концептов. Выявлено, что в восприятии студентов первоочередные задачи вуза прежде всего направлены на трансляцию профессиональных знаний и навыков, в широком смысле - подготовку квалифицированных специалистов. Социальные функции университета, ориентированные на удовлетворение потребностей общества и государства, в концептуальных интерпретациях опрошенных студентов выражены слабее. На следующем этапе исследования была выдвинута задача анализа латентных топиков с помощью тематического моделирования. Особенностью тематического моделирования является то, что объединённые в один топик слова отражают идентифицированное программой распределение слов, но не в буквальном смысле понятную для человека тему. Учитывая специфику применяемого метода, авторы продемонстрировали результаты поискового анализа в практике обработки открытого вопроса. Как оказалось, ключевые слова, сосредоточенные в ядре основных тем, в основном связаны с обеспечением потребностей самих обучающихся, оставляя на периферии вербализируемых определений понимание значимости вуза как платформы для инноваций, научных разработок, предпринимательских и иных инициатив во благо общества и страны. Результаты представленного исследования могут быть полезны для переосмысления исследовательского инструментария социологов в условиях активного развития цифровых технологий, что требует апробации новых методов, понимания их реальных возможностей и ограничений в решении задач социологического исследования.
Идентификаторы и классификаторы
В последнее время особое внимание практикующих социологов-исследователей привлекают технологии интеллектуального анализа текстов (Text Mining), расширяющие и обновляющие классический научно-методологический арсенал новыми методами обработки и анализа социологических данных.
Список литературы
1. Классификация текстовых документов на основе Text Minig / А. А. Алексеев, А. С. Катасёв, А. Е. Кириллов, А. П. Кирпичников // Вестник технологического университета. 2016. Т. 19, № 18. C. 116-119. EDN: WYBSGN Alekseev A. A., Katasev A. S., Kirillov A. E., Kirpičnikov A. P. Classification of text documents based on Text Minig. Vestnik tehnologičeskogo universiteta=Bulletin of the Technological University. 2016;19(18):116-119. (In Russ.).
2. Hotho A., Nürnberger A., Paaß G. A Brief Survey of Text Mining // Journal for Language Technology and Computational Linguistics. 2005. Vol. 20, № 1. P. 19- 62. DOI: 10.21248/jlcl.20.2005.68
3. Isaeva E., Aldarova D. Text-Mining in Terms of Methodology and Development // Proceedings of 2021 IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering (ElConRus). (Moscow, 26-29 January 2021). Moscow: IEEE, 2021. P. 413-416. DOI: 10.1109/ElConRus51938.2021.9396437 EDN: SECGLN
4. Осочкин А. А., Фомин В. В., Флегонтов А. В. Метод частотно-морфологической классификации текстов // Программные продукты и системы. 2017. Т. 30, № 3. С. 478-486. DOI: 10.15827/0236-235X.030.3.478-486 EDN: ZDUXZD Osochkin A. A., Fomin V. V., Flegontov A. V. Method of frequency-morphological classification of texts. Software products and systems=Programmny’e produkty’ i sistemy’. 2017;30(3):478-486. (In Russ.). DOI: 10.15827/0236235X.030.3.478-486 EDN: ZDUXZD
5. Macanovic A. Text mining for social science - The state and the future of computational text analysis in sociology // Social Science Research. 2022. Vol. 108. P. 1-16. DOI: 10.1016/j.ssresearch.2022.102784 EDN: SXELZJ
6. Evans J. A., Aceves P. Machine Translation: Mining Text for Social Theory // Annual Review of Sociology. 2016. Vol. 42. P. 21-50. DOI: 10.1146/annurevsoc-081715-074206
7. Does counting emotion words on online social networks provide a window into people’s subjective experience of emotion? A case study on Facebook / E. Kross, P. Verduyn, M. Boyer [et al.] // Emotion. 2019. Vol. 19, № 1. P. 97-107. DOI: 10.1037/emo0000416
8. Karlgren J., Li R., Meyersson Milgrom E. M. Text mining for processing interview data in computational social science // arXiv: [сайт]. 28 Nov 2020. URL: https://arxiv.org/abs/2011.14037 (дата обращения: 26.10.2023). DOI: 10.48550/arXiv.2011.14037
9. Дудина В. И., Юдина Д. И. Извлекая мнения из сети Интернет: могут ли методы анализа текстов заменить опросы общественного мнения? // Мониторинг общественного мнения: Экономические и социальные перемены. 2017. № 5 (141). С. 63-78. DOI: 10.14515/monitoring.2017.5.05 EDN: VTHJMT
Dudina V. I., Iudina D. I. Mining opinions on the Internet: can the text analysis methods replace public opinion polls? Monitoring obshchestvennogo mneniya: ekonomicheskie i social’nye peremeny=Monitoring of public opinion: Econo mic and social changes. 2017;5(141):63-78. (In Russ.). DOI: 10.14515/monitoring.2017.5.05
10. Кольцова О. Ю., Маслинский К. А. Выявление тематической структуры российской блогосферы: автоматические методы анализа текстов // Социология: 4М. 2013. № 36. C. 113-139. EDN: RCFOWJ
Koltsova O. Y., Maslinsky K. A. Identifying the thematic structure of the Russian blogosphere: automatic text analysis methods. Sociologiya: 4M=Sociology: 4M. 2013;(36):113-139. (In Russ.).
11. Кашина М. А., Ткач С. Социология ценностей: опыт построения таксономии путём использования технологии анализа естественного языка // Цифровая социология. 2023. Т. 6, № 1. С. 48-58. DOI: 10.26425/2658-347X-2023-6-1-4858 EDN: YROQXD Kashina M. A., Tkach S. Sociology of values: experience of building a taxonomy by using natural language analysis technology. Cifrovaya sociologiya=Digital Sociology. 2023;6(1):48-58. (In Russ.). DOI: 10.26425/2658-347X-2023-6-1-48-58
12. Оценка соответствия приоритетов стратегического развития регионов их отраслевой специализации на основе Text Mining / Е. В. Козоногова, Ю. В. Дубровская, М. Р. Русинова, П. В. Иванов // Вопросы государственного и муниципального управления. 2022. № 2. С. 106-133. DOI: 10.17323/19995431-2022-0-2-106-133 EDN: JRFOUQ Kozonogova E. V., Dubrovskaya Yu. V., Rusinova M. R., Ivanov P. V. Assessment of compliance of strategic development priorities of regions with their industry specialization based on Text Mining. Voprosy gosudarstvennogo i municipal’nogo upravleniya=Public administration issues. 2022;(2):106-133. (In Russ.). DOI: 10.17323/1999-5431-2022-0-2-106-133
13. Kotsiantis S. B., Kanellopoulos D., Pintelas P. E. Data Preprocessing for Supervised Leaning // International Journal of Computer and Information Engineering. 2007. Vol. 1, № 12. P. 4091-4096.
14. Bird S., Klein E., Loper E. Natural language processing with Python. Sebastopol: O’Reilly Media, 2009. 479 p. ISBN: 978-0-596-51649-9
15. Воронцов К. В. Вероятностное тематическое моделирование. 2013. 28 с. URL: https://mathprofi.com/uploads/files/3314_f_41_veroyatnostnoe-tematicheskoe-modelirovanie.-k.v.voroncov-2013g.pdf?key=19789ad13cac2399925acb68b1e18d8e/ (дата обращения: 26.10.2023). Vorontsov K. V. Probabilistic Topic modeling. 2013. 28 p. Available at: https://mathprofi.com/uploads/files/3314_f_41_veroyatnostnoe-tematicheskoe-modelirovanie.-k.v.voroncov-2013g.pdf?key=19789ad13cac2399925acb68b1e18d8e/ (accessed: 26.10.2023). (In Russ.).
16. Оберемко О. А. К типологии открытых вопросов // Мониторинг общественного мнения: Экономические и социальные перемены. 2018. № 4 (146). С. 97-108. DOI: 10.14515/monitoring.2018.4.06 EDN: UZQQIE Oberemko O. A. On typology of open-ended questions. Monitoring obshchestvennogo mneniya: ekonomicheskie i social’nye peremeny=Monitoring of public opinion: Economic and social changes. 2018;(4):97-108. (In Russ). DOI: 10.14515/monitoring.2018.4.06
17. Ненько А. Е., Недосека Е. В., Галактионова А. А. Возможности семантического анализа ключевых биграмм для исследования дискурса соседского онлайн сообщества // International Journal of Open Information Technologies. 2021. Т. 9, № 12. С. 111-118. DOI: 10.25559/INJOIT.2307-8162.09.202112.111-118 EDN: QTJRPZ Nenko A., Nedoseka E., Galaktionova A. Possibilities of the key bigrams semantic analysis for studying the discourse of an online neighbor community. International Journal of open information technologies. 2021;9(12):111-118. (In Russ.). DOI: 10.25559/INJOIT.2307-8162.09.202112.111-118 EDN: QTJRPZ
18. Хохлова М. В. Статистический подход применительно к исследованию сочетаемости: от мер ассоциации к машинному обучению // Структурная и прикладная лингвистика: межвуз. сб. / Отв. ред. И. С. Николаев. СПб: Изд-во С.-Петерб. ун-та, 2019. Вып. 13. С. 106-122. EDN: GKFUJY
Khokhlova M. V. Statistical approach to collocation extraction: from association measures to machine learning. In: Nikolaev I. S. ed. Structural and applied linguistics: interuniversity collection of articles. Issue 13 [Strukturnaya i prikladnaya lingvistika: mezhvuz. Sb.] Saint-Petersburg: Izd-vo S.-Peterb. un-ta; 2019. Р. 106-122. (In Russ.). EDN: GKFUJY
19. Хохлова М. В. К вопросу о сходстве мер ассоциации применительно к задаче автоматического извлечения глагольных коллокаций // Компьютерная лингвистика и вычислительные онтологии. 2019. № 3. С. 9-18. DOI: 10.17586/25419781-2019-3-9-18 EDN: LCONAI Khokhlova M. V. On the question of the similarity of association measures in relation to the problem of automatic extraction of verb collocations. Komp’yuternaya lingvistika i vychislitel’nye ontologii=Computer linguistics and computing ontologies. 2019;(3):9-18. (In Russ.). DOI: 10.17586/2541-9781-2019-3-9-18
20. Kormacheva D., Pivovarova L., Kopotev M. Evaluation of collocation extraction methods for the Russian language // Quantitative approaches to the Russian language. New York: Routledge, 2018. P. 137-157. DOI: 10.4324/9781315105048-7
21. Рассел М., Классен М. Data Mining. 3-е изд. СПб.: Питер, 2020. 464 с. ISBN: 978-5-4461-1246-3
Russell M. A., Klassen M. Mining the Social Web: Data Mining. Saint-Petersburg: Piter; 2020. 464 p. (In Russ.). ISBN: 978-5-4461-1246-3
22. Кирина М. А. Сравнение тематических моделей на основе LDA, STM и NMF для качественного анализа русской художественной прозы малой формы // Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация. 2022. Т. 20, № 2. С. 93-109. DOI: 10.25205/1818-7935-2022-202-93-109 EDN: MWZRKH Kirina M. A. A Comparison of topic models based on LDA, STM and NMF for qualitative studies of Russian short prose. Vestnik NGU. Seriya: Lingvistika i mezhkul’turnaya kommunikaciya=Vestnik NSU. Series: Linguistics and intercultural communication. 2022;20(2):93-109. (In Russ.). DOI: 10.25205/1818-79352022-202-93-109
23. Тематическое моделирование в контексте медицинских текстов / С. А. Землянский, С. В. Аксёнов, И. А. Лызин, О. Г. Берестнева // Доклады ТУСУР. 2021. Т. 24, № 4. С. 58-64. DOI: 10.21293/1818-0442-2021-24-4-58-64 EDN: PWQTGR Zemlyansky S. A., Axyonov S. V., Lyzin I. A., Berestneva O. G. Topic modeling in the context of medical texts. Doklady TUSUR=Proceedings of TUSUR University. 2021;24(4):58-64. (In Russ.). DOI: 10.21293/1818-0442-2021-24-4-58-64
24. Воронцов К. В., Потапенко А. А. Регуляризация, робастность и разреженность вероятностных тематических моделей // Компьютерные исследования и моделирование. 2012. Т. 4, № 4. С. 693-706. EDN: PWNZXV Vorontsov K. V., Potapenko A. A. Regularization, robustness and sparsity of probabilistic topic models. Komp’yuternye issledovaniya i modelirovanie=Computer research and modeling. 2012;4(4):693-706. (In Russ.). EDN: PWNZXV
25. Pääkkönen J., Ylikoski P. Humanistic interpretation and machine learning // Synthese. 2021. Vol. 199, № 1. P. 1461-1497. DOI: 10.1007/s11229-02002806-w EDN: CDPQZP
26. Луков В. А. Тезаурусная социология: в 4 т. М.: Изд-во Моск. гуманит. ун-та, 2018. Т. 1. 608 с. ISBN: 978-5-907017-45-0 Lukov Val. A. Thesaurus Sociology: in 4 volumes [Tezaurusnaya sociologiya: v 4 t.]. Moscow: Izd-vo Mosk. gumanit. un-ta; 2018. Vol. 1. 608 p. (In Russ.). ISBN: 978-5-907017-45-0
Выпуск
Другие статьи выпуска
В последние десять лет, без преувеличения, самым распространённым и актуальным является дискурс о городе, его формах, планировании и управлении в условиях неопределённости. Перспективы развития города, городского сообщества зависят не столько от влияния внешних факторов, сколько от артикуляции и репрезентации содержания социального запроса со стороны общества, населения конкретных городов. У горожан сформировано видение настоящего и будущего своего города, а его восприятие у жителей складывается на основе представлений о современном городе и воспроизведено как дискурс в суждениях, мнениях, оценках населения. Городской дискурс есть позиционирование, репрезентация городской идентичности горожан и отражение восприятия идентичности города. Присутствие этого дискурса находим в нарративах горожан о городе. В основе исследования - нарративы личного опыта: рассуждение информантов о том, как они оценивают и воспринимают свой город. Тактика исследования - нарративный анализ, дополненный сентимент анализом (позитивная или негативная подача материала), метод - контент-анализ. Цель работы: исследование восприятия идентичности города горожанами. Новизна работы определена дизайном исследования, сочетающим качественный и количественный подходы, метод триангуляции по Н. Дензину [1, с. 24], а также выбором субъективного параметра (восприятие горожанами своего города) в качестве ориентира для управленческих действий при формировании идентичности города для достижения связности «город - горожанин». Дополнительным вкладом данной работы является выстраивание парной логики связности «город - горожанин» через соотношение показателей городской идентичности горожан и идентичности города на основе эмпирических данных по шести городам Тюменской области. Исследование показало, что горожане с высоким уровнем городской идентичности воспринимают город через личностное участие в его жизни, через проявление субъектности.
В статье рассмотрена проблема востребованности института медиации в России. Приведены статистические данные по стране за 2020 год и проанализированы данные по Ростовской области за тот же период. Сделан сравнительный анализ с данными за аналогичный период по Свердловской области. Информационную и эмпирическую базу исследования составляют материалы: сайта Судебного Департамента при Верховном Суде РФ; Ассоциации медиаторов Ростовской области «Примирение»; «Комнаты примирения» в Арбитражном суде Свердловской области. Использованы методы контент-анализа, статистического анализа, глубинного интервью, массового опроса, проведённого среди занятого населения Ростовской области в возрасте от 21 до 30 лет. В ходе исследования выявлены: слабая осведомлённость респондентов о возможностях использования процедуры медиации, о её структуре и особенностях; низкий уровень современной медиативной практики в стране. Показано, что в России на сегодняшний день суды завалены исками, в то время как медиация вполне могла бы конструктивно решать многие социальные проблемы. Обоснована необходимость создания благоприятных условий для развития медиативной деятельности и её популяризации. Выявлены основные причины, препятствующие институту медиации стать востребованной деятельностью среди населения: низкая культура решения конфликтов, приводящая в ряде случаев к уклонению спорящих от поиска подходящего способа его разрешения; фактор недостаточно высокого доверия к возможности решения спора с привлечением третьей стороны. Сделан вывод, что недостаток доверия в первую очередь связан с недостаточной информированностью населения о существе процедуры медиации, о правовом статусе медиативного соглашения, имеющего в случае нотариального удостоверения силу исполнительного документа. Более широкое использование всех видов СМИ, увеличение онлайн-платформ с расположением вебинаров по медиации, проводимых опытными в этой сфере специалистами, помогут распространению практики медиации и будут способствовать её скорейшей институционализации.
Трактовка и взаимосвязь понятий «факт», «смысл», «термин» на протяжении XX-XXI вв. постоянно находились в зоне интереса исследователей: социологов, философов, культурологов, лингвистов, юристов, а также писателей и журналистов. При этом данная связь, внешне понятная и логичная, осознавалась как всё более сложная композиция, зависящая и от особенностей человеческого восприятия, и от социального моделирования различного рода сообщений целевым аудиториям. В настоящей статье рассматриваются эволюция и современное состояние данных представлений, связанных, с одной стороны, с интернетизацией и медиатизацией общества; а с другой, - с наличием и даже усилением глобальной социально-политической конъюнктуры на межгосударственном и других уровнях. В фокусе исследования автора находится проблематика терроризма как наиболее острая и показательная. Единое, принятое на международном уровне определение терроризма отсутствует. Ещё в большей степени это касается социальной практики, в процессе которой исполнители и заказчики терактов определяются заинтересованными сторонами по-разному, вплоть до полной противоположности. Таким же образом трактуются и непосредственные факты террора, когда фиксация реального события дополняется или полностью подменяется демонстрацией его смыслового наполнения. В статье рассматриваются предпосылки и современная практика создания и последующего применения фактологических, смысловых и лексико-семантических элементов в композициях публикуемых сообщений. С помощью анализа материалов российских и западных средств массовой информации автор исследует изменение целей названных элементов и их роли в воздействии на целевые аудитории. В ходе изучения выдвигается и подтверждается гипотеза о том, что сообщения об актах террора превращаются в инструмент информационной войны, причём их смысловая часть приобретает доминирующий характер. Развиваются технологии проверки фактов на достоверность и выявления первичных целей авторов сообщений. Однако приоритетным типом контрдействий становится формирование у целевых групп стереотипных установок на неприятие таких событий, высказываний и их контентных обозначений в медиа, которые квалифицируются государством как террористические.
Цифровизация является в настоящее время объективной реальностью, которая, можно сказать, ежедневно изменяет жизнь как конкретного индивида, так и всего социума. Вместе с тем проводимые по вопросам цифровизации международные форумы, исследования, опубликованные монографии в гораздо большей степени посвящаются вопросам цифровизации в сфере безопасности, технологий, в экономике и образовании и гораздо в меньшей - в сфере культуры. Во многом это определяется тем, что большинство социума рассматривает культуру как отрасль, имеющую второстепенное значение для развития, а не как одну из основных и равноправных сфер жизнедеятельности общества. Автором на основе подхода к управлению сферой культуры как к процессу массовой коммуникации разработан теоретико-методологический конструкт - модель управления сферой культуры в условиях цифровизации. Анализ динамики процесса цифровизации сферы культуры в России, практического опыта автора, показал, что основными факторами, влияющими на скорость и качество цифрового развития, сегодня являются цифровые разрывы, определяющие как технологические аспекты, так и аспекты, требующие оценки и развития компетенций акторов социального управления. Автором введено в исследовательскую практику понятие «цифровой фрустрации» как результата цифрового разрыва второго уровня, которая наряду с физическими, психологическими, биологическими и социальными фрустраторами может привести общество к состоянию социальной аномии.
В статье актуализируются проблемы типологического анализа молодёжи по характеру здоровьесберегающего поведения, среди них особо выделяются вопросы формирования типообразующих признаков. Это те теоретические конструкты, характеристики, на основе которых происходит отнесение респондента к той или иной типологической группе - носителю определённого социального типа. На роль типообразующих признаков претендуют различные показатели здоровьесберегающего поведения. Их выбор зависит от множества факторов: от специфики изучаемой совокупности, от основания типологии, от цели, ради достижения которой проводится типологический анализ, от накопленного опыта исследовательских практик использования показателей и др. В статье представлены результаты поискового исследования, посвящённого изучению представлений молодёжи о здоровьесберегающем поведении. Исходная методологическая предпосылка заключалась в том, что эвристический потенциал показателей здоровьесберегающего поведения как типообразующих признаков в разных группах молодёжи различен. Правдоподобность этой предпосылки была подтверждена в процессе анализа текстовых данных, полученных методом неоконченных предложений. С опорой на построение пирамид обобщений (по данным опроса трёх возрастных групп молодёжи) были выявлены структурные элементы образа «здоровьесберегающее поведение» (элементарные обоснования, элементы, компоненты), определены доминирующие компоненты. В результате выдвинуты предположения об адекватности тех или иных методических решений при формировании типообразующих признаков.
Исследования жизненного пути нацелены на решение фундаментальных вопросов социальных наук о природе социальных изменений - определение их направления, причин и перспектив, взаимосвязи микро - и макроуровней социальной реальности. Развиваясь в рамках разных социальных наук и научных традиций, исследования жизненного пути отличаются по предметному полю и методологическим подходам и мало связаны между собой. В статье выделены основные направления в изучении жизненного пути: психологическое в рамках теорий развития личности; лонгитюдное социологическое для исследования жизненных путей отдельных когорт и сравнительного изучения поколений, социальных групп, стран и регионов; отраслевое - исследования траекторий в отдельных сферах жизни; жизненно-событийное демографическое, ценностное и биографическое. Всё многообразие методологических подходов к изучению жизненного пути предлагается объединить в две большие категории - синхронные и ретроспективные, отличающиеся временной дистанцией между событием и сообщением о событии. Особенности синхронного подхода состоят в относительно высокой надёжности измерений, но низкой гибкости в выборе показателей, длительности проведения исследования и большими финансовыми затратами. При ретроспективном подходе организационные возможности проводить изучение в любое время, а также гибкость в выборе показателей высокие, но на надёжность измерений влияют «ошибки» памяти и контекст. Ни один из этих подходов не отвечает в полной мере потребностям изучения такого сложного процесса, как жизненный путь. Решения, которые находятся в процессе разработки и тестирования, связаны с применением мультимодального подхода. В проекте «Жизненный путь, ценности, ожидания поколения, взрослевшего в 1990-е» проанализированы особенности применения метода автобиографий для больших выборок населения. Метод показал высокую чувствительность к форме (рукописной, печатной или устной), неравномерность в полноте данных и принципах отбора событий. Использование дополнительного метода - глубинных интервью - позволило увеличить полноту и сравнимость данных. Однако даже двухмодальная методическая процедура не обеспечивает эффективного решения задачи. К выделенным недостаткам относятся высокая трудоёмкость анализа, необходимость индивидуального подхода к каждой автобиографии, низкий уровень кооперации со стороны респондентов, наличие этических проблем. Дальнейшие перспективы изучения жизненного пути связаны с конвергенцией подходов и достижений разных направлений таких исследований, с развитием междисциплинарных проектов, а также с применением мультимодальной интегрированной методологии, объединяющей разные методы в единый исследовательский цикл.
Издательство
- Издательство
- ФНИСЦ РАН
- Регион
- Россия, Москва
- Почтовый адрес
- 117218, г. Москва, ул. Кржижановского, д. 24/35, к. 5
- Юр. адрес
- 117218, г. Москва, ул. Кржижановского, д. 24/35, к. 5
- ФИО
- Черныш Михаил Федорович (Директор)
- E-mail адрес
- fnisc@fnisc.ru
- Контактный телефон
- +8 (499) 1250079
- Сайт
- https://www.fnisc.ru