В данной статье описываются подходы и методы анализа морфологической изменчивости русского языка. Было разработано и опубликовано решение, способное производить лемматизацию русского текста, используя бессловарный подход.
Идентификаторы и классификаторы
Одной из важнейших задач обработки естественного языка является лемматизация. Лемматизация позволяет переводить слова естественного языка в начальную форму. Это может использоваться в построении решений для анализа тональности текста, эмоциональной окрашенности, выявлению сущностей и эмоций, а также распознаванию сарказма и других задач машинной обработки текста. Для данной задачи уже существует множество способов решений. Одни выполнены в виде библиотек и словарей, которые уже содержат базу слов и все их формы, другие используют бессловарные алгоритмы видоизменения слов, существуют также генеративные модели, способные решить данную задачу.
Список литературы
1. Белоногов Г.Г., Котов Р.Г. Автоматизированные информационно-поисковые системы. - М.: Советское радио, 1968. 184 с.
2. Зализняк А. А., “Русское именное словоизменение” с приложением избранных работ по современному русскому языку и общему языкознанию. - М: Наука, 1967. - 752 с.
3. Belonogov, G., Horoshilov, A., Horoshilov, A.: Automation of the English-Russian bilingual phraseological dictionaries based on arrays of bilingual texts. Automatic Documentation and Mathematical Linguistics 44(3), 103-110 (2010).
4. Buddana, H., Kaushik, S., Manogna, P., P.s., S.: Word level lstm and recurrent neural network for automatic text generation. 2021 International Conference on Computer Communication and Informatics, ICCCI 2021 (2021).
5. Cerutti, F., Toniolo, A., Norman, T.: On natural language generation of formal argumentation. CEUR Workshop Proceedings 2528, 15-29 (2019).
6. Chali, Y., Hasan, S.: Towards topic-to-question generation.Computational Linguistics 41(1), 1-20 (2015).
7. Chernikov, B., Karminsky, A.: Specificities of lexicological synthesis of text documents. Procedia Computer Science 31, 431-439 (2014).
8. Conway, D.: An algorithmic approach to English pluralization. In: Second Annual Perl Conference. COPE (2001).
9. Costa, F., Dolog, P., Ouyang, S., Lawlor, A.: Automatic generation of natural language explanations.International Conference on Intelligent User Interfaces, Proceedings IUI (2018).
10. d’Ascoli, S., Coucke, A., Caltagirone, F., Caulier, A., Lelarge, M.: Conditioned text generation with transfer for closed-domain dialogue systems. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics).
11. Faruqui, M., Tsvetkov, Y., Neubig, G., Dyer, C.: Morphological inflection generation using character sequence to sequence learning. CoRR abs/1512.06110 (2015).
12. Foust, W.: Automatic English inflection. In: National Symposium on Machine Translation. pp. 229-233. UCLA (1960).
13. Fuks, H.: Inflection system of a language as a complex network. CoRR abs/1007.1025 (2010).
14. Goldsmith, J.: Unsupervised learning of the morphology of a natural language.Computational Linguistics 27(2), 153-198 (2001).
15. Halle, M., Matushansky, O.: The morphophonology of Russian adjectival inflection. Linguistic Inquiry 37(3), 351-404 (2006).
16. Iomdin, L.: Natural language processing as a source of linguistic knowledge. pp. 68-74 (2003).
17. Kanovich, M., Shalyapina, Z.: The RUMORS system of Russian synthesis. COLING pp. 177-179 (1994).
18. Korobov, M.: Morphological analyzer and generator for Russian and Ukrainian languages.Communications in Computer and Information Science 542, 330-342 (2015). EDN: WRGVPX
19. Levenshtein, V.: Binary codes capable of correcting deletions, insertions and reversals. Soviet Physics Doklady 10(8), 707-710 (feb 1966).
20. OpenCorpora: An open corpus of Russian language, http://www.opencorpora.org/. (2024).
21. Porter, M.: An algorithm for suffix stripping. Program 14(3), 130-137 (1980).
22. Raja, S., Rajitha, V., Lakshmanan, M.: Computational model to generate case-inflected forms of masculine nouns for word search in Sanskrit e-text. J.Comput. Sci. 10(11), 2260-2268 (2014).
23. Segalovich, I.: A fast morphological algorithm with unknown word guessing induced by a dictionary for a web search engine. Proceedings of the International Conference on Machine Learning; Models, Technologies and Applications pp. 273-280 (2003). EDN: PJGYPF
24. Silberztein, M.: Formalizing Natural Languages: The NooJ Approach. John Wiley and Sons Limited (2016).
25. Sorokin, A.: Using longest common subsequence and character models to predict word forms. Proceedings of the 14th SIGMORPHON Workshop on Computational Research in Phonetics, Phonology, and Morphology, SIGMORPHON 2016 at the 54th Annual Meeting of the Association for Computational Linguistics, ACL 2016 pp. 54-61 (2016). EDN: RQASZM
26. Streiter, O., Iomdin, L., Sagalova, I.: Learning lessons from bilingual corpora: Benefits for machine translation.International Journal of Corpus Linguistics 5(2), 199-230 (2000). EDN: XFITYZ
27. Subramanian, S., Rajeswar, S., Dutil, F., Pal, C., Courville, A.: Adversarial generation of natural language. Proceedings of the 2nd Workshop on Representation Learning for NLP, Rep4NLP 2017 at the 55th Annual Meeting of the Association for Computational Linguistics, ACL 2017 pp. 241-251 (2017).
28. Tran, V.K., Nguyen, L.M., Tojo, S.: Neural-based natural language generation in dialogue using rnn encoder-decoder with semantic aggregation. SIGDIAL 2017 - 18th Annual Meeting of the Special Interest Group on Discourse and Dialogue, Proceedings of the Conference pp. 231-240 (2017).
29. Xiao, T., Zhu, J., Liu, T.: Bagging and boosting statistical machine translation systems. Artificial Intelligence 195, 496-527 (2013).
Выпуск
Другие статьи выпуска
Актуальные научные дискуссии связаны с оценкой перспектив развития рынка труда, определением профессий, которые окажутся востребованными в будущем и определят возможности развития человеческого капитала. Целью работы является оценка структуры профессиональной занятости и профессиональных групп в регионах Российской Федерации на основе концепции экономической сложности. Получены оценки сложности структур занятости и профессиональных групп по данным за 2018, 2020 и 2022 годы. Оценку сложности структуры профессиональной занятости региона можно рассматривать как относительную характеристику уровня развития его человеческого капитала. Оценку сложности профессиональной группы - как относительную оценку человеческого капитала ее типичного представителя. Ранги оценок сложности профессиональных групп, в основном, соответствуют существующим представлениям о среднем уровне развития человеческого капитала представителей этих групп занятого населения. Для пяти профессиональных групп ранги оценок сложности не меняются во времени, в том числе для докторов наук, кандидатов наук и специалистов высшего уровня квалификации. Для четырех профессиональных групп ранги меняются незначительно - не более чем на единицу. Существенно ранги оценок сложности изменяются для двух профессиональных групп: «руководители» (позиция профессиональной группы улучшается) и «работники сферы обслуживания и торговли, охраны граждан и собственности» (позиция ухудшается). Ранговая оценка профессиональной группы «неквалифицированные рабочие» выше, чем ранговые оценки трех групп квалифицированных работников.
Статья посвящена проблеме обеспечения справедливого ценообразования, обусловленного применением технологий смарт-контрактов. Благодаря современным техническим средствам в рамках систем интернета вещей, электронных платежей и надежного хранения и анализа больших данных может производиться довольно точная оценка потребления, основанная на измерении времени различных действий потребителей. Методом исследования в работе является анализ процесса принятия решения о цене, а также влияния на него современных цифровых технологий. Результатом исследования стало выявление последствий точной ценности в ценообразовании и процессе заключения рыночных соглашений, среди которых: 1) распространение тарифной модели оплаты на область дискретных продаж товаров, услуг; 2) учет действий потребителей в качестве условий ценообразования и предмета соглашений; 3) включение передачи сведений потребителями о себе в предмет обмена; 4) снижение трансакционных издержек в связи с автоматизацией принудительного исполнения условий контракта. В Заключении представлены выводы о возможностях сравнения ценности товаров по времени их потребления в планетарном масштабе и развития бережливых технологий использования ограниченных ресурсов для максимального благополучия людей в мире.
Цифровое метапространство - это формирующееся единое цифровое пространство экономического взаимодействия. Вызовы и технологические подходы к их преодолению на основе нового глобального интернет-сервиса - торгово-промышленно-финансового интернета и экономики связей в полицентричном мире являются предметом настоящей статьи.
Статья посвящена исследованию платформ инвестиционного робо-эдвайзинга и автоследования на российском рынке. Автором анализируются тарифы и функционал разных платформ. На основании проведенного анализа автором предлагаются новые концепции и схема работы для реализации робо-эдвайзинга и автоследования. Реализация авторских предложений должна позволить снизить стоимость оказания инвестиционных услуг и также расширить их функционал в сторону автоматического составления торговых стратегий на основании условий пользователя. В рамках предложенной схемы отдельно рассмотрен данного рода функционал на базе авторских моделей комитетных конструкций.
Проблема сжатия разнообразия оценок и действий агентов современными версиями искусственного интеллекта осознана как потенциально очень опасная практическими управленцами. В предыдущих исследованиях, используя квазифишеровское представление нашей вероятностной модели гибридных экономических систем, авторы показали, что эти опасения обоснованы по меньшей мере для симметричных по отклонениям агентов типа производителей товаров «хуже рынка», «лучше рынка» по себестоимости., поскольку они соответствуют фишеровской теории эволюции. Однако примеры, в частности, из сельского хозяйства, показывают, что ассиметричные ситуации не являются экзотикой и нуждаются в специальном моделировании, результаты которого и представлены в настоящей работе. Первые результаты моделирования показывают, что для этой заведомо ассиметричной ситуации целесообразно управление сжатием разнообразия с целью достижения оптимальных значений, синхронизированных с вариативностью среды. В рамках общей концепции исследования проблемы - сжатия разнообразия ИИ - это означает целесообразность дифференцированного по отраслям отношения.
В работе дан обзор эвристических методов кластеризации адресного пространства публичных распределенных реестров. Упомянутые техники опираются на достаточно простые наблюдения за поведением типичных пользователей и здравый смысл. Формально эвристики представляют собой вырожденные решающие правила, которые не предполагают подбора параметров в ходе обучения по заранее отобранным данным. Можно также считать, что эвристикам соответствуют устойчивые мотивы в графовых представлениях истории транзакций. Несмотря на кажущуюся простоту и отсутствие возможности проверить правильность результатов их работы, эти подходы демонстрируют достаточно хорошую эффективность и зачастую их применение предваряет использование гораздо более сложного инструментария на основе современного машинного обучения и искусственного интеллекта. Приведены эвристики для Bitcoin, Ethereum, Ripple, Monero и Zcash. Кратко рассмотрен пример эвристической кластеризации по данным о cross-chain-транзакциях. Отмечены случаи, когда эвристики дают некорректные результаты. Насколько можно судить, обзор такого рода публикуется на русском языке впервые.
В настоящее время актуальной задачей во всех сферах жизнедеятельности общества является создание отраслевых цифровых платформ на основе различных экономических методов обработки больших массивов информации. От ее решения во многом зависит успех реализации целевой программы «Цифровая экономика РФ» в целом, а значит, и переход отраслей российской экономики к цифровизации. Сфера здравоохранения сегодня находится в числе лидеров не только по созданию, но и практическому применению цифровых платформ для комплексного лечения широкого спектра заболеваний на основе инновационных подходов. В ходе проведенных исследований определены перспективные направления развития мирового рынка цифровизации сферы здравоохранения в сфере медицинской диагностики и фармакогенетики, а также деятельности его основных участников в области онкологии. Показаны инновационные преимущества биоинформационной web-платформы компании ООО «Онко Генотест», обеспечивающие конкурентоспособность ее деятельности. Полученные результаты нашли свое практическое применение в развитии деятельности компании ООО «Онко Генотест» по подбору методов персонализированной терапии в области онкологических заболеваний.
Ценность данных связана с программами для их обработки. Это интуитивно понятное соображение может получить формальное основание в виде алгоритмического подхода к определению информации. Предложенный Колмогоровым этот подход оперирует информацией в терминах программы и способа программирования, которые преобразуют объекты. Такой формализм подсказывает естественный способ повышения ценности данных через построение платформы, призванной соединить массивы данных с программами для их обработки. Описанная в статье концептуальная схема такой платформы предусматривает программные сервисы навигации в массивах данных, сервисы ценообразования и поддержки процедуры согласования цен.
На примере серийного дела «Рикор Электроникс» рассматривается метод расчета ставок роялти за использование объектов интеллектуальной собственности для судебных экспертиз и сделок на основе Big Data и нечеткой логики. Метод «LABRATE ROYALTY PRO» базируется на трех ключевых показателях: доля лицензиара в прибыли лицензиата (Licensor’s Share), рентабельность продаж (Return on Sales, операционная маржа) и рентабельность по EBIT (EBIT Margin, операционная доходность). Применение традиционных методов, основанных на рентабельности производства или затрат, часто приводит к расхождениям с показателями выручки от продаж, что требует адаптации подходов к российским реалиям и международной практике. В статье детально описан алгоритм расчета, основанный на анализе финансовых показателей компаний и отраслевой статистике, а также на использовании технологий Big Data и Fuzzy Logic. Примеры из судебной практики подтверждают эффективность предложенного подхода, обеспечивая объективные и справедливые решения по определению ставок роялти, стоимости права использования товарных знаков и расчета компенсаций. Особое внимание уделено необходимости точного и однозначного описания объектов исследования и исходных данных.
Идет ли речь о цифровой экономике, экономике данных или о больших данных, всегда подразумевается представление информации (будь то сигналы, команды или данные) в цифровом формате или, точнее, в двоичном коде. Понимание этого - ключ к пониманию многих событий и фактов. В частности, это касается быстрого развития сетевых сервисов на основе цифровых технологий и многих других реалий современной экономики. В статье это показано на конкретных примерах из прошлого ведущих фирм.
Издательство
- Издательство
- ЦЭМИ РАН
- Регион
- Россия, Москва
- Почтовый адрес
- 117418, Москва, Нахимовский пр, 47
- Юр. адрес
- 117418, Москва, Нахимовский пр, 47
- ФИО
- Альберт Рауфович БАХТИЗИН (Директор)
- E-mail адрес
- albert.bakhtizin@gmail.com
- Контактный телефон
- +7 (499) 1290822