Архив статей журнала
Необходимость автоматической обработки текстовой информации из-за постоянного увеличения ее количества привела к появлению программных продуктов для автоматизации обработки текста на естественном языке. Сложность естественного языка обусловила разделение процесса анализа текста на несколько последовательных этапов - графематического, морфологического, синтаксического и семантического. Точность обработки на каждом из этапов влияет на последующие этапы анализа текста. На морфологическом этапе анализа текста происходит определение для каждого слова морфологических характеристик. Одним из способов проведения морфологического анализа является метод с использованием словаря словоформ. Его преимуществом является высокая точность из-за хранения лексем целиком, что позволяет учитывать исключения, встречающиеся в естественном языке. Однако, сложность постоянной поддержки словаря в актуальном состоянии из-за развития языка, а также встречающиеся в текстах опечатки показывают необходимость наличия в морфологических анализаторах возможности проведения морфологического анализа несловарных слов. В рамках статьи проведен обзор существующих методов морфологического анализа несловарных слов, а также предложен собственный метод обработки неизвестных слов, учитывающий особенности словообразования в русском языке и реализованный в одном из постоянное развивающийся инструмента морфологического анализа JMorfSdk.
Статья посвящена решению проблемы выбора наиболее информативных регрессоров в неэлементарных линейных регрессиях, включающих в себя в общем случае не только объясняющие переменные, но и все возможные комбинации их пар, преобразованные с помощью бинарных операций min и max. Известно, что оптимальное решение такой задачи может быть достигнуто методом полного перебора всех возможных моделей. Но даже для линейной регрессии он до сих пор остается самым трудоёмким из всех существующих методов отбора, а для неэлементарных линейных регрессий, в которых число регрессоров на порядок больше, его трудоёмкость значительно возрастает. Известно, что быстро получить хоть и не оптимальное зачастую, но хорошее решение позволяет метод включения регрессоров. Учитывая, что в состав неэлементарных линейных регрессий входят не только объясняющие переменные, но и регрессоры, содержащие внутри себя неизвестные параметры, то такие модели требуют разработки новых алгоритмов метода включения. В данной статье состав регрессоров в неэлементарных линейных регрессиях расширен ещё больше за счёт использования бинарных операций со свободным членом. Предложено два алгоритма метода включения. Первый из них реализуется без корректировки входящих в бинарные операции коэффициентов, а второй - с корректировкой. В этой связи вычислительная сложность второго алгоритма выше, чем у первого, но при этом второй позволяет получать более качественные решения. Тестирование алгоритмов проведено на примере моделирования численности безработных и уровня безработицы в Иркутской области. Наилучшие результаты показал второй алгоритм. Полученные высокоточные модели с пятью регрессорами и с коэффициентами детерминации 0,982 и 0,971 превзошли по качеству даже переобученные полиномиальные регрессии с четырнадцатью регрессорами.