Было изучено множество подходов к NER. Большинство подходов опираются на краудсорсинг [3, 4] или системы на основе правил [5]. Например, AQL – это декларативный язык правил, используемый в системе SystemT компании IBM [6]. С помощью AQL пользователи могут определить набор правил, которые SystemT затем использует для оптимизации и построения эффективного плана запроса. SystemT может поддерживать сложные выражения, но, как и все системы, основанные на правилах, требует ручных усилий для их определения, и поэтому ее точность сильно зависит от правильного построения. В других случаях системы извлечения зависят от богатых онтологий, специфичных для конкретной области, через которые именованные сущности могут быть сопоставлены непосредственно с терминами в онтологии [7, 8, 9]. Высокая точность NER была достигнута в биомедицине [10, 11], благодаря наличию структурированных баз данных (например, Uniprot и PDB) и четко определенных, уникальных идентификаторов и имен (например, названия генов/белков, болезней, организмов), которые легко идентифицируются в свободном тексте (например, строка “PDB:1BFM” обозначает белок 1BFM в базе данных PDB, в данном случае белок гистона). Было решено сосредоточиться на NER в области, где на данный момент стандартные идентификаторы для именованных сущностей не так легко доступны, в данном случае в образовательной сфере.