14 июня в 17:00 на Молодежном семинаре выступит Ядринцев Василий Владимирович с докладом Разработка морфологического анализатора русского и английского языков.
Семинар пройдет в конференц-зале ИСА РАН ФИЦ ИУ РАН на 1 этаже.
Аннотация:
Цель работы – разработка эффективного мультиязычного (для русского и английского языков) словарного морфологического анализатора. Токенизация и морфологический анализ – два начальных этапа (иногда их объединяют в один) в задачах обработки естественного языка.
Задачей токенизатора является разделение входного plain-текста на токены. Токенизатор реализован в виде разбирающего входной текст детерменированного конечного автомата, скомпилированного из набора регулярных выражений.
Задачами морфологического анализатора являются определение грамматических характеристик слова (токена) и нахождение леммы (нормальной формы слова). Для русского языка используeтся словарь из открытого проекта OpenCorpora, который компилируется в эффективное (и по скорости, и по занимаемому объему) бинарное представление с использованием парадигм для лексем.
Приглашаем принять участие!