Молодежный семинар

14 июня в 17:00 на Молодежном семинаре выступит Ядринцев Василий Владимирович с докладом Разработка морфологического анализатора русского и английского языков.
Семинар пройдет в конференц-зале ИСА РАН ФИЦ ИУ РАН на 1 этаже.

Аннотация:

Цель работы – разработка эффективного мультиязычного (для русского и английского языков) словарного морфологического анализатора. Токенизация и морфологический анализ – два начальных этапа (иногда их объединяют в один) в задачах обработки естественного языка.

Задачей токенизатора является разделение входного plain-текста на токены. Токенизатор реализован в виде разбирающего входной текст детерменированного конечного автомата, скомпилированного из набора регулярных выражений.

Задачами морфологического анализатора являются определение грамматических характеристик слова (токена) и нахождение леммы (нормальной формы слова). Для русского языка используeтся словарь из открытого проекта OpenCorpora, который компилируется в эффективное (и по скорости, и по занимаемому объему) бинарное представление с использованием парадигм для лексем.

Приглашаем принять участие!