Заседание Молодежного научного семинара ФИЦ ИУ РАН

Совет молодых ученых и специалистов приглашает вас на заседание Молодежного научного семинара ФИЦ ИУ РАН , которое состоится 5 июня в 16:00 в конференц-зале ИСА РАН ФИЦ ИУ РАН. 

Докладчик: Ядринцев Василий Владимирович, магистрант РУДН, инженер-программист ООО "Технологии системного анализа".

Тема: Разработка морфологического анализатора русского и английского языков.

Аннотация: Цель работы – разработка эффективного мультиязычного (для русского и английского языков) словарного морфологического анализатора. Токенизация и морфологический анализ – два начальных этапа (иногда их объединяют в один) в задачах обработки естественного языка. Задачей токенизатора является разделение входного plain-текста на токены. Токенизатор реализован в виде разбирающего входной текст детерменированного конечного автомата, скомпилированного из набора регулярных выражений. Задачами морфологического анализатора являются определение грамматических характеристик слова (токена) и нахождение леммы (нормальной формы слова). Для русского языка используeтся словарь из открытого проекта OpenCorpora, который компилируется в эффективное (и по скорости, и по занимаемому объему) бинарное представление с использованием парадигм для лексем.