Курс знакомит слушателей с алгоритмами и инструментами для обработки текстов на естественном языке. После краткого введения в историю области будут рассмотрены подходы, работающие с языком на разных уровнях: от токенизации до синтаксического разбора. Основное внимание будет уделено подходам на основе машинного обучения по данным.
По окончании курса вы будете иметь представление о ландшафте методов современного автоматического анализа текста и опыт использования нескольких наиболее важных инструментов. В том числе pymorphy2, mystem, NLTK, scikit-learn, UDPipe и др.
Курс по-своему уникален: его подготовкой занимались специалисты по компьютерной лингвистике и прикладной обработке текстов, у каждого из которых свой взгляд на обработку языка как науку — и на свою область экспертизы. Надеемся, что это лишь сделает курс ещё интереснее.
Продолжительность — от 6 недель.
Пререквизиты: Минимальный уровень подготовки: основы линейной алгебры, основы классической вероятности, основы алгоритмов и программирования, владение русским или английским языками.
Автор курса: Антон Михайлович Алексеев (Computer Science Center, Steklov Institute of Mathematics at St. Petersburg)
Трудоемкость дисциплины: 3 зачетные единицы, 108 академических часов
Форма контроля: зачет