Стемминг текстов на естественном языке

В прошлый раз я рассказывал про такие элементы препроцессинга текстовых данных, как приведение к одному регистру, удаление стоп-слов и пунктуации. Второй этап препроцессинга подобных данных, необходимый в некоторых задачах — это стеммизация, приведение слов к своей основной форме. Например, «работодателя» – «работодатель».

Существует несколько…

Препроцессинг текстов на естественном языке

При работе с текстами, написанными на естественном языке, один из основных этапов — подготовка данных к анализу. В частности, уделение стоп-слов, приведение слов к одному регистру и так далее. Для таких задач я использую функции пакетов stringr и tm.

Один из первых шагов — это приведение текстов к одному регистру с помощью функции tolower():