Подбор формы множественного числа в R

При создании генерируемых отчётов или веб-приложений часто приходится вставлять в текст числа, рассчитанные непосредственно из исходных данных. Если при этом данные периодически изменяются, то это может привести к тому, что текст предложения в отчёте не будет согласован с полученным в результате расчётов числом. Вполне типичным, с некоторыми вариациями, можно считать следующий отрывок:

В…

Сравниваем производительность разных способов удаления пропущенных значений в R

Довольно часто при анализе данных эмпирических исследований мы сталкиваемся с пропущенными значениями. Далеко не все методы (функции) в R корректно работают с пропущенными данными, поэтому наличие пропущенных значений в данных требует дополнительных манипуляций. При работе с пропущенными данными есть несколько вариантов: удалить их или заменить на какое либо значение (обычно это одна из мер центральной…

Анализ данных свободной сортировки в R

В психологии для исследования когнитивного стиля диапазон эквивалентности применяются различные модификации методики «Свободная сортировка объектов» (Free Sorting Test) Гарднера. В методике обычно используется от 30 до 70 стимулов (понятий). В этой заметке я продемонстрирую некоторые возможности обработки результатов проведения методики «Свободная сортировка объектов» в R.

Стемминг текстов на естественном языке

В прошлый раз

я рассказывал про такие элементы препроцессинга текстовых данных, как приведение к одному регистру, удаление стоп-слов и пунктуации. Второй этап препроцессинга подобных данных, необходимый в некоторых задачах — это стеммизация, приведение слов к своей основной форме. Например, «работодателя» – «работодатель».

Существует несколько…

Препроцессинг текстов на естественном языке

При работе с текстами, написанными на естественном языке, один из основных этапов — подготовка данных к анализу. В частности, уделение стоп-слов, приведение слов к одному регистру и так далее. Для таких задач я использую функции пакетов stringr и tm.

Один из первых шагов — это приведение текстов к одному регистру с помощью функции tolower():