Методика преподавания языка | Филологический аспект: Методика преподавания языка и литературы Методика преподавания языка и литературы №02 (37) Март 2026 - Апрель 2026

УДК 81

Дата публикации 24.04.2026

Токенизация, лемматизация и стемминг на уроках РКИ: примеры заданий и методические комментарии

Савельева Алена Владимировна
преподаватель кафедры русского языка, Санкт-Петербургский государственный электротехнический университет «ЛЭТИ» имени В. И. Ульянова (Ленина), РФ, г. Санкт-Петербург, avsaveleva@etu.ru

Аннотация: В статье рассматриваются возможности применения методов обработки естественного языка (NLP), таких как токенизация, лемматизация и стемминг, для повышения эффективности обучения русскому языку как иностранному (РКИ). Обосновывается актуальность интеграции NLP в образовательный процесс с целью развития у учащихся навыков анализа текста и понимания морфологической структуры слова. Представлен комплекс практических заданий, разработанных для различных уровней языковой компетенции, с подробными методическими комментариями.
Ключевые слова: русский язык как иностранный (РКИ), обработка естественного языка, токенизация, лемматизация, стемминг, анализ текста, искусственный интеллект в образовании.

Tokenization, lemmatization, and stemming in Russian as a Foreign Language (RFL) lessons: examples of tasks and methodological comments

Saveleva Alena Vladimirovna
Lecturer, Russian Language Department, Saint Petersburg Electrotechnical University "LETI" named after V. I. Ulyanov (Lenin), Russia, Saint Petersburg

Abstract: This article examines the potential of Natural Language Processing (NLP) methods, such as tokenization, lemmatization, and stemming, to enhance the effectiveness of teaching Russian as a Foreign Language (RFL). The relevance of integrating NLP into the educational process is substantiated, with the aim of developing students' text analysis skills and understanding of the morphological structure of words. A set of practical tasks designed for various levels of language proficiency is presented, along with detailed methodological comments.
Keywords: Russian as a foreign language (RFL), natural language processing, tokenization, lemmatization, stemming, text analysis, artificial intelligence in education.

Правильная ссылка на статью
Савельева А.В. Токенизация, лемматизация и стемминг на уроках РКИ: примеры заданий и методические комментарии // Филологический аспект: международный научно-практический журнал. Сер.: Методика преподавания языка и литературы. 2026. № 02 (37). Режим доступа: https://scipress.ru/fam/articles/tokenizatsiya-lemmatizatsiya-i-stemming-na-urokakh-rki-primery-zadanij-i-metodicheskie-kommentarii.html (Дата обращения: 24.04.2026)

Эффективное обучение русскому языку как иностранному (РКИ) требует постоянного поиска и внедрения новых методических подходов и инструментов, способствующих более глубокому пониманию структуры языка и развитию навыков анализа текста. В этом контексте, методы обработки естественного языка (Natural Language Processing, NLP), активно развивающиеся в области искусственного интеллекта, представляют собой перспективное направление для совершенствования процесса обучения РКИ.

Актуальность данной работы обусловлена необходимостью интеграции современных технологий в образовательный процесс по РКИ. Использование методов NLP, таких как токенизация, лемматизация и стемминг, позволяет анализировать морфологическую структуру слов, что способствует более осознанному усвоению материала и развитию навыков самостоятельного анализа текста. Целью данной статьи является демонстрация возможностей применения методов NLP (токенизации, лемматизации и стемминга) в обучении РКИ, а также разработка и апробация практических заданий, направленных на развитие навыков анализа текста и понимания морфологической структуры слова у иностранных учащихся.

Задачи исследования:

1. Обобщить теоретические сведения о методах NLP (токенизация, лемматизация и стемминг).

2. Разработать комплекс заданий на основе методов NLP для различных уровней языковой компетенции (базовый и продвинутый).

3. Представить методические комментарии к разработанным заданиям, раскрывающие цели, задачи и ожидаемые результаты.

4. Определить перспективы использования NLP в преподавании РКИ.

Научная новизна исследования заключается в адаптации методов NLP для обучения РКИ, а также в разработке комплекса практических заданий, направленных на развитие навыков анализа текста и понимания морфологической структуры слова у иностранных учащихся. Предложенные задания могут быть использованы преподавателями РКИ для повышения эффективности учебного процесса.

Результаты исследования могут быть использованы преподавателями РКИ для разработки учебных материалов и проведения практических занятий, направленных на развитие навыков анализа текста и понимания морфологии русского языка. Разработанные задания могут быть адаптированы для различных уровней языковой компетенции и использованы в различных форматах обучения.

«Одной из областей искусственного интеллекта является обработка естественного языка (Natural Language Processing, NLP), характеризующаяся междисциплинарным подходом» [1, с.10]. В рамках NLP текст рассматривается как последовательность символов, что обеспечивает унифицированную обработку различных языков и систем письменности. В зависимости от поставленных задач и применяемых методологий текстовая последовательность разбивается на минимальные смысловые единицы — токены. Процесс разделения текстовых данных на токены именуется токенизацией.

Токенизация классифицируется по уровню разбиения: словный, символьный, подсловный и предложенческий уровни. Токен морфема соответствует подсловному уровню токенизации. Подсловный уровень подразумевает разбиение текста на более мелкие составляющие, чем слова, и морфема является минимальной значимой единицей языка, которая может быть частью слова. В этом контексте токенизация на морфемном уровне позволяет выделить корни слов и аффиксы (приставки и суффиксы), что может быть полезно для более глубокого лингвистического анализа, например, в задачах морфологического анализа или при работе с алгоритмами стемминга и лемматизации.

 При словном уровне токенизации «считается, что для каждого токена существует его начальная (или
нормальная) форма (также называемая леммой)» [5, с. 31].  Процесс приведения словоформы к лемме именуется лемматизацией, а процесс приведения словоформы к основе (стему) — стемминг.

Обозначенные методы «нормализации текста» [2, с.163] (токенизация, лемматизация и стемминг), применяемые в области NLP, потенциально могут быть использованы в процессе обучения русскому языку как иностранному (РКИ). Их применение обеспечивает наглядную демонстрацию морфологических изменений слов, а также могут способствовать развитию у обучающихся навыков анализа текста. Ниже будут рассмотрены примеры заданий на основе токенизации, лемматизации и стемминга, демонстрирующие возможности эффективной интеграции данных методов в учебный процесс по РКИ для групп различного уровня языковой компетенции (базовый и продвинутый). Данные задания направлены на развитие навыков анализа текста, «понимания морфологической структуры слова и автоматизированной обработки информации» [3, с.28].

Задание 1: «Разделить предложение на слова и знаки препинания (токенизация)» [4, с.222].

Пример: Иван учится на математическом факультете.

Токены: [«Иван», «учится», «на», «математическом», «факультете», «.»]

Методический комментарий: Данное задание направлено на формирование базовых навыков разделения текста на минимальные единицы, необходимые для дальнейшего анализа. Помогает учащимся закрепить знание орфографии.

Задание 2: Из набора токенов составить осмысленное предложение.

Пример: [«Я», «учусь», «в», «технологическом», «университете», «на», «инженерном», «факультете», «.»]

Методический комментарий: Это задание развивает навыки синтаксического анализа и помогает учащимся понять структуру предложения.

Задание 3: В списке токенов найти слово, которое не подходит по смыслу или грамматике.

Токены: [«стол», «компьютер», «писать», «книга»]

Методический комментарий: Данное задание направлено на развитие лексической сочетаемости и грамматической правильности речи. Учащиеся должны определить, что слово "писать" не относится к категории существительных, как остальные слова в списке.

Задание 4: Для каждого слова в предложении указать его лемму.

Пример: Мы видим красивый закат над морем.

Леммы: мы», «видеть», «красивый», «закат», «над», «море»]

Методический комментарий: Задание направлено на формирование навыка определения начальной формы слова, что важно для понимания грамматических правил и построения предложений.

Задание 5: Найти в тексте все глаголы и указать их леммы.

Пример: Иван встаёт в семь утра. Он умывается, завтракает и идёт в школу. В школе Иван учится и играет с друзьями. После школы он отдыхает. Вечером Иван читает книгу и ложится спать.

Леммы: [«вставать», «умываться», «завтракать», «идти», «учиться», «играть», «отдыхать», «читать», «ложиться»]

Методический комментарий: Данное упражнение помогает закрепить знания о глаголах и их формах, а также способствует развитию навыков анализа текста и понимания грамматических конструкций.

Задание 6: Выделить из текста все существительные, определить их падеж и число, найти лемму.

Методический комментарий: Задание направлено на углубленное изучение морфологии русского языка. Учащиеся тренируются в определении падежа и числа существительных, а также сопоставляют словоформу с леммой. Это способствует лучшему пониманию грамматической структуры предложений и обогащению словарного запаса.

Задание 7: Лемматизировать текст  и приписать леммам частеречные теги.

Пример: Студенты активно готовятся к экзаменам. Они посещают лекции, занимаются в библиотеке и консультируются с преподавателями.

Результат: [студент  - NOUN (существительное), активно  - ADV (наречие), готовиться - VERB (глагол), к  - PREP (предлог), экзамен - NOUN (существительное), они - PRON (местоимение), посещать - VERB (глагол), лекция - NOUN (существительное), заниматься - VERB (глагол), в - PREP (предлог), библиотека - NOUN (существительное), и  - CONJ (союз), консультироваться  - VERB (глагол), с - PREP (предлог), преподаватель - NOUN (существительное) ]

Методический комментарий: Данное задание развивает навыки частеречного анализа текста и требует более глубокого понимания грамматики русского языка. Использование частеречных тегов позволяет автоматизировать дальнейшую обработку текста.

Задание 8: Разделить текст на токены, выполнить лемматизацию и стемминг всех слов.

Методический комментарий: Это задание направлено на то, чтобы учащиеся поняли разницу между лемматизацией и стеммингом, их преимущества и недостатки. Анализируя результаты, они увидят, что лемматизация возвращает словарную форму слова, в то время как стемминг отсекает аффиксы, включая как окончания, так и суффиксы. Это может приводить к неверным результатам, например, когда образуются несуществующие в языке "слова", что учит критически оценивать результаты.

Приведенные примеры заданий показывают, насколько перспективным является внедрение методов обработки естественного языка (токенизации, лемматизации и стемминга) в обучение РКИ. Применение этих методов способствует развитию навыков анализа текста и пониманию морфологии.

Внедрение подобных заданий в учебный процесс существенно повышает эффективность изучения грамматики и лексики. Будущие исследования могут быть сосредоточены на создании автоматических систем для генерации упражнений и оценки знаний, что сделает обучение РКИ более эффективным и интерактивным. В целом, возможности применения NLP в преподавании РКИ огромны, и дальнейшее развитие этих технологий значительно улучшит методику преподавания русского языка как иностранного.


Список литературы

1. Белов С.Д., Зрелова Д.П., Зрелов П.В., Кореньков В.В. Обзор методов автоматической обработки текстов на естественном языке // Системный анализ в науке и образовании. 2020. №3. С. 8-22.
2. Кузина Е.Г. NLP – это не НЛО: составление словаря-глоссария терминов в сфере обработки естественного язык // Культура и текст. 2024. № 2(57). С. 158-168.
3. Клименко Е.О. Взаимодействие лингвистики и NLP // Вестник ВИЭПП. 2024. №3. С.24-35.
4. Редькина О.Ю. Машинное обучение при адаптации учебных текстов: лексический аспект // Вестник Челябинского государственного университета. 2024. № 8 (490). С. 220-229.

Список источников
5. Большакова Е.И. Автоматическая обработка текстов на естественном языке и анализ данных: Учебное пособие / [Большакова Е.И и д.р.] — М.: Изд-во НИУ ВШЭ, 2017.-269 с.

Расскажите о нас своим друзьям: