Общая педагогика, история педагогики и образования | Мир педагогики и психологии №05 (94) Май 2024
УДК 81
Дата публикации 31.05.2024
Анализ подтекста при помощи искусственного интеллекта
Дукальская Ирина Владимировна
канд. филол. наук, доцент кафедры иностранных языков, Поволжский государственный университет, телекоммуникаций и информатики, РФ, г. Самара, dukalskaya_psuti@mail.ru
Рамазанов Пётр Русланович
студент кафедры информационных систем и технологий, Поволжский государственный университет, телекоммуникаций и информатики, РФ, г. Самара, rugooddaymcpe@gmail.com
Аннотация: Ежедневно создаётся множество текстовых данных с явной и скрытой информацией (подтекстом), важной для лингвистики, литературоведения, политологии и маркетинга. Традиционные методы анализа подтекста трудоёмки и субъективны. В статье рассматривается использование искусственного интеллекта (ИИ) для автоматизации анализа подтекста. Методы, такие как Word2Vec и рекуррентные нейронные сети (RNN), позволяют моделям лучше понимать контекст. Несмотря на достижения ИИ, полное понимание подтекста требует человеческого интеллекта. Наиболее перспективным является сочетание ИИ и человеческого анализа для точного выявления подтекста.
Ключевые слова: Подтекст, Обработка естественного языка, Искусственный интеллект, Рекуррентные нейронные сети
Cand. Sci. (Philology), associate professor at the Department of Foreign Languages, Volga Region State University telecommunications and informatics, Russia, Samara
student of the Department of Information Systems and Technologies, Volga Region State University telecommunications and informatics, Russia, Samara
Abstract: Every day, a vast amount of textual data is created, containing both explicit and hidden information (subtext) important for linguistics, literary studies, political science, and marketing. Traditional methods of subtext analysis are labor-intensive and subjective. This article examines the use of artificial intelligence (AI) to automate subtext analysis. Methods such as Word2Vec and recurrent neural networks (RNN) allow models to better understand context. Despite AI advancements, full comprehension of subtext requires human intelligence. The most promising approach is the combination of AI and human analysis for accurate subtext identification.
Keywords: Subtext, Natural Language Processing, Artificial Intelligence, Recurrent Neural Networks
Дукальская И.А., Рамазанов П.Р. Анализ подтекста при помощи искусственного интеллекта // Мир педагогики и психологии: международный научно-практический журнал. 2024. № 05 (94). Режим доступа: https://scipress.ru/pedagogy/articles/analiz-podteksta-pri-pomoshhi-iskusstvennogo-intellekta.html (Дата обращения: 31.05.2024)
Введение
В современном информационном обществе огромное количество текстовых данных создаётся и распространяется каждый день. Однако, за поверхностным содержанием этих текстов могут скрываться скрытые значения, намеренно или ненамеренно внедрённые авторами. Это явление известно как подтекст, который может содержать информацию о чувствах, намерениях, предубеждениях или других скрытых аспектах текста, не всегда очевидных для обычного читателя.
Анализ подтекста имеет большое значение в различных областях, таких как лингвистика, литературоведение, политология, маркетинг и многие другие. Однако, традиционные методы анализа подтекста часто требуют большого объёма времени и усилий, а также подвержены субъективным интерпретациям.
В связи с этим возникает потребность в разработке новых методов и подходов к анализу подтекста, которые могли бы учитывать большие объёмы текстовых данных и предоставлять объективные результаты. В данной статье будет рассмотрена возможность применения искусственного интеллекта для анализа подтекста, что позволит автоматизировать процесс выявления скрытых значений в тексте и повысить его эффективность.
Подтекст
Подтекст в тексте представляет собой скрытую информацию, которая передаётся через использование специфических языковых средств, намёков и недоиспользованных элементов [1]. Он может содержать дополнительные смысловые нюансы, эмоциональные оттенки, символику или скрытые сообщения, которые не являются явными или прямыми.
Сложность анализа подтекста с использованием искусственного интеллекта заключается в том, что подтекст часто зависит от контекста, культурных особенностей и субъективного восприятия читателя [2]. ИИ-модели базируются на обучении на большом количестве текстовых данных, что позволяет им овладеть широким культурным и лексическим багажом, но одновременно они не обладают человеческими эмоциями, взглядами и предпочтениями.
Чтобы полностью расшифровать подтекст, требуется человеческое понимание и интерпретация, способность уловить намёки и нюансы, проявить креативность в анализе текста. Часто для понимания и оценки подтекста необходимо учитывать контекст, личный опыт, культурные особенности и индивидуальные предпочтения, которые сложно воспроизвести с помощью искусственного интеллекта.
Благодаря своей способности обрабатывать и анализировать большие объёмы текста, ИИ-модели могут помочь в выявлении повторяющихся лексических единиц, необычных концентраций слов и других лингвистических особенностей, которые могут указывать на наличие подтекста. Однако истолкование и полное понимание подтекста остаётся задачей, требующей вовлечения человеческого интеллекта и эмоционального понимания. Теперь рассмотрим существующие методы анализа естественного языка для того, чтобы понять, насколько они применимы для определения контекста.
Проблема понимания в NLP
Анализ естественного языка представляет собой сложную задачу для исследователей и разработчиков в области NLP. Одной из первых задач является корректное распознавание кодировки текста, который может храниться в различных форматах, таких как ASCII, Unicode и другие. Ошибочное определение кодировки может исказить текст. Токенизация разделяет текст на лексические элементы, и в некоторых языках, таких как китайский, это особенно сложно из-за отсутствия пробелов. Определение частей речи и синтаксической структуры предложений также важны, но могут быть ограничены в точности, особенно для длинных предложений. Семантический анализ, направленный на понимание значений и связей между словами, усложняется неоднозначностью и контекстуальными особенностями языка. Разрешение кореферентности требует установления связей между различными словами или фразами, что также является сложной задачей. Все эти задачи требуют сложных алгоритмов и моделей NLP для точного анализа языка.
Методы NLP
Рассмотрим несколько подходов к анализу естественного языка. Одним из подходов к обработке естественного языка является Word2Vec его представила Google в 2013 году. Основная концепция этого метода состоит в преобразовании слов в вектор, который будет отражать семантические свойства слова. В результате слова близкие по значению будет находиться рядов в N-мерном пространстве результирующего вектора. На нём многомерное пространство спроецировано на двумерное по методу главных компонент – таким образом, семантическая близость слов показана с минимальными потерями [3].
Кроме того, у пар слов со схожим семантическим отношением будет схожее смещение в конечном векторе – пример показан на рисунке 1.
Рисунок 1. Схожее смещение у пар со схожим семантическим отношением
Эти векторы также обладают и другими свойствами: например, одни и те же слова на разных языках при небольших изменениях дают похожие векторы [3]. Несмотря на множество преимуществ, этот подход имеет существенный недостаток - он использует one-hot representation, которая неэффективна при изменении размера словаря.
Следующем подходом, который стоит рассмотреть, является RNN (англ. Recurrent Neural Network, RNN). Это нейронные сети, которые сохраняют информацию из текущего слоя и передают ее на следующий шаг в ту же сеть [4]. Их также называют сетями с памятью, поскольку они выполняют одну и ту же задачу для каждого элемента, учитывая предыдущие вычисления.
На рисунке 2 показана упрощенная и развернутая схема рекуррентной нейронной сети, где x0, x1, x2, …, xt – входные данные (входной слой), h0, h1, h2, …, ht - выходные данные
Рисунок 2. Свёрнутая и развёрнутая схема рекуррентной нейронной сети (выходной слой), А – скрытый слой
A принимает входные данные на каждом шаге, выдавая выходные данные h и передавая информацию себе для следующего входного шага. RNN могут принимать один или несколько входных векторов и создавать один или несколько выходных векторов, и на выходные данные влияют не только веса, применяемые к входным данным, но и “скрытый” вектор состояния, представляющий контекст, основанный на предыдущих вводах/выводах.
Рекуррентные нейронные сети оценивают частоту встречаемости предложений в тексте и способны генерировать новый текст. Эта модель обрабатывает информацию последовательно и учитывает не только текущий шаг, но и предыдущий благодаря внутренней памяти.
Одним из важных преимуществ рекуррентных нейронных сетей является возможность варьировать длину входящих и выходящих последовательностей, то есть принимать объекты нефиксированного размера, что повышает гибкость модели. Исходя из этого, их архитектуру можно классифицировать следующим образом: 1) один к одному; 2) один ко многим; 3) многие к одному; 4) многие ко многим. На рисунке 3 представлено схематическое изображение каждого типа.
Рисунок 3. Возможные виды архитектуры рекуррентных нейронных сетей
Заключение
Проанализировав методы и научные работы, можно описать, как нейронные сети помогают в анализе контекста. Нейронные сети распознают эмоциональную окраску текста, определяют тональность высказываний и понимают контекст[5]. Они могут обучаться распознавать положительные, отрицательные или нейтральные эмоции, что полезно для анализа настроений в социальных сетях, оценки реакций на продукты и мониторинга общественного мнения. Также нейронные сети определяют тональность текста, что позволяет обрабатывать отзывы и комментарии. Рекуррентные нейронные сети анализируют текст с учётом контекста и последовательности слов, что особенно полезно при работе с длинными текстами и разговорной речью. Нейронные сети могут генерировать текст с определённым подтекстом или эмоциональной окраской. Таким образом, они предоставляют широкие возможности для анализа подтекста, выявляя скрытые значения и эмоциональную окраску, важные для понимания текста.
Список литературы
1. Андреева С. А. Подтекст и смысл поэтического текста. Вестник МГЛУ, 2016. - C. 28–34. Выпуск 19(758).
2. Суртаева А. В. Проблема определения и типологии подтекста. Труды Санкт-Петербургского государственного института культуры, 2010. Т.190. C.228-235.
3. Богомолов Ю. А. Обзор моделей нейронных сетей для обработки естественного языка. StudNet, 2020. №4 - C.203-216.
4. Прошина М. В. Современные методы обработки естественного языка: нейронные сети. Экономика строительства, 2022. №5 - C.27-42.
5. Самигулин Т. Р., Джурабаев Анвар Эркин Угли. Анализ тональности текста методами машинного обучения. Научный результат. Информационные технологии, Т.6, №1,2021. – C.55-61.