Прикладная и математическая лингвистика | Филологический аспект №7 (27) Июль, 2017

УДК 81'33

Дата публикации 17.07.2017

Квантитативный анализ единиц эмотивного поля (на материале русского, английского и китайского языков)

Лимарова Елизавета Валерьевна
Канд. филол. наук, доцент кафедры лингвистики и перевода, Российский государственный социальный университет, РФ, г. Москва
Пикова Алиса Витальевна
Студент кафедры лингвистики и перевода, Российский государственный социальный университет, РФ, г. Москва

Аннотация: В статье описан опыт проведения квантитативного анализа единиц эмотивного поля, на предмет получения количественных данных лексем со значением «эмоция» и создания частотного словаря на основе полученных в ходе исследования данных. Описаны необходимые для проведения квантитативного анализа лексики формулы и методы. Показана связь корпусной, компьютерной и квантитативной лингвистики. Дана подробная классификация понятия эмотивного поля как с точки зрения психологии, так и с точки зрения лингвистики. Актуальность и новизна настоящего исследования обусловлена тем, что в настоящее время, ведется разработка программы вантитативного анализатора лексики TRIlingvo, которая позволяет произвести квантитативный анализ текстов любых языков и любого объема в сопоставительном аспекте. По итогам проведения квантитативного анализа, на основе полученных данных, была заложена начальная база частотного словаря лексем, имеющих семантический компонент «эмоция», корпуса книг жанра антиутопия.
Ключевые слова: квантитативная лингвистика, корпусная лингвистика, компьютерная лингвистика, квантитативный анализ, эмотивное поле, частотный словарь

The quantitative analysis of the emotive field lexemes (on materials of the Russian, English and Chinese languages)

Limarova Elizaveta Valerievna
Candidate of Science, assistant professor of Linguistics and Translation department, Russian State Social University, Russia, Moscow
Pikova Alisa Vitalevna
Student of Linguistics and Translation department, Russian State Social University, Russia, Moscow

Abstract: The article describes the experience of the quantitative analysis of the emotive field lexemes and the development of the word frequency list, by the data obtained during the research. All formulas and methods, which are necessary for the quantitative analysis, were described. The article shows the relations between quantitative linguistics, corpus linguistics and computational linguistics. There are two classifications on the emotive field by the point of view of psychology and the point of view of linguistics. Because of the quantitative lexic analyzer TRIlingvo, which is developing now and by which can be made the quantitative analysis of texts of any languages and any volume in comparative aspect, there is some unique feature in the research. The results which were obtained by the quantitative lexic analysis, were used to create the foundation of the word frequency list of the anti-utopia genre books corps.
Keywords: quantitative linguistics, corpus linguistics, computational linguistics, quantitative analysis, emotive field, word frequency list

Квантитативная лингвистика представляет собой раздел общего языкознания и раздел математической лингвистики в частности.

В качестве предмета изучения квантитативной лингвистики выступает язык, структура естественных языков, а так же функциональная составляющая языка и изменения происходящие в нем.

Применение методов квантитативной лингвистики в настоящее время носит довольно широкий характер.  Когда встает необходимость распознания неизвестного произведения письменности, необходимы статистические методы дешифровки. Благодаря им возможно статистически проанализировать данное произведение, выявить определенные частотные закономерности и тем самым получить определенную качественную и количественную оценку данного произведения.

Статистические методы используются для выявления количественных характеристик, создания частотных словарей. Лексемы с «эмоциональным» семантическим компонентом, проявляющиеся в книгах определенных жанров, несут в себе определенные, вычисляемые с помощь методов статистики, количественные характеристики, которые изучаются в рамках квантитативной лингвистики.

Благодаря эмоционально окрашенной лексике, появляющейся в работах автора, можно проследить его жизненный путь, составить психологический портрет  персонажей и автора. Например, одно из ранних произведений писателя может быть наполнено радостными эмоциями, другое негативными, что может быть связано с жизнью автора в год создания данного произведения и сложностями испытываемыми писателем в данный период времени.

Благодаря исследованиям статистики, могут быть созданы специальные частотные словари лексики, обозначающей эмоции. Эти словари могут быть полезны для людей изучающих сразу несколько языков, поскольку им будет проще понимать специфику проявления каждой эмоции по средствам  лексики в определенном языке и видеть возможное сходство или различие между языками.

Вторым преимуществом частотных словарей лексики, обозначающей эмоции, может стать классифицирование любого произведения по жанровой принадлежности.

Для проведения непосредственного квантитативного анализа лексики исследователю необходимо иметь представление об основных статистических формулах, которые он сможет применить в рамках  своего исследования.

По мнению советского ученого Б. Н. Головина, любая система (структура) в процессе своего развития и функционирования подчинена определенным статистическим законам.  То есть явление изменяется  под влиянием различных причин или воздействий, представляющих собой одну равнодействующую величину,  и эта величина всегда подчинена определенному закону [1, с. 190].

Для проведения квантитативного анализа любой языковой единицы, исследователю необходимо оперировать такими понятиями, как частота, выборочная частота, средняя (арифметическая) частота, дисперсия, среднее квадратичное отклонение, выборочная и генеральная совокупности.

Под частотой изучаемого явления понимается число его появлений в каком либо определенном отрезке. В качестве такого отрезка может выступать и текст.

Под генеральной совокупностью понимается либо совокупность текстов или корпусов текстов, объединенных общим жанром, автором или определенным временным интервалом, либо же совокупность единиц принадлежавших к одному уровню (морфемы, фонемы, слова, предложения).

Поскольку ученым довольно затруднительно изучать генеральную совокупность элементов (ввиду ее большого объема), то чаще всего в квантитативном анализе используется метод выборочного исследования. Целью такого исследования становится определенный результат, которым можно описать всю оставшуюся генеральную совокупность  элементов.

Под генеральной совокупностью понимается либо совокупность текстов или корпусов текстов, объединенных общим жанром, автором или определенным временным интервалом, либо же совокупность единиц принадлежавших к одному уровню (морфемы, фонемы, слова, предложения).

Поскольку ученым довольно затруднительно изучать генеральную совокупность элементов (ввиду ее большого объема), то чаще всего в квантитативном анализе используется метод выборочного исследования. Целью такого исследования становится определенный результат, которым можно описать всю оставшуюся генеральную совокупность  элементов.

Средняя частота является результатом суммирования всех выборочных частот и делением их на общее количество выборок. Так, взяв 10 одинаковых выборок, получив определённый ряд выборочных частот, суммируются все выборочные частоты, и полученный результат делится на общее количество проведенных опытов, то есть на 10.

Все выборочные частоты в квантитативной лингвистике обозначаются  , где i представляет собой цифру-показатель выборки, средняя частота обозначается .

Однако квантитативный анализ не заканчивается на определении одной лишь средней частоты. Далее следует обработка полученных статистических данных, включающих нахождение отклонений выборочных частот от средней частоты.

Так, все полученные в ходе исследования выборочные частоты анализируются и там, где значение выборочных частот меньше средних, отклонение получает знак «-», там где больше «+». Полученные отклонения возводятся в квадрат, суммируются и делятся на количество выборок. Полученное значение носит название дисперсии и при исследовании генеральной совокупности обозначается как , в случае выборочного наблюдение чаще всего изображается как .

После полученной дисперсии, из нее извлекается квадратный корень и получается величина, которая носит название среднего квадратического отклонения, которая обозначается в формулах как или , в зависимости от вида исследовательской совокупности. Вычисляется по формуле:

Среднее квадратическое отклонение носит важный для исследования характер. Так, путем среднего квадратического отклонения, показывается надежность полученной в исследовании средней частоты. Чем меньше значение среднего квадратического отклонения, тем наиболее надежно приближено реальное, математическое ожидание величины.

Важно помнить, что чем больше выборка в каком-либо исследовании, тем достовернее ее результаты.

Стоит отметить тот факт, что корпусная лингвистика, наравне с компьютерной лингвистикой, вносят свой вклад в развитие квантитативной лингвистики, путем предоставления необходимых для статистического исследования данных и методов их обработки.

Корпусная лингвистика представляет собой науку об объединениях текстов. Данные объединения носят название корпус и классифицируются, в зависимости от запросов исследователя.  Так, корпуса классифицируются по разметкам; материалу, входящему в сам корпус, доступности, цели создания, объему.

Корпусная лингвистика часто работает с таким понятием, как частотный словарь. В основе создания частотного словаря лежит какой-либо корпус текстов или несколько корпусов текстов, на основе которого производится анализ наиболее встречаемых единиц текста.

Посредством выявленных в ходе частотного анализа лексики наиболее встречаемых единиц текста, можно установить определенные особенности стилей авторов, популярные для корпуса определенных жанров слова.

Как правило, слова в данном словаре располагаются в порядке убывания частот, а не по алфавиту.

Совместный продукт корпусной и компьютерной лингвистики представляют  собой программы конкордансеры. С помощью этих программ возможно получение статистической характеристики лексемы и списка примеров его использования в тексте. Однако, как правило, большинство из этих программ являются коммерческими и не содержат необходимого многообразия иностранных языков.

Компьютерная лингвистика представляет собой область знаний, занимающуюся автоматизированной обработкой текстовых данных. Данная область знаний оперирует таким понятием, как искусственные языки, к которым относятся языки программирования, подразделяющиеся на три уровня: низкий, средний и высокий. Здесь наибольший интерес представляют языки высокого уровня, отличимые от языков других уровней тем, что наиболее приобщены к  компактности работы специалиста. Они характеризуются наименьшим объемом работы и облегченными конструкциями написания программного кода.

Следует сказать, что в данном исследовании, была проведена работа с языком программирования высокого уровня – Python, используемого для создания собственной программы анализатора.

В настоящее время, компьютерная лингвистика характеризуются следующими направлениями работы:

  1. Создание электронных словарей
  2. Создание корпусов текстов
  3. Автоматический перевод текстов
  4. Обработка текстовых материалов, на предмет выделения наиболее важной информации из текста
  5. Разработка комплексных информационно – поисковых систем
  6. Создание различных систем для обработки речевой информации (систем автоматического распознавания и синтеза речи).

В данном исследовании, были затронуты только два, из перечисленных в списке, направления, такие как: создание электронных словарей и создание корпусов текстов.

Поскольку задача определения жанровой принадлежности текстов уже давно рассматривается исследователями, то существуют специальные программы классификации текстов по жанру. Здесь следует указать, в качестве примера, программу под названием «Худломер» [Teneta – Rinet: [сайт]. URL: http://teneta.rinet.ru/2000/hudlomer/ ].

Данная программа использует расчет средней длины слов для определения жанровой принадлежности текста к  4 функциональным стилям текста: разговорному, художественному, газетно-информационному и научно-деловому. К сожалению, по статистике на текстах из 100 слов, «Худломер» ошибается в 25-30% случаев.

Проблема эмоций в психологии актуальна по сей день. Поскольку в кругах специалистов психологии до сих пор не существует общей точки зрения на классификацию базовых эмоций, в данной работе были рассмотрены две наиболее популярные теории.

Эволюционная точка зрения на механизм эмоций как стимул и действие была высказана еще Дарвином. Однако свой обособленный и законченный вид был получен ею благодаря американскому ученому Роберту Плутчику. Постулат данной теории говорит о том, что существует всего 8 базовых эмоций (страх, гнев, радость, печаль, принятие, отвращение, ожидание, удивление) и 8 соответствующих им защитных реакций. Так, следуя теории, в зависимости от стоящего перед человеком события, его оценке как эмоции и последующей реакции, можно охарактеризовать практически любую деятельность, с которой может столкнуться человек в своей повседневной жизни [15, с. 24-72].

Чуть позднее, после сложившейся эволюционной теории, Плутчиком создается, так называемое, колесо эмоций, где он дает подробную классификацию базовых (простых) и составных (эмоций) (см.рис.1).

Рисунок 1. Колесо эмоций Р. Плутчика

Данная схема классифицирует эмоции на позитивные и негативные, простые и составные. Заметно показана градация той или иной эмоции, степень ее проявления. Наилучшим образом иллюстрируется связь между простыми эмоциями, в последствие которой образуются такие составные эмоции как чувства.

С другой точки зрения, довольно интересна теория, разработанная американским психологом Кэрролом Изардом, которая и легла в основу данного исследования. В ее основу положены идеи о том, что под базовыми эмоциями понимаются эмоции, выражающиеся с помощью мимических движений лица; эмоции способные мотивировать или адаптировать человека; эмоции, как и в теории Плутчика, возникшие в результате эволюционно-биологических процессов.

В соответствии с его точкой зрения, в качестве базовых эмоций человека выделяются: эмоция вины, эмоция гнева, эмоция страха, эмоция радости, эмоция отвращения, эмоция удивления, эмоция интереса , эмоция презрения, эмоция грусти, эмоция стыда.

В своей книге «Психология эмоций» [5, с. 464], Изард дает подробную характеристику каждой из 10 эмоций.

В работе Изарда показана амбивалентность человеческих эмоций. В зависимости от ситуаций, человеческие эмоции изменяют свою изначальную принадлежность к позитивному или негативному классу, что может говорить о том, что деление эмоций на позитивный и негативный класс, может быть неверно и нести определенные неточные выводы.

С лингвистической точки зрения важно сказать о полевом подходе.

Любое поле состоит из ядра, полупериферии и периферии. Поля могут строиться не только по понятийному принципу, включающему общность значения входящих в поле слов, но и по ассоциативному принципу, благодаря которому в элементы поля могут входить слова, связанные со значением ядра посредством ассоциаций.

Прежде всего, выделяется лексико-семантическое поле. Под лексико-семантическим полем (ЛСП) понимается совокупность слов, значение которых связано со значением ядра поля.

Любое лексико-семантическое поле способно подразделяться на лексические группы слов, приобщенных к какой-либо определенной части речи.

Чаще всего, в ЛСП все слова, приближенные к ядру поля и находящиеся на полупериферии, выражаются непосредственно синонимами, близкими к корневому значению поля.

Лексемы, расположенные на периферии поля, чаще всего совпадают лишь по одному из данных конкретных значений. Такие лексемы могут составлять смежные поля с лексемами, входящими в другие поля, тем самым показывая возможность взаимосвязи различных полей между собой.

Ко второй, наиболее популярной среди классификаций поля, относится номинативно-функциональное поле. Данный вид поля объединяет, не только связанные по общему значению лексемы, но и лексемы, выполняющие схожие с функцией ядра функции.

Ученые стали приходит к выводу о том, что изучение с помощью полевого подхода произведений литературы, принадлежавших к определенным жанрам, может наилучшим образом выявить специфику использования той или иной лексемы. Поможет дополнить качественную характеристику слова.

В данном исследовании, в большей части, нами проводилась работа с номинативно-функциональным полем, вбирающим в себя лексико-семантические поля.

В качестве номинативно-функционального поля, в данном исследовании выступали эмоции человека, представляющие собой различные чувственные проявления человека, в связи с чем, поле получило название: номинативно-функциональное эмотивное поле.

Данное макрополе включало в себя 10 базовых лексем – эмоций, каждая  из которых представляла собой лексико-семантические микрополя. Каждое из данных микрополей будет включать в себя группы лексем на трех языках, принадлежавшие к общему классу части речи, имени существительного. На полупериферии таких полей будут находиться близкие к ядру значения, на периферии будут находиться элементы ассоциативного ряда к каждой из 10 эмоций.

Важно заметить, что многие эмоции,  составляющие каждое отдельное лексико-семантическое поле, способны организовываться в определенные объединения, в результате которых образуются новые смежные поля, такие как поле «любовь», образованное в связи базовых эмоций радости и принятия, поле «пессимизма», построенное в связи интереса и печали и многие другие. Такие смежные поля будут представлять собой чувства человека.

Вся исследовательская работа была поделена на 3 этапа. В ходе первого этапа была создана и разработана программа-анализатор TRIlingvo, разработка которой производилась в два этапа: первый из которых включал в себя написание программного кода на высокоуровневом языке Python, с использование базы данных Sqlite, второй подразумевал под собой заполнение базы данных [TRIlingvo: [сайт]. URL: http://tutumboos.myjino.ru/]. Интерфейс программы представлен на рисунке 2.

Рисунок 2. Программа-анализатор TRIlingvo

К достоинствам программы можно отнести:

–  возможность работы с текстами на любом языке

– возможность ввода неограниченного по объему текстового материала

– возможность статистического анализа текстового материала

– возможность получения информации о грамматических особенностях слова и статистике его использования

– возможность изучения слова сразу на трех языках

Для второго этапа исследовательской части, включающего квантитативный анализ, были взяты 10 базовых слов эмоций, по классификации Кэррола Изарда.

В качестве текстового материала была взята трилогия книг «Голодные игры», американской писательницы Сьюзен Коллинз и ее переводы на русском и китайском языках; серия книг Джеймса Дэшнера «Бегущий по лабиринту» и ее переводы на русском и китайском языках [2-4, 6-20].

Были собраны выборочные частоты по каждой книге оригинала и ее переводам. Затем было произведено суммирование всех выборочных частот по всему корпусу текстов (см.рис.3). Анализ выборочных частот показал, что в текстах написанных на английском языке (то есть оригиналах), между каждой из серий книг проявляется сильная количественная схожесть, что может подтверждать тот факт, что все книги были написаны одним и тем же человеком.


Рисунок 3. Таблица “Суммарные значения выборочных частот по всему корпусу книг жанра антиутопия”

После сбора выборочных частот, был произведен статистический анализ текстового массива книг, включающий в себя нахождение определенных статистических величин. Здесь следует упомянуть, что проблема насыщенности текста уже была решена на предварительном этапе исследования, на данном этапе исследования производился анализ текстов со лексемами – эмоциями, на предмет их количественной, точной характеристики.

На заключительном этапе исследовательской части, на основе поученных в ходе предварительного этапа данных, были заложены начальные базы частотного словаря эмоций антиутопического жанра, который в соответствие с законом распределения частотной лексики на гиперболе Ципфа-Мандельброта показал, что самыми встречаемыми лексемами по корпусу книг антиутопического жанра стали лексемы, обозначающие эмоции страха, гнева, удивления, вины, отвращения, интереса и радости, которые в соответствии с мыслями о амбивалентности человеческих эмоций, изложенными американским психологом Кэрролом Изардом, соответствуют жанру антиутопия (см. рис. 4).

Рисунок 4. Диаграмма распределения суммарных значений выборочных частот на гиперболе Ципфа-Мандельброта

Полученные в ходе предварительного этапа данные, показали специфику различий и сходств между эмоциями в книгах двух разных писателей, их оригиналов и переводов. Полученные по данным выборочных частот, наиболее часто встречаемые лексмы, обозначающие эмоции, с сопутствующей трактовкой с психологической точки зрения, доказали свою неоспоримую принадлежность к данному жанру и специфику занимаемых ими высоких позиций по критерию частотности.

В ходе квантитативного анализа, появилась проблема, связанная с отклонениями выборочных частот от значения средней. Так, для определенных совокупностей лексем-эмоций, доступный объем выборки оказался недостаточным. В ходе повторного исследования, взяв произвольное значение выборки, был реализован принцип «чем больше выборка – тем меньше отклонение от значения средней».

Следует заметить, что рамки данного исследования, к сожалению, на данный момент, не позволяют иметь в наличие большой корпус текстов антиутопического жанра. Это связано,  прежде всего, со спецификой самого исследования и материалом, доступным для изучения.

Специфика данного исследования, прежде всего, ориентирована на поиск количественных сходств и различий между эмоциями, выраженными лексемами в текстах на русском, английском и китайском языках, следовательно, и многоязычный корпус, объединяющий данные тексты, должен содержать в себе тексты как оригиналов, так и их переводы.

В связи с трудностями перевода на китайский язык, популярных в англоговорящих странах произведений литературы, были выбраны наиболее доступные для исследования книги и их переводы.

Несмотря на трудности, проявившиеся в ходе данного исследования, были получены следующие результаты:

  1. Создана программа-анализатор, которая при дальнейшей разработке своего статистического инструментария и наполнения базы данных, способна стать высокоранговой программой-анализатором, способной производить, не только подсчет статистических данных, но и содержать грамматические и лексические сведения о том или ином слове, входящем в состав корпуса, соотнесенного с программой, элемента поиска.
  2. Были получены точные, количественные характеристики лексем – эмоций, численно подтверждающие принадлежность каждой эмоции к данному антиутопическому жанру.
  3. Была заложена начальная база частотного словаря, который при своей дальнейшей разработке, включающей пополнение объема корпуса текстов, способен перерасти в объемный, по своему составу, частотный словарь лексем – эмоций, с антиутопической, жанровой направленностью.

Список литературы

1. Головин Б.Н. Язык и статистика. М., «Просвещение», 1970. С. 190.
2. Дэшнер Д. Бегущий по Лабиринту: перевод с англ. Д. Евтушенко. Издательство: АСТ, 2014. С. 448.
3. Дэшнер Д. Бегущий по лабиринту. Испытание огнем: перевод с англ. Н. Абдуллин. Издательство: АСТ, 2014. С. 352.
4. Дэшнер Д. Бегущий по лабиринту. Лекарство от смерти: перевод с англ. Н. Абдуллин. Издательство: АСТ, 2014. С. 352.
5. Изард К. Э. Психология эмоций/Перев. с англ. — СПб.: Издательство «Питер», 2000. — 464 с.
6. Коллинз C. Голодные игры: перевод с англ. А. Шипулин. Издательство: АСТ, Астрель, 2010. С. 384.
7. Коллинз C. Голодные игры. И вспыхнет пламя: перевод с англ. В.И. Баканов, А. Шипулин, М.А. Головкин, Ю.Е. Моисеенко. Издательство: АСТ, Астрель, ВКТ, 2010. С. 416.
8. Коллинз C. Голодные игры. Сойка – пересмешница: перевод с англ. А. Шипулин, М.А. Головкин. Издательство: Астрель, 2012. С. 416.
9. Collins S. The Hunger Games. Scholastic Press; Reprint edition, 2010. P. 384.
10. Collins S. The Hunger Games. Catching Fire. Scholastic Press; Reprint edition, 2013. P. 400.
11. Collins S. The Hunger Games. Mockingjay. Scholastic Press; Reprint edition, 2014. P. 400.
12. Dashner J. The Maze Runner. Delacorte Press, 2009. P. 376.
13. Dashner J. The Maze Runner. The Scorch Trials. Ember; Reprint edition, 2011. P. 384.
14. Dashner J. The Maze Runner. The Death Cure. Delacorte Press, 2013. P. 352.
15. Plutchik R. Emotions and Life: Perspectives from Psychology, Biology, and Evolution. APA Books, 2003. P. 381.
16. 苏珊 柯林斯. 饥饿游戏. 译者: 耿芳. 作家出版社, 2010. 页数324.
17. 苏珊 柯林斯. 饥饿游戏. 燃烧的女孩. 译者: 耿芳. 作家出版社, 2011. 页数344.
18. 苏珊 柯林斯. 饥饿游戏. 嘲笑鸟. 译者: 耿芳. 作家出版社, 2011. 页数354.
19. 詹姆士 達許納. 移動迷宮. 译者: 陳錦慧. 三采, 2011. 页数384.
20. 詹姆士 達許納. 移動迷宮. 焦土試煉. 译者: 陳錦慧. 三采文化出版事業, 2012. 页数368.
21. 詹姆士 達許納. 移動迷宮. 死亡解藥. 译者: 陳錦慧. 三采, 2012. 页数336.

Расскажите о нас своим друзьям: