Теория языка | Филологический аспект №2 (46) Февраль 2019

УДК 81.42

Дата публикации 14.02.2019

Особенности функционирования субстантивных ссылок в структуре электронного гипертекста

Шульгинов Валерий Александрович
канд. фил. наук, доцент кафедры русского языка как иностранного, Дальневосточный федеральный университет, РФ, г. Владивосток, shulginov.val@yandex.ru

Аннотация: В статье рассматриваются особенности функционирование субстантивных ссылок в структуре электронного гипертекста с помощью методов корпусной лингвистики. Определяются количественные показатели семантической близости в паре «ссылка/текст», приводится типология ссылок по семантическому признаку. Ставится вопрос о корреляции типа лексемы и локализации семантики гипертекстового перехода.
Ключевые слова: электронный гипертекст, дистрибутивная семантика, интертекстуальность, корпус

The functioning of substantive links in the structure of hypertext

Shulginov Valery Aleksandrovich
Cand. Sciences (Philology), associate professor of the department of Russian as a foreign language, Far Eastern Federal University, Russia, Vladivostok

Abstract: The article discusses the features of the functioning of substantive links in the structure of electronic hypertext using the methods of corpus linguistics. We identify quantitative indicators of semantic proximity in a “reference / text” pair. We create the link classification based on semantic feature. We set correlations thematic characteristic of words and localization of the semantics of hypertext links.
Keywords: electronic hypertext, distributive semantics, intertextuality, corpus linguistics

Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 18-312-0010

Современная лингвистика изучает язык в контексте сферы его функционирования. В настоящий момент огромное влияние на существование языка оказывает интернет, который представляет собой социально-коммуникативную компьютерную сеть, предназначенную для удовлетворения личностных и групповых коммуникационных потребностей за счет использования телекоммуникационных технологий [3, c. 208].

Электронная среда обеспечивает процесс интеграции текста с мультимедийными компонентами (звук, изображение, видео), а также позволяет материализовать интертекстуальные связи в массиве текстов в виде гиперссылок. Таким образом, в интернете формируется электронный гипертекст – коммуникативная единица нового типа, которая, с одной стороны, отвечает всем признакам текстуальности  (целостность, связность, намеренность, приемлемость, информативность, ситуативность, интертекстуальность), с другой – характеризуется сложной структурой и нелинейными связями между фрагментами [4, c. 233].

Для комплексного изучения структуры электронного гипертекста мы применяем методы корпусной лингвистики. При этом под лингвистическим корпусом понимается «унифицированный, структурированный и размеченный массив языковых (речевых) данных в электронном виде, предназначенный для определенных филологических и, более широко, гуманитарных исследований» [1]. Построение базы данных предполагает выделение функциональных единиц в структуре электронного гипертекста. Мы предлагаем концепцию, согласно которой электронный гипертекст представляет собой совокупность единиц диалогического типа, в состав которых входят:

- текст-стимул (целевой текст, к которому совершается переход при активации гипертекстовой ссылки);

- источник перехода (номинация ссылки).

- текст-реакция (исходный текст, в состав которого входит гипертекстовая ссылка).

Для номинации этих единицы мы предлагаем термин гипертекстема. Гипертекстемы позволяют представить электронный гипертекст как результат авторской рецепции, которая отражается как в номинации ссылки, так и содержании исходного текста. Цель данного подхода заключается в создании комплексной когнитивной модели электронного гипертекста.

Наш корпус включает в себя  гипертекстемы, функционирующие в электронных информационных ресурсах («Коммерсант», «Известия», «РБК», «Новая газета», «ТАСС», «Дождь», «Новая газета», «Ведомости», «Интерфакс»). В настоящий момент корпус гипертекстем включает в себя 51000 единиц с общим объемом 12 млн. словоупотреблений, размеченных по морфологическим и семантическим признакам.

Семантическая разметка строится с помощью открытого фреймворка «WebVectors», который строит  векторные модели дистрибутивной семантики слов. Дистрибутивный подход основан на вычислении степени семантической близости между языковыми единицами с учётом их сочетаемости: чем чаще лексемы образуют одинаковые коллокации, тем ближе они друг к другу по значению: «vector models of distributional semantics are well established in the field of computational linguistics and have been here for decades… However, recently they received substantially growing attention. The main reason for this is a possibility to employ artificial neural networks trained on large corpora to learn lowdimensional distributional vectors for words [5, c. 155]. Таким образом, мы получаем количественные показатели семантической близости от 0 до 1, где 0  означает отсутствие семантических пересечений, а 1 – абсолютную синонимию.

Рассмотрим специфику функционирования однокомпонентных субстантивных ссылок в структуре электронного гипертекста.

Рисунок 1. Частотность распределение номинаций ссылок по частям речи семантической близости

Как видно на диаграмме (рис. 1), субстантивы встречаются в номинации ссылок реже, чем глаголы, однако при этом образуют более тесные семантические связи с текстом-стимулом.

Наиболее частотными оказываются номинации, указывающие на источник получения информации: публикация, интервью, сайт, сообщение, информация, заявление, материал.

Таблица 1. Распределение субстантивных ссылок по частотности

Номинация ссылки

Частота использования

Семантическая близость к тексту-стимулу

публикация

188

0,22

интервью

113

0,20

сайт

58

0,17

сообщение

44

0,19

информация

33

0,20

заявление

27

0,22

материал

27

0,19

Данная группа субстантивных ссылок имеет слабую семантическую связь с текстом-стимулом: в диапазоне от 0,17 до 0,22 (табл.1). Это определяется функцией данных ссылок – они связывают текст-реакцию с  пресуппозицией, необходимой для его восприятия . Рассмотрим контекст употребления данной группы ссылок в предложении: Об импортозамещении лекарств читайте в публикации “Ъ”, На следующий день в интервью телеканалу RT мужчины рассказали, что ездили в британский город Солсбери;  Текст телеграммы опубликован в воскресенье на сайте Кремля. Во всех этих случаях ссылка является маркером перехода к первоисточнику, а семантика гипертекстового перехода отражена  в ближайшем контексте ссылки и даже в содержании текста-реакции в целом.

К данной группе примыкают ссылки-имена собственные, которые чаще всего указывают на название ресурса-первоисточника: ТАСС (1111 употреблений), Интерфакс  (273 употребления), РБК (110 употреблений).

Большей семантической близостью обладают субстантивные ссылки, связанные с конкретным референтом сообщения. Сильную семантическую связь проявляют ссылки с номинациями: пошлина, санкция, авария, прокуратура, взрыв, соглашение.

Таблица 2. Распределение субстантивных ссылок по степени семантической близости

 

Номинация ссылки

Частота использования

Семантическая близость к тексту-стимулу

пошлина

10

0.44

санкция

25

0.40

авария

8

0.36

прокуратура

6

0.35

взрыв

10

0.35

соглашение

8

0.35

Данные показывают (табл. 2), что ссылки, проявляющие большую семантическую близость, дифференцируются по тематическому признаку: их набор определяется многообразием тем, поднимаемых в электронных информационных ресурсах. В их составе выделяются следующие тематические группы: политика (санкция, пошлина, соглашение, законопроект, переговоры, митинг), судебно-правовая система (прокуратура, дело, обыск), происшествие (авария, взрыв, пожар, убийство).

Итак, анализ субстантивных ссылок показал, что локализация семантики гипертекстового перехода коррелирует с типом их номинации. Этот процесс отражает две основные стратегии автора текста-реакции: стремление к выделению и актуализации  референта в тексте-стимуле (использование ссылок с сильной семантической связью) либо указание на ситуацию/первоисточник (ссылки со слабой семантической связью).


Список литературы

1 Захаров В.П. Поисковые системы Интернета как инструмент лингвистических исследований // Русский язык в Интернете. Казань, 2003 — C. 48—59
2. Рязанцева Т.И. Гипертекст и электронная коммуникация / Т.И. Рязанцева. – М.: ЛКИ, 2010. – 256 с.
3. Соколов А.В. Общая теория социальной коммуникации: уч. Пособие / А.В. Соколов – СПб.: Михайлов, 2002ю – 460 с.
4. Шульгинов В.А. Когнитивная модель электронного гипертекста / В.А. Шульгинов //Вестник Кемеровского государственного университета. 2016. № 4 (68). С. 233-238
5. Kutuzov, A., Kuzmenko, E. (2017) WebVectors: A Toolkit for Building Web Interfaces for Vector Semantic Models. In: Ignatov D. et al. (eds) Analysis of Images, Social Networks and Texts. AIST 2016. Communications in Computer and Information Science, vol 661. Springer, Cham

Расскажите о нас своим друзьям: