Прикладная и математическая лингвистика | Филологический аспект №1 (45) Январь, 2019

УДК 81’33

Дата публикации 31.01.2019

Постредактирование машинного перевода: теоретические аспекты

Худяков Никита Александрович
магистрант кафедры перевода и прикладной лингвистики, Северный (Арктический) федеральный университет имени М.В. Ломоносова, г. Архангельск, nikkhudyakov@mail.ru

Аннотация: В данной статье рассматривается проблема эффективности постредактирования машинного перевода. Данная тема особенно актуальна в связи со значительным развитием систем машинного перевода в последние годы. Автор дает обобщенную характеристику процессу постредактирования и выделяет основные факторы, которые влияют на скорость и эффективность работы постредактора. Основное внимание в работе автор акцентирует на актуальных практиках постредактирования. Кроме этого, детально описываются требования к качеству конечного продукта разного уровня. В статье приведен анализ взглядов на проблему эффективности постредактирования как отечественных, так и зарубежных исследователей.
Ключевые слова: машинный перевод, постредактирование, переводческая отрасль, подготовка к постредактированию, руководящие принципы постредактирования

Machine translation post-editing: theoretical aspect

Khudiakov Nikita Aleksandrovich
master student of Translation Studies and Applied Linguistics Department, Northern (Arctic) Federal University named after M. V. Lomonosov, Arkhangelsk

Abstract: This article deals with the problem of efficiency of machine translation post-editing. This topic is particularly relevant in recent years due to the significant development of machine translation systems. The author gives a generalized description of the post-editing process and highlights the main factors that affect post-editing speed and efficiency. The author focuses on actual post-editing practices and standardized requirements for the post-editing process and post-editor competences. The paper looks at recent research dealing with post-editing conducting both nationally and internationally.
Keywords: machine translation, post-editing, translation industry, post-editing training, post-editing guidelines

Сегодня можно выделить несколько основных факторов, которые способствовали возобновлению интереса к машинному переводу (МП) как в области исследований, так и на практике. Во-первых, увеличение объема информации в современном глобальном мире и колоссальная потребность в увеличении скорости и эффективности перевода потребовали поиска альтернативы традиционному «человеческому» переводу.  Задачей переводческой деятельности стало решение практических задач в кратчайшие сроки, для чего в некоторых случаях можно было пожертвовать качеством. Во-вторых, за последние 30 лет удалось достигнуть значительного прогресса в области машинного перевода, что привело к расширению доступности систем МП для различных языковых пар и повышению качества МП. Прогресс продолжается еще большими темпами, о чём говорит, например, то, что за два года своего существования нейронная система машинного перевода превзошла результаты статистической системы, на разработку которых ушло более 20 лет [2].

Несмотря на значительное развитие систем МП, выходной материал чаще всего требует доработки человеком. Этот процесс называется постредактированием машинного перевода (РЕМТ) и подразумевает внесение исправлений в текст машинного перевода согласно заранее установленным требованиям [8]. Постредактирование текста отличается от редактирования тем, что в первом случает исходным текстом является перевод, выполненный машиной, а во втором – человеком. Текст, который прошел этап постредактирования, также может быть в дальнейшем передан редактору для исправления стилистических, грамматических и лексических ошибок и функционального ориентирования текста на целевого читателя [1]. Редактирование требует от специалиста более высокого уровня навыков, чем от переводчика или постредактора.

О том, что взаимодействие с МП становится одной из наиболее значимых составляющих работы профессионального переводчика, говорит и статистика. В отчете европейской переводческой отрасли о развитии переводческой отрасли в 2018 году, разработанном рядом профессиональных объединений Европы (Elia GALA, EUTAC, EMT, LIND), отмечается, что 2018 год запомнится в первую очередь тем, что именно в этом году более 50 % как переводческих компаний Европы, так и переводчиков-фрилансеров подтвердили, что используют МП в той или иной его форме [3]. Ещё более популярным в этом году стало постредактирование машинного перевода: 37 % европейских переводческих компаний сообщают об увеличении доли использования РЕМТ в своей практике, а ещё 17 % заявляют, что намерены начать практиковать этот вид деятельности в ближайшее время [3].

Тем не менее, нельзя говорить о том, что использование машинного перевода с его последующем редактировании однозначно ведет к увеличению скорости и эффективности работы переводчика. Результат в значительной степени зависит от качества машинного перевода. Исследования показывают, что постредактирование машинного перевода высокого качества действительно может увеличить скорость и эффективность работы профессиональных переводчиков. Однако постредактирование машинного перевода низкого качества показывает обратные результаты [9]. Кроме того, еще одним важнейшим фактором эффективности постредактирования машинного перевода является подготовка постредактора, что также включает стандартизацию основных практик постредактирования и требований к качеству конечного продукта разного уровня. Поэтому для того, чтобы повысить эффективность постредактирования машинного перевода, необходимо ответить на следующие вопросы: каким образом можно подготовить текст к машинному переводу, чтобы на выходе получился текст высокого качества? И какие рекомендации необходимо дать постредактору для эффективной работы?

Как было отмечено ранее, эффективность постредактирования напрямую зависит от качества выходных данных машинного перевода. Постредактирование перевода низкого качества может занять больше времени, чем перевод, выполненный переводчиком «с нуля». На качество выходных данных машинного перевода влияют определенные характеристики исходного текста, которые получили название «показатели переводимости» [10] или же «отрицательные показатели переводимости» [12]. Несмотря на то, что большая часть исследований данных характеристик проводилась на английском, полученные результаты могут быть применены ко всем языкам [5].

Первая из данных характеристик – это длина и структура предложения [14]. Как длинные, так очень короткие предложения могут привезти к низкому качеству выходных данных. Системе машинного перевод часто бывает трудно провести верный синтаксический анализ длинного предложения, что крайне важно для точной передачи смысла. Короткие же предложения могут быть неоднозначными в силу ограниченности контекста [5]. С точки зрения структуры предложения сложными для перевода являются неполные предложения, в которых отсутствует один или оба главных члена предложения, а также предложения с сочинительными союзами [10]. Ещё одним «отрицательным показателем переводимости» предложения является наличие в нем определенных частей речи и словосочетаний, как, например, имен собственных, сложных существительных, неличных форм глагола; или же фиксированных сочетаний с предлогами, длинных словосочетаний именной группы [10].

Для сокращения времени, требуемого для постредактирования, необходимо предварительно работать с исходным текстом (осуществлять предварительное редактирование). Этот процесс включает в себя проверку грамматической, орфографической и логической правильности исходного текста; изменение порядка слов на уровне словосочетания и предложения; замену идиоматических выражений для однозначной передачи смысла; изменение сложной пунктуации [16]. Кроме того, корректная настройка системы МП может также улучшить качество выходных данных. В случае с машинным переводом на основе правил — Rule-based Machine Translation (RBMT) такая настройка достигается использованием тематических словарей, а в случае со статистическими и гибридными системами – фильтрацией исходных данных для обеспечения терминологического соответствия [15].

Эффективность постредактирования машинного перевода также в значительной степени зависит от постредактора. В ходе исследований с участием испытуемых с различным опытом в сфере перевода и постредактирования были выявлены значительные различия между ними [13]. В первую очередь была отмечена разница в скорости постредактирования. Это могло быть обусловлены несколькими факторами: уровнем знаний испытуемого в конкретной предметной области, общими навыками работы с текстом, предыдущим опытом постредактирования и работы с инструментами постредактирования [8]. Важно также отметить, что не было выявлено положительной корреляции между опытом переводческой деятельности и скоростью постредактирования. Так, лингвист Ганс Петер Крингс показал, что опытные переводчики тратят больше времени на постредактирование, чем начинающие переводчики [11]. В более актуальном исследовании также не удалось обнаружить преимущества опытных переводчиков перед новичками [6]. Однако, в ходе испытаний были выявлены более важные критерии эффективности постредактирования – предыдущий опыт, соблюдение рекомендаций для постредактирования и ориентация на качество, соответствующее цели перевода [10].

На этой стадии важно вернуться к определению постредактирования: внесение исправлений в текст машинного перевода согласно заранее установленным требованиям [8]. Это подразумевает, что в некоторых случаях цель постредактора – добиться приемлемого, а не идеального качества конечного продукта. Так, например, перевод контента, создаваемого пользователями, не обязательно должен быть грамматически и стилистически правильным, он лишь должен точно передавать смысл исходного сообщения. В других же ситуациях может требоваться перевод более высокого качества, уровень которого должен соответствовать профессиональному «человеческому» переводу. В качестве примера можно взять перевод пользовательского интерфейса, рекламных материалов, то есть контента, который напрямую взаимодействует с потребителем и должен поддерживать имидж компании.

Для того, чтобы сделать процесс постредактирования более эффективным и нацеленным на определенное качество, необходимо выработать общие требования к разному уровню качества перевода и стандартизированные практики для реализации этих требований. Эта задача была реализована аналитическим центром TAUS (Translation Automation User Society), где был подготовлен набор руководящих принципов постредактирования, призванный помочь как постредакторам, так и заказчикам установить четкие требования к конечному продукту, и на основе этого составить техническое задание [15]. В документе было чётко определено два уровня качества постредактирования машинного перевода.

Первый уровень качества, «приемлемое» качество (“good enough”), соответствует переводу, который должен точно передавать смысл исходного сообщения, но в то же время не обязан быть грамматически, синтаксически и стилистически правильным. Текст может звучать так, как будто он был переведён компьютером [15]. Для достижения «приемлемого» качества постредактор должен убедиться, что перевод является корректным с точки зрения семантики, в нём нет случайных добавлений или опущений, а также он не содержит оскорбительного или неприемлемого с точки зрения культуры контента. Второй уровень качества, качество, «отвечающее предъявляемым к публикации требованиям» (“publishable quality”), соответствует переводу, который должен точно передавать смысл исходного сообщения получателю и быть полностью понятным, а также соответствовать нормам стиля, грамматики и синтаксиса [4]. То есть быть близким по качеству к профессиональному «человеческому» переводу.

Данные требования, предъявляемые к качеству постредактирования машинного перевода, также закреплены в Международном стандарте по предоставлению переводческих услуг ISO 18587:2017. В документе выделены два уровня качества (лёгкое и полное постредактирование), аналогичные двум уровням, разработанным аналитическим центром TAUS [7].

Сегодня совершенствование технологий машинного перевода, а также потребность в увеличении скорости перевода ведет к тому, что постредактирование становится альтернативой профессиональному «человеческом» переводу во многих аспектах переводческой деятельности. Однако, несмотря на представляющуюся лёгкость постредактирования, эффективность этого процесса во многом зависит от качества исходного текста МП, а также от заранее утвержденных практик постредактирования и требований к качеству конечного продукта. Машинный перевод, который до сих пор в сознании многих является угрозой, становится одной из наиболее значительных составляющих работы профессионального переводчика, что подтверждает статистика. Тем не менее компьютерные системы не способны полностью заменить человека. Поэтому тема постредактирования машинного перевода будет оставаться актуальной в области лингвистических исследований, что в дальнейшем должно отразится на эффективности переводческого процесса и качества перевода.


Список литературы

1. Максютина О. В. Редактирование перевода как неотъемлемая часть современного стандарта качества // Вестник ТГПУ. - 2014. - №4 (145). - С. 106-111.
2. Мы научили машину выбирать лучший вариант // N+1 URL: https://nplus1.ru/material/2017/09/14/yandex-machine-translation (дата обращения: 14.01.2019).
3. Нечаева Н.В., Светова С.Ю. постредактирование машинного перевода как актуальное направление подготовки переводчиков в вузах // Вопросы методики преподавания в вузе. - 2018. - №7 (25). - С. 64-72.
4. Чакырова Ю.И. Постредактирование в транслатологической парадигме // Вестник ПНИПУ. Проблемы языкознания и педагогики. - 2013. - №8. - С. 137-144.
5. Bernth, A. and Gdaniec, C., 2001. MTranslatability. Machine Translation, 16(3):175-218.
6. Guerberof Arenas, A., 2014b. The role of professional experience in post-editing from a quality and productivity perspective. In O'Brien et al. (2014), pp: 51-76.
7. ISO 18587:2017 (2017). Translation Services – Post-editing of machine translation output – Requirements. International Organization for Standardization.
8. Koby, G. S., 2001, Editor’s introduction. In Krings, H. P. Repairing Texts: Empirical Investigations of Machine Translation Post-editing Processes, Kent State University Press, pp: 1-23.
9. Koponen, M., 2016. Is machine translation post-editing worth the effort? A survey of research into post-editing and effort. The Journal of Specialised Translation, 25: 131-148.
10. Koponen, M., 2016. Machine Translation Post-editing and Effort. Empirical Studies on the Post-editing Process, PhD thesis, University of Helsinki, Helsinki.
11. Krings, H.P., 2001. Repairing Texts: Empirical Investigations of Machine Translation Post-Editing Process. Ohio: The Kent State University Press.
12. O'Brien, S., 2005. Methodologies for Measuring the Correlations between Post-Editing Effort and Machine Translatability. Machine Translation, 19(1): 37–58.
13. Sousa, S.C., W. Aziz and L. Specia, 2011. Assessing the Post-Editing Effort for Automatic and Semi-Automatic Translations of DVD subtitles. Proceedings of the Recent Advances in Natural Language Processing Conference, RANLP 2011 Organising Committee, pp: 97–103.
14. Tatsumi, M., 2009. Correlation Between Automatic Evaluation Metric Scores, Post-Editing Speed, and Some Other Factors. Proceedings of the MT Summit XI, Association for Machine Translation in the Americas, pp: 332–339.
15. TAUS (2010). Machine Translation Post-editing Guidelines. https://www.taus.net/think-tank/best-practices/postedit-best-practices/machine-translation-post-editing-guidelines (дата обращения: 10.01.2019).
16. Temnikova, I., 2010. A Cognitive Evaluation Approach for a Controlled Language Post-Editing Experiment. Proceedings of the 7th International Conference on Language Resources and Evaluation, European Language Resources Association (ELRA), pp: 3485–3490.

Расскажите о нас своим друзьям: