Курсовая с практикой на тему Нейронный машинный перевод и машинный перевод: сходства и отличия
-
Оформление работы
-
Список литературы по ГОСТу
-
Соответствие методическим рекомендациям
-
И еще 16 требований ГОСТа,которые мы проверили
Введи почту и скачай архив со всеми файлами
Ссылку для скачивания пришлем
на указанный адрес электронной почты
Содержание:
СОДЕРЖАНИЕ
ВВЕДЕНИЕ. 3
Глава 1.
ТЕОРЕТИЧЕСКИЕ АСПЕКТЫ ИЗУЧЕНИЯ НЕЙРОПЕРЕВОДА И МАШИННОГО ПЕРЕВОДА.. 5
1.1
Концепция, история, этапы и предпосылки появления машинного перевода 5
1.2
Концепция, история, этапы и предпосылки появления нейронного машинного
перевода. 12
1.3 Как
работают две системы машинного перевода. 18
Глава 2.
СРАВНЕНИЕ НЕЙРОМАШИННОГО ПЕРЕВОДА И МАШИННОГО ПЕРЕВОДА.. 26
2.1
Характеристики методов перевода. 26
2.2
Сравнение областей использования. 31
2.3
Сравнение результатов перевода. 37
ЗАКЛЮЧЕНИЕ. 42
БИБЛИОГРАФИЯ.. 43
Введение:
Глобализация, стирая границы между странами,
лишает человека возможности существовать всю жизнь в кругу своего родного
языка. Во всех сферах деятельности: наука и образование, культура, досуг и т.
Д. — мы встречаем все больше и больше информации на разных языках, общаемся с
их носителями. Это объясняет, почему проблема машинного перевода была одной из
самых важных проблем автоматической обработки естественного языка в течение нескольких
десятилетий.
В последние годы в этой области был сделан
значительный прорыв благодаря технологии глубокого обучения, основанной на
имитации клеток центральной нервной системы человека. Выбирая параметры
обучения искусственной нейронной сети, можно добиться высоких результатов в
различных областях обработки данных, в том числе. в обработке текстов. Качество
перевода зависит не только от архитектуры нейронной сети, но и от способа
подачи слов. Нейронный машинный перевод претерпел значительное развитие
благодаря появлению современных встраиваний (способов векторизации слов): на
основе синтаксических зависимостей [Levy et al., 2014], межъязыкового
встраивания [Conneau et al., 2018], встраивание на основе всего предложения
[Devlin et al., 2018] и т. д. \\ latest_article_from?
Несмотря на все проблемы, связанные с обработкой
естественного языка, интересно взглянуть на результаты с лингвистической точки
зрения. Несмотря на важность этой области, результаты нейромашинного перевода в
этой области мало изучены. Знание специфики архитектур и понимание поведения
конкретного языка во время перевода позволит вам выбрать оптимальную
архитектуру и способ представления данных для каждой конкретной задачи
машинного перевода.
Цель данной работы — создать несколько систем
машинного перевода, использующих разные архитектуры и методы векторизации
данных, а затем сравнить их результаты с лингвистической точки зрения.
Цель ставит следующие задачи:
1) изучить различные подходы к машинному
переводу;
2) изучение архитектур нейронных сетей,
используемых в нейронном машинном переводе;
3) изучение подходов к векторизации слов;
4) сравнение результатов алгоритмов, оценка
качества перевода;
5) выявление ошибок, вызванных системами при
переводе;
Цель исследования — технологии нейронного
машинного перевода.
Предмет исследования — методы векторизации слов,
используемые для нейронного машинного перевода.
Материалом для работы послужил англо-русский
параллельный корпус, составленный на основе материалов с сайта проекта Tatoeba. \\ ссылка — это набор параллельных предложений для разных языков,
которые обновляются пользователями.
В работе использовались следующие методы:
1) распределительно-грамматический анализ для
выявления лексических и синтаксических ошибок перевода; \\ это существует? \\
морфологически?
2) статистический метод (тест МакНемара) для
оценки значимости различий между результатами, полученными в разных системах
машинного перевода;
3) дедуктивный метод анализа перевода, основанный
на знании алгоритмов функционирования нейронных систем машинного перевода;
4) индуктивный метод обобщения результатов работы
и формулирования выводов.
Заключение:
Целью данной работы было
использование различных архитектур нейронных сетей и методов представления
данных для задачи машинного перевода, а затем сравнение их результатов, в т.ч.
с лингвистической точки зрения.
На первом этапе работы
были созданы три системы машинного перевода с русского на английский на основе
трех архитектур: модель Сузкевера, модель Чо и модели с механизмами внимания.
Качество алгоритмов оценивалось с использованием
общих параметров оценки машинного перевода BLEU. Судя по полученным данным,
между первыми моделями нет существенной разницы, а третья при совпадении
остальных дает худший перевод. Однако следует иметь в виду, что обучение и
тестирование проводились на довольно небольшом объеме данных, поэтому
результаты могут отличаться на другой выборке. Кроме того, низкая
производительность системы на основе TM с механизмами внимания объясняется
сложностью самой модели, которая требует больше времени и данных для обучения.
Отсутствие данных также может повлиять на производительность всех трех моделей.
По результатам
лингвистического анализа полученного перевода с английского на русский были
сделаны следующие выводы:
1. Ошибки перевода
обнаруживаются на лексическом и синтаксическом уровнях языка.
2. Ошибки перевода могут
быть связаны с парадигматическими и синтагматическими связями между словами.
3. Можно выделить
следующие общие классы ошибок: пропуск слова; добавить дополнительное слово;
замена слова или фразы; изменение морфологической формы слова; изменить порядок
слов.
Фрагмент текста работы:
Глава
1. ТЕОРЕТИЧЕСКИЕ АСПЕКТЫ ИЗУЧЕНИЯ НЕЙРОПЕРЕВОДА И МАШИННОГО ПЕРЕВОДА
1.1 Концепция, история, этапы и предпосылки появления
машинного перевода
За последние десятилетия
компьютер, подключенный к Интернету, стал для переводчика самым важным
инструментом. Ведь благодаря ему предоставляется доступ к огромному объему
информации, а также к электронным словарям и переводчикам. Машинный перевод
сегодня стал обычным явлением.
Термин
«машинный перевод» (МП) относится к процессу перевода одного естественного
языка на другой с использованием специального программного обеспечения для этой
цели. В этом случае программу можно установить прямо на компьютер (илимобильное устройство)
или быть доступным только тогда, когда вы подключены к Интернету.
50-е годы 20-го века считаются отправной точкой в
истории машинного перевода, хотя есть свидетельства более ранних разработок.
Эксперимент в Джорджтауне 1954 года включал перевод 60 предложений с русского
на английский.
Этот опыт имел большой успех и ознаменовал собой эпоху
значительных инвестиций в исследования машинного перевода. Разработчики
утверждали, что через 3-5 лет проблема с машинным переводом будет решена. [Но]
Однако фактический прогресс был медленнее, чем ожидалось, и
финансирование проектов резко упало после отчета ALPAC 1966 года, в котором
признавалось, что десятилетия исследований не оправдали ожиданий. С конца
1980-х годов, когда вычислительные мощности росли и дешевели, возрос интерес к
статистическим моделям машинного перевода.
На сегодняшний день еще не существует системы,
способной обеспечить желанный «Полностью автоматический перевод текста