13.04.2020 22:14

Методы сравнения теоретико-графовых моделей и их применение при анализе синтаксической структуры поэтических текстов

Методы сравнения теоретико-графовых моделей и их применение при анализе синтаксической структуры поэтических текстов

Использование математических моделей при анализе синтаксических структур имеет ряд преимуществ перед традиционными методами синтаксического анализа: оно позволяет хранить исследуемые структуры в базах данных, применять математические методы и алгоритмы, а также автоматизировать рутинную обработку данных, что может заметно сэкономить исследователю его время. Целями данной работы являются разработка комплекса моделей, алгоритмов и программ, реализующих эти возможности, а также их применение на примере анализа синтаксиса поэтических текстов.

Для отражения особенностей синтаксической структуры предложений была разработана теоретико-графовая модель - способ представления синтаксической структуры при помощи узлов и связывающих их дуг. Узлы упорядочены и соответствуют частям предложения; дуги соответствуют синтаксическим связям, имеют направление и тип и могут соединять как узлы, так и вложенные структуры; вложенные структуры также являются теоретико-графовыми моделями некоторых фрагментов предложения.

Теоретико-графовая модель позволяет применить новые статистические методы анализа текстов. Одним из методов является анализ по совокупности численных параметров структуры, таких как высота, ширина, глубина вложенности и асимметрия. Альтернативный метод - анализ по степени различия между структурами по методу редакционного расстояния, учитывающий все характеристики синтаксиса в совокупности.

Редакционное расстояние рассматривает степень различия между структурами как сложность преобразования одной структуры в другую при помощи простейших операций редактирования. Каждая такая операция имеет свою стоимость, и значение метрики складывается из стоимостей операций оптимального преобразования. Набор допустимых операций и их стоимостей обуславливается особенностями исследуемых структур данных и целями их сравнения, при этом для разных наборов операций обычно приходится разрабатывать разные алгоритмы вычисления метрики.

На основе вышеописанного метода были разработаны метрика, алгоритм ее вычисления и программа, реализующая этот алгоритм. Программное обеспечение позволяет создавать, редактировать и сохранять теоретико-графовые модели, вычислять редакционное расстояние.

Разработанное программное обеспечение было применено для анализа ряда поэтических текстов. Сюда входят оригинальные тексты и собственные переводы Иосифа Бродского, а также стихотворение Эдгара По «Ворон» и его переводы на русский за авторством поэтов Мережковского, Топорова, Андреевского, Бальмонта, Голохвастова и Голя. При анализе «Ворона» вместо отдельных предложений рассматривались расстояния между целыми строфами, так как в процессе перевода содержание отдельных предложений могло менять свое положение в пределах одной строфы.

Анализ на основе редакционного расстояния переводов и оригиналов поэтических текстов позволяет оценить различные переводы по степени соответствия синтаксису оригинала, выявить сложные и простые для перевода участки текста, найти особенности отдельных переводов. Редакционное расстояние в таких случаях помогает не только обнаружить, но и охарактеризовать ту или иную особенность перевода, опираясь на обоснованные и объективные расчеты, произведенные алгоритмом.

Разработанное в ходе исследования программное обеспечение планируется доработать, улучшив пользовательский интерфейс: это включает в себя более наглядную и интерпретируемую визуализацию синтаксических структур и более удобную работу с ними, чтобы сделать программное обеспечение удобным для сторонних исследователей.

Д. В. Кузнецов

Методы сравнения теоретико-графовых моделей и их применение при анализе синтаксической структуры поэтических текстов

Опубликовано 13.04.2020 22:14 | Просмотров: 629 | Блог » RSS