Обобщенная грамматика непосредственных составляющих.
Обобщенная грамматика непосредственных составляющих (ОГНС) в настоящее
время широко используется в прикладной лингвистике. Если рассуждать
математически, ОГНС - это вариант контекстно-свободной грамматики
непосредственных составляющих. Исторически ОГНС развивалась из грамматики
Монтегю (Montague). Грамматикой непосредственных составляющих пренебрегали
в течение двух десятилетий. Затем оказалось, что все доводы против ее
описательной неадекватности для естественных языков оказались неверными или
основанными на ложных предпосылках. Данная грамматика очень хорошо
воспринимается прикладными лингвистами и программистами. В Обобщенной
грамматике НС контекстно-свободная грамматика НС выражается не в явном
виде, а посредством различных приемов, которые позволяют определить
лингвистически значимые обобщения и предлагают правила умножения, более
компактные, чем простое перечисление правил.
Теоретическое представление
ОГНС определяет синтаксические категории как набор синтаксических
признаков. Синтаксческий признак - это определение, состоящее из двух
символов, определяющих сам признак (например, падеж) и его значение
(родительный), либо это может быть синтаксическая категория (т.е. признаки
могут принимать категории в качестве их значений).Синтаксическая категория,
таким образом, является частично функцией перехода от признака к его
значению. Внутреннее составление категорий ограничивается возможными
комбинациями признаков (Булевы условия). синтаксические структуры - это
деревья непосредственных составляющих, которые организуются по
вышеупомянутому принципу. Построение дерева осуществляется по определенным
правилам: правила зависимости, правила линейного предшествования, принципы
иллюстрации признаков и правила определения основных признаков.
Правила зависимости позволяют одному слову зависеть от другого.
Например, S -> NP,VP. Правила зависимости либо перечислены, либо выводятся
из других метаправилами. Правила линейного предшествования определяют
порядок появления категорий. принципы иллюстрации признаков основаны на
дублировании признаков (т.е. согласование прилагательного и
существительного, глагола и существительного). правила определения основных
признаков работают тогда, когда категория может встретиться, только если в
предложении не встретилась отрицающая ее категория.
Применение в прикладных целях
Работа грамматики непосредственных составляющих покрывает такие категории, как систему вспомогательных глаголов английского языка, согласование, вопросы, относительные предложения, пассивные конструкции, сочетания с существительным и т.д. Эта грамматика была разработана не только для английского языка, но также для арабского, каталанского, китайского, голландского, французского, немецкого, греческого, хинди, ирландского, японского, корейского, латинского, польского, испанского, шведского и уэльсского.
Многие современные системы используют грамматику непосредственных составляющих. Самый большой коммерческий проект с использованием анализатора на основе грамматики НС принадлежит фирме Hewlett Packard и называется “HPSG”.
Дерево непосредственных составляющих
Деревья НС представляют структурное описание для предложений. В дальнейшем структурное описание предложения может использоваться в системах, анализирующих или синтезирующих естественный язык.
Пример дерева НС для предложения:
John wanted to publish the paper.
S
NP VP
VP
NPR V P V NP
DET N
John wanted to publish the paper
Соответствующая структура скобок:
[S[NP[NPRJohn]][VP[Vwanted][VP[Pto][Vpublish][NP[DETthe][Npaper]]]]]
Деревья НС и структуры со скобками являются теми структурами, которые порождаются анализатором систем, обрабатывающих естественный язык.
Грамматики непосредственных составляющих
Грамматики НС состоят из набора неконечных символов (например, такие
категории, как N, V, DET, P, NP, S и т.д.), набора конечных символов
(лексические единицы типа “Джон”, “купить”, “газета” и т.д.) и набор
правил, которые преобразуют неконечные символы в цепочку коненых и
неконечных символов. Если данные правила не зависят от контекста
неконечного символа, то такая грамматика называется контекстно-свободной; в
противном случае грамматика называется контекстно-зависимой.
Грамматика НС в Трансформационной грамматике. Грамматика НС играет очень большую роль в трансформационной грамматике. Основная идея ТГ заключается в том, что для структурного описания существует базовый компонент и, соответственно, базовые правила. Все остальные правила выводятся из базовых путем трансформационных правил. Деревья, порожденные трансформационными правилами, также являются деревьями непосредственных составляющих. Данное представление ТГ является сильно упрощенным, но для данной работы его вполне достаточно.
Возрождение грамматики НС и деревьев НС
Начиная примерно с 1975 года в грамматику НС были внесены некоторые
дополнения и обновления. Не выходя за рамки контекстно-свободной
грамматики, образовалась Обобщенная грамматика непосредственных
составляющих (ОГНС). Грамматика Сложения Деревьев (ГСД) - Tree-Adjoining
Grammar - образовалась на основе построения деревьев без использования
правил перехода. Рассмотрим эти две грамматики.
Обобщенная грамматика непосредственных составляющих (ОГНС). Кроме всех вышеупомянутых свойств грамматик НС Газдар (Gazdar) ввел в ОГНС два новых понятия: “пустые” категории (элипсис?) и связанные правила, а также метаправила для вывода одних правил из других. Элипсис и связанные правила не увеличивают порождающую способность за пределы контектсно-свободной грамматики. Метаправила, если они не ограничены какими-либо условиями, увеличивают порождающую способность за пределы контекстно-свободной грамматики, потому что метаправило может порождать бесконечный набор контекстно-свободных правил, которые в свою очередь порождают контекстно- зависимый язык. Метаправила в реальных грамматиках, описанных по правилам обобщенной грамматики НС, достаточно ограничены и поэтому не увеличивают порождающую способность.
Элипсис и связанные правила (нужны) представлены для базового порождения “несвязанных” зависимостей, которые должны быть учтены в предложении.
Пример связанного правила - это правило, которое представляет элипсис для топикализации, т.е. нахождения топика в предложении.
Понятие элипсиса не новое понятие. Его также упоминали Harris, Kuno и
Sager. В контекстно-свободной грамматике Kuno существуют имена узлов с
соответствующими описаниями, которые отражают пропущенную составляющую.
Sager создал очень полный анализатор. Его идеи переплетабтся с идеями
Газдара. Но Газдар был первый, кто внедрил понятие элипсиса и связанных
правил в формальную рамку синтаксической теории и использовал это понятие
систематически для объяснения структуры деревьев.
Грамматика Сложения Деревьев (ГСД). В обобщенную грамматику непосредственных составляющих были внесены некоторые изменения, а именно: эти изменения позволяют создавать структурные описания по принципу трансформационной грамматики, но без использования трансформационных правил. Грамматика Сложения Деревьев заимствовала у трансформационной грамматики технологию построения деревьев непосредственных составляющих по определенным правилам построения деревьев.
ГСД состоит из набора “начальных” деревьев и набора дополнительных деревьев, а также операции Сложения. Начальные и дополнительные деревья вместе называются базовыми деревьями.
Дерево А называется “начальным деревом”, если оно имеет форму:
S
A =
Конечные символы
Корневой узел отмечен символом S, пограничные узлы являются конечными символами. Внутренние узлы - неконечные символы.
Дерево В называется “дополнительным”, если оно имеет форму:
Х
В =
Х
Конечные Конечные
Операция Сложения состоит в том, что “начальное” дерево как бы накладывается на “дополнительное” дерево по корневому узлу.
ГСД более мощная, чем контекстно-свободная грамматика. Существуют языки, которые могут быть порождены ГСД, но не КСГ (например, контекстно- зависимые языки).
ГСД иллюстрирует, как деревья непосредственных составляющих могут быть
получены из базовых деревьев. В отличие от трансформационной грамматики это
достигается не с помощью трансформационных правил, а с помощью операции
Сложения. ГСД может порождать деревья с пересекающимися зависимостями.
Резюме
Деревья непосредственных составляющих обеспечивают возможность
структурного описания предложений. Деревья НС могут быть порождены
грамматиками НС. Деревья НС могут использоваться для характеристики
структурного описания предложений, включая те аспекты, которые обычно
характеризовались трансформационными грамматиками. Эти характеристики
предполагают внесение изменений в контекстно-свободную грамматику, не
увеличивая ее порождающую способность, или порождение предложений из азовых
деревьев с помощью операции Сложения, что все же несколько увеличивает
порождающую способность. Структурные описания, сделанные с помощью деревьев
НС, используются непосредственно или в неявном виде в системах, описывающих
естественный язык.