Parsing techniques 笔记(章二)

2.1 将一门语言看作一个无限大的集合

language是sentences的集合,sentence是tokens组成的序列。

sentences的语义由sentences的结构和token决定。

语法:

静态的规则可能描述不了某些语言,故将其作为语法可能会无能为力。

一系列确定的有限的description也不能完备描述所有语言。

证明:(对角线证明)

可以有序地枚举所有description(无穷多)。可以有序地枚举由一个字母表产生的所有word(无穷多),令该枚举列表为EnumList。则任何语言,其所用的所有word都在EnumList里面。对于某个在EnumList中的word,一个language可以有,也可以没有。因此在不考虑语言的structure,仅考虑language所用的word,对于所有语言,都可以用一个无穷长的二进制向量表示,该向量的某一位的值表示,对于该位对应EnumList中的单词,该语言是否包含。

构造这样的表,它仅有两列,第一列是所有的description,第二列是每个description对应的language(有些description对应多个language,这样,仅仅选择一个language作为其对应项)。列表形如下:

Description ? ? ? ? ? Language

Description #1 ? ? ?000000100· · ·

Description #2 ? ? ?110010001· · ·

Description #3 ? ? ?011011010· · ·

Description #4 ? ? ? 110011010· · ·

Description #5 ? ? ? 100000011· · ·

Description #6 ? ? ? ?111011011· · ·

. . . ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? . . .

构造这样的language,它具有这样的特性:该language对应二进制向量的第n位的值与第n个description对应的language的二进制向量的第n位的值相反。这样,该language的二进制值就是language列组成的表中的对角线值再对每位取反。

这样的话该language必不在language列组成的表中,因为它不可能是第一行,因为它第一位跟第一行不一样,更一般地,它不可能是第i行,因为它第i位与第i行不一样。所以它不可能存在于这个表中任何一行。因此,这个language不可能有与之对应的description(这个description由有限由有限条规则组成)。

这里有个问题,为什么所构造的那个language用到的描述“该language对应二进制向量的第n位的值与第n个description对应的language的二进制向量的第n位的值相反”不在Description列里面??!

我没有深究,似乎是由悖论引起的,豆瓣上的评论有提到,另外可以看看罗素悖论。

2.2 形式语法

若如下看待语言:由object组成。先有基本的object,然后有一套规则来在基本的object上构造新的object。

则语言有一个四元组组成:(非终止object集合,终止object集合,规则,开始object)

非终止object集合 和 终止object集合 都是有限的symbol集合,且两集合无交集。

规则是形如 X -> Y 的转换规则,X和Y都必须是一串symbol,X不可为空串,Y可以(书中集合右上角星号是克莱尼星号

开始object必须是一个非终止object。

利用上述方法生成一个sentence的过程可以用一个无环有向图表示。

第十六页的:Amazingly, we have succeeded in implementing the notion “must replace” in a system that only uses “may replace”; looking more closely, we see that we have split “must replace” into “may replace” and “must not be a non-terminal”

还没找到比phrase structure grammar更sufficient的语法描述方法。

2.3 The Chomsky Hierarchy of Grammars and Languages

type 0 grammar 是无任何限制的phrase structure grammars

type 1 grammar(上下文有关文法):两种定义

(1)不存在这样的规则,左边的symbol数量比右边的symbol数量多

(2)所有的规则都是上下文有关,规则上下文有关就是sentence中只有一个非终结词经过规则变换后得到替代,且替代结果至少有一个symbol。

它的某个sentence的生成图是有向无环图

type 2 grammar(上下文无关文法):规则左边只有一个symbol。

它的某个sentence的生成图是树。

二型文法中,某个symbol可以独立作为一门language,因为其它symbol对它的映射结果不影响。

type 3 grammar:左线性,右线性

type 4 grammar:规则右边只能是终止的symbol

2.4 使用上述grammar生成sentences的算法

一个广度优先搜索算法

该算法可以用来证明某个grammar可以生成至少一个sentence,但不能证明不能。

并阐述了一个检查2型文法是否生成至少一个sentence的算法

2.5 只有0型文法会生成空串

如果一个文法能生成空串,那么parsing会变得复杂

2.9 去除文法中无用的规则

type 2 grammar相较于0型和1型,容易找出文法中无用的规则。

type 2 grammar无用的规则包括如下问题:

(1)包含未定义的非终结符号 undefined non-terminals

(2)从开始symbol,不可能产生符合规则左边的符号序列 unreachable non-terminals

(3)不能产生任何东西(无限递归)non-productive

一个闭包算法首先清除non-productive 和 undefined non-terminals的规则

另一个闭包算法清除unreachable non-terminals的规则

第二个闭包算法在清规则的时候不会让一个non-terminal(设为N)编程undefined,因为N是reachable的,因此它的所有定义(左边是N的规则)都不会在这个闭包算法中被清掉。同样的道理,第二个闭包算法也不会让N编程non-productive

如果两个闭包算法倒过来用,很可能会在第二次的时候生成unreachable non-terminals

2.11 语义与文法

某个sentence的语义与这个sentence的生成结构图(production tree)有关。

(1)attribute grammar(将语义作为attribute绑定到symbol上)

(2)transduction grammar(语义是sentence作为input string得到的output string的语义)

(3)Augmented Transition Networks(将actions绑定到生成结构图的结点上,语义就是遍历结点时触发的action)

2.12 各级文法的比较

More powerful grammars can define more complicated boundaries between correct and incorrect sentences. Some boundaries are so fine that they cannot be described by any grammar (that is, by any generative process).

最后编辑于
?著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,100评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,308评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,718评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,275评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,376评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,454评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,464评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,248评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,686评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,974评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,150评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,817评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,484评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,140评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,374评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,012评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,041评论 2 351

推荐阅读更多精彩内容

  • 抑郁症,大家并不陌生,但是却从来没有引起人们的关注,直到不久前著名影星乔任梁因抑郁症于上海去世,抑郁症又才重新引起...
    肆无忌惮地笑阅读 743评论 0 4
  • 把知识变成技术,这也是弓医生说过的话。学到技术,改变思维。
    freshriver阅读 57评论 0 0
  • 一场收拾,重现了多年前的旧物,扔出去好多,撕掉好多,也有措不及防出现的。才明白,痛一直在,今天的种种,仍是不曾结束...
    摩卡冰阅读 187评论 0 0
  • 这快要第二次,离第一次有一年了吧!
    天差地别阅读 91评论 0 0
  • 杨绛先生在女儿与丈夫,相继去世后,说,她还要留下来打扫战场,我不是很明白,为什么要称之为战场。直到沈小姐去世时...
    寂寥如烟花阅读 205评论 0 2