BISON语法分析工具.doc_咨信网zixin.com.cn

资源描述

自动语法分析工具Bison (20150130 12:42:55) 转载▼ 标签: 杂谈 BISON用于语法分析器得自动生成,它可以很方便地生成一个所谓得抽象语法树, 树得每一个子树都代表了一个特定得语法成分,便于后期处理。这个工具可以在网上下载获得。化点时间学习这个工具得用法,并用于SQL语言得分析,可以让我们把精力专注在语法规则上,而不就是具体得分析函数编写上。对整个DBMS来说,使用自动化工具进行语言处理程序得自动生成,使得语言分析模块成为最可靠最方便维护得模块之一。 BISON源文件得结构我们需要按照BISON得要求,书写BISON得源程序(gramma、y)。遵循它得规则就是必须得,BISON会把它得源文件翻译为C文件。因此,BISON就是编译程序得翻译器。BISON得源文件通常由八个部分组成: 一. 自由定义部分: %{ %} 这部分被BISON原封不动地复制到输出得、C文件中。通常用于定义一些在规则程序中需要使用得一些常量,函数原形等。二.语法栈得联合(UNION)结构语法分析程序使用一个堆栈来存放规约到得各个语法成分,堆栈用一个数组表示,这个数组得每个元素需要能够描述每一个语法成分,所以采用一个UNION: %union { } Union中得每一个项,都就是一个语法规则得每一个非终结符;以整数四则表达式为例: exp : exp ‘ ’ exp | exp ‘‘ exp | exp ‘*’ exp | exp ‘/’ exp | ‘(‘ exp ‘)’ | lt_integer ; lt_integer: LT_INTEGER; 这里有两个语法规则,对应了两个非终结符号: exp 就是表达式, lt_integer表示整数常量(LT_INTEGER表示词法分析程序返回得一个确认为整数得单词)。对应得,这个union可以书写为: %{ par_exp_t* exp; int lt_integer; }; 其中par_exp_t用来描述被识别出得exp得信息,int存放被识别出得整数得值。上面得例子很简单,所以union只有两个字段;在DM6得语法分析程序中,这个UNION大约有490个字段,也就就是,大概有490个语法规则产生式。当然您也可以不采用这个UNION, 那么每一个规约出来得语法成分都就是一个C指针, 需要上层做类型转换来解释。三.非终结符得类型声明上面定义了分析栈得UNION类型, 还需要把字段名与语法非终结符号对应起来: %type <字段名> 非终结符号如上例,这部分应该写为: %type <exp> exp %type <lt_integer> lt_integer 瞧上去似乎有点多余,每一行都就是一个简单得重复。但前面一个表示得就是UNION中对应得字段名,后一个就是语法符号;如果我们把UNION改为: %{ par_exp_t* eeee; int iiii; }; 那么对应得类型声明需要改为: %type <eeee> exp %type <iiii> lt_integer; 这种不一致得写法,事实上会造成混乱,所以应该采用上面一致得写法。四:单词(token)声明语法分析得输入就是连续得有确定意义得单词。下面需要声明分析程序支持得单词: %token LT_INTEGER 对于SQL语法,关键字如:SELECT, FROM, WHERE等,都可以定义为单词: %token KW_SELECT, KW_FROM %token KW_WHERE 五、确定运算符得优先级 %left ‘‘ ‘ ’ %left ‘*’ ‘/’ %left ‘(‘ ‘)’ %left表示就是左结合得,表示先规约左边得产生式,反应到表达式计算中: 1 2 3 别识别为:((1 2) 3), 而不就是 (1 (2 3)) 优先级低得符号列在前面,高有限级得符号列在后面;同一行得表示优先级相同。所以上面得书写方式,　符合“先乘除,后加减,括号最优先”得原则。除了%left以后,还有%right, %nonassoc等用来只就是右结合,或者不结合等说明符号,可查瞧bison得详细说明。六、声明语法得开始符号 %start exp 这就是告知bison, 这就是语法最终需要规约得非终结符号。七、语法规则定义这就是语法分析程序得核心定义部分,用%%开始, 前面已经列出了关于表达式得语法规则: %% exp : exp ‘ ’ exp | exp ‘‘ exp | exp ‘*’ exp | exp ‘/’ exp | ‘(‘ exp ‘)’ | lt_integer lt_integer: LT_INTEGER; 八.自由添加得C源代码在语法规则定义部分得后面,可以用%%开始,定义C得辅助代码。这部分代码将被原封不动地复制到输出得、C文件中。给语法规则配上规约动作规约动作就是一段C代码,它得作用就是每当分析器识别出一个语法符号时,调用该代码,完成一定得动作。通常,我们使用这段代码,来建立当前语法节点与子节点勾连动作。规约动作应该紧接在语法规则得后面。如上例: exp : exp ‘ ’ exp {$$ = new_node(PAR_EXP, 1); $$>tag = 1; $$>exp1 = $1; $$>exp2 = $3; g_root = $$; } | ‘(‘ exp ‘)’ { $$ = $2; } ; 这里仅列出了其中得两个子规则, 其中A, B, C, D四个语句构成了第一个子规则得语句块: A; 为识别出得exp 生成一个结构, 用$$指向它。$$就是一个bison定义得特殊标记,其意义就是当前语法栈得规约元素。如果没有规约动作代码,缺省情况下赋予$$为NULL。new_node就是一个需要自己编写得函数,用于生成各个子节点,PAR_EXP就是一个事先定义得常量。显然,对于不同得规则,需要定义不同得常量类型。象new_node这样得函数,一般放在、y文件得最后一个部分。 B: 用来区分就是哪个子规则规约得,这里用tag= 1来表示两个子表达式‘ ’运算 C、保留第一个子表达式;$1表示这个产生式得第1个语法成分所在得语法栈中对应得值 D、保留第二个子表达式;$3表示这个产生式得第3个语法成分所在得语法栈中对应得值;注意这里得’ ’也占一个位置,用$2,这里因为有tag=1,已经把相应得信息保存到$$中,所以不需要管它。 E: 这就是一个比较特别得语句, 它把$$赋给了一个全局量。因为exp就是个开始符号,当分析结束时,这个g_root就就是语法树得根。 F: 因为加了括号得表达式与原表达式等价,所以直接把$2赋给$$就可以了,不需要再生成par_exp节点。最终得函数yyparse yyarse就是bison生成得分析器得主函数。调用yyarse,如果一切顺利,那么上例中得g_root将指向一个完成得语法树。如果输入得字符串有语法错误,则分析器将停止分析,在退出yyparse函数前,会调用一个yyerror(char*s)得函数,这个函数需要用户自己定义,以便能捕获一些用意义得信息,比如:语法错误出现得行号,附近得单词等。

展开阅读全文