使用Bison

使用Bison 第3章

bison的用途 • flex可以识别正则表达式，生成词法分析器 • bison可以识别语法，生成语法分析器 • 词法分析将输入流分解为若干个记号 • 而语法分析则分析这些记号并基于逻辑进行组合

如何匹配输入 • bison可以基于给定语法来生成一个可以识别该语法中有效“语句“（如：C程序）的语法分析器 • 程序可能在语法上正确但是语义上有问题，如： • 把一个字符串赋值给整型变量 • bison只处理语法的正确性 • 语法分析器基于语法的规则来识别语法上正确地输入 • 表示语句分析的通常方法是语法树或抽象语法树

Bison的工作原理 • 语法分析器通过查找能够匹配当前记号的规则来运作，进行移进/归约分析 • 当bison处理语法分析器时，会创建一组状态，每个状态都反映出一个或者多个部分分析过的规则中可能的位置 • 当语法分析器读取记号时 • 若读到的记号无法结束一条规则时，将记号压入堆栈并切换到一个新状态，该状态能反映出刚读取的记号（移进） • 当发现压入的所有语法符号已经可以组成规则的右部时，将右部符号弹栈，然后把左部语法符号压栈，状态也做相应转换（归约） • 归约时会执行该规则相关联的用户代码

bison的分析方法 • 可使用两种分析方法 • LALR（1）分析（Look-Ahead，Left to Right, Rightmost derivation） • GLR分析（generalized left-to-right） • 大多数语法分析器采用LALR（1），它不如GLR强大但更快、更易于使用

LALR分析无法处理的语法 • 二义性文法 • 需向前查看多个记号才能确定是否匹配规则的语法，例： • phrase: cart_animal AND CART • | work_animal AND PLOW • cart_animal: HORSE | GOAT • work_animal: HORSE | OX • 无二义性 • 但对于输入HORSE AND CART这样的输入，在没有看到CART之前无法区别HORSE是一个cart_animal还是一个work_animal。 • 若将第一条规则改为： • phrase: cart_animal CART • | work_animal PLOW • 则只需向前查看一个记号，bison就能够处理

基于抽象语法树的改进的计算器——例3-1 • 文件清单如下： • fb3-1.h • fb3-1.y • fb3-1.l • fb3-1funcs.c

语法符号的值与类型 • bison中每个文法符号（包括终结符和非终结符）都可以有一个相应的值，默认类型是int • 实际应用中常需要更多有价值的符号值，可以用union来为符号声明联合类型 • 再为每种符号指定其使用的值类型，方法如下： • %token <联合类型的相应成员名> 记号列表 • %type <联合类型的相应成员名> 非终结符列表

语法符号的值与类型举例 • %union { • struct ast *a; • double d; • } • /* declare tokens */ • %token <d> NUMBER • %token EOL • %type <a> exp factor term

辅助函数（fb3-1funcs.c） • 构造语法树节点 • newast，newnum • 申请空间 • 对语法树节点的各个字段进行赋值 • 计算语法树的值 eval • 删除和释放语法树treefree • 报错yyerror • VA_LIST 是在C语言中解决变参问题的一组宏 • VA_START获取可变参数列表的第一个参数的地址（ap是类型为va_list的指针，v是可变参数最左边的参数）

编译基于抽象语法树的计算器——Makefile.ch3 • fb3-1: fb3-1.l fb3-1.y fb3-1.h fb3-1funcs.c • bison -d fb3-1.y • flex -ofb3-1.lex.c fb3-1.l • cc -o $@ fb3-1.tab.c fb3-1.lex.c fb3-1funcs.c

编译基于抽象语法树的计算器 • bison -d fb3-1.y • 将生成fb3-1.tab.c，fb3-1.tab.h • flex -ofb3-1.lex.c fb3-1.l • 将生成fb3-1.lex.c • 建立一个工程，加入相关文件 • fb3-1.tab.c，fb3-1.tab.h • fb3-1.lex.c，fb3-2funcs.c • 生成可执行文件 • 执行可执行文件

执行效果 输出结果全都错误

调试并分析原因 • 通过设置断点调试发现在执行"."?[0-9]+{EXP}? { yylval.d = atof(yytext); return NUMBER; } 后yylval.d的值错误 • 可能是atof没起作用 • 再加上编译时的报警信息 • 查阅资料在fb3-1.lex.c加上#include <stdlib.h> • 重新编译运行运行结果正确！

二义性的处理——优先级与结合性 • 表达式分析器引入了三个不同的语法符号exp、factor和term来设置操作符的优先级和结合性 • 但随着具有更多不同优先级的操作符被加入到算法中，整个算法将难于阅读和维护 • bison允许显式地指定优先级和结合性，例： • %left '+' '-' • %left '*' '/' • %nonassoc '|' UMINUS • %type <a> exp • 注： • %right 右结合 • 优先级相同的在同一行说明 • 声明在后面行的操作符比声明在前面行的优先级高

%% • ... • exp: exp '+' exp { $$ = newast('+', $1,$3); } • | exp '-' exp { $$ = newast('-', $1,$3);}| exp '*' exp { $$ = newast('*', $1,$3); } • | exp '/' exp { $$ = newast('/', $1,$3); } • | '|' exp { $$ = newast('|', $2, NULL); } • | '(' exp ')' { $$ = $2; } • | '-' exp %prec UMINUS{ $$ = newast('M', NULL, $2); } • | NUMBER { $$ = newnum($1); } • ;

什么时候不应该使用优先级规则 • 虽然可以使用优先级规则解决语法中出现的任何移进/归约冲突，但有时难于明白改动给语法带来的后果 • 只应在两种场合使用优先级规则： • 表达式语法 • if语句的悬挂else问题 • 只要有可能，应通过修正语法来解决冲突 • 冲突说明文法有二义性 • 除了前面两种场合，它表明语言定义有问题

一个高级计算器 • 扩展了前例 • 添加了命名变量和赋值 • 比较表达式 • if/then/else和do/while控制流程 • 内置和用户自定义的函数 • 一点错误恢复机制 • 充分利用抽象语法树实现流程控制和用户自定义函数 • 文件清单如下： • fb3-2.h • fb3-2.y • fb3-2.l • fb3-2funcs.c

高级计算器声明部分fb3-2.h • /* 符号表 */ • struct symbol { /* a variable name */ • char *name; • double value; • struct ast *func; /* stmt for the function 函数体指针*/ • struct symlist *syms; /* list of dummy args 虚拟参数列表*/ • };

高级计算器声明部分fb3-2.h • /* simple symtab of fixed size */ • #define NHASH 9997 • struct symbol symtab[NHASH]; • struct symbol *lookup(char*);/*在符号表中查找一个符号*/ • /* list of symbols, for an argument list */ • struct symlist { • struct symbol *sym; • struct symlist *next; • }; • struct symlist *newsymlist(struct symbol *sym, struct symlist *next);/*把一个符号插入符号表中*/ • void symlistfree(struct symlist *sl);/*释放符号表*/

/* node types • * + - * / | • * 0-7 comparison ops, bit coded 04 equal, 02 less, 01 greater • * M unary minus • * L statement list • * I IF statement • * W WHILE statement • * N symbol ref • * = assignment • * S list of symbols • * F built in function call • * C user function call • */

enum bifs { /* built-in functions */ • B_sqrt = 1, • B_exp, • B_log, • B_print • };

/* nodes in the Abstract Syntax Tree */ • /* all have common initial nodetype */ • struct ast { /*用于+，-，*，|和语句序列*/ • int nodetype; • struct ast *l; • struct ast *r; • }; • struct fncall { /* built-in function */ • int nodetype; /* type F */ • struct ast *l;/* list of arguments */ • enum bifs functype; • };

struct ufncall { /* user function */ • int nodetype; /* type C */ • struct ast *l; /* list of arguments */ • struct symbol *s; /*指向自定义函数符号表入口的指针*/ • }; • struct flow { • int nodetype; /* type I or W */ • struct ast *cond; /* condition */ • struct ast *tl; /* then or do list */ • struct ast *el; /* optional else list */ • };

struct numval { • int nodetype; /* type K */ • double number; • }; • struct symref { • int nodetype; /* type N */ • struct symbol *s; • }; • struct symasgn { • int nodetype; /* type = */ • struct symbol *s; • struct ast *v; /* value */ • };

/* build an AST */ • struct ast *newast(int nodetype, struct ast *l, struct ast *r); • struct ast *newcmp(int cmptype, struct ast *l, struct ast *r); • struct ast *newfunc(int functype, struct ast *l); • struct ast *newcall(struct symbol *s, struct ast *l); • struct ast *newref(struct symbol *s); • struct ast *newasgn(struct symbol *s, struct ast *v); • struct ast *newnum(double d); • struct ast *newflow(int nodetype, struct ast *cond, struct ast *tl, struct ast *tr);

/* define a function */ • void dodef(struct symbol *name, struct symlist *syms, struct ast *stmts); • /* evaluate an AST */ • double eval(struct ast *); • /* delete and free an AST */ • void treefree(struct ast *); • /* interface to the lexer */ • extern int yylineno; /* from lexer */ • void yyerror(char *s, ...); • extern int debug; /*是否调试*/ • void dumpast(struct ast *a, int level);

关于值的约定 • 每个抽象语法树都有相应值 • 赋值表达式的值为右边表达式的值 • 对于if/then/else而言，其值为其所选择分支的值 • while/do的值则是do语句列表的最后一条语句的值 • 表达式列表的值由最后一个表达式确定 • fb3-2.y • fb3-2.l

简单的错误恢复 • 由于bison本身的工作原理，它不太值得花精力来尝试错误恢复 • 但至少可能在错误发生时把语法分析器恢复到可以继续工作的状态 • 方法如下： • 引入伪记号error确定错误恢复点 • 当bison语法分析器遇到一个错误时，它开始从语法分析器堆栈中放弃各种语法符号，直到到达一个记号error为有效的点 • 然后开始忽略后续输入记号，直到它找到一个在当前状态下可以被移进的记号，然后从这一点开始继续分析。 • 如果又发生分析错误，它将放弃更多堆栈中的语法符号和输入记号，直到它可以重新恢复分析，或者堆栈为空而分析失败

简单的错误恢复 • 为避免大段误导性的错误信息，语法分析器常在第一个错误产生后就抑制后续的分析错误信息，直到它能够成功地在一行里移进三个记号 • 宏yyerrorok告诉语法分析器恢复已经完成，这样后续的错误信息可以顺利产生 • 记号error几乎总是在顶层递归规则的标点符号处被用于进行同步

哈希函数 • /* hash a symbol */ • static unsigned • symhash(char *sym) • { • unsigned int hash = 0; • unsigned c; • while(c = *sym++) hash = hash*9 ^ c; • return hash; • } 问题：可能会溢出 c=75 9^75≈3.6e+71>2^32

struct symbol * • lookup(char* sym) • { • struct symbol *sp = &symtab[symhash(sym)%NHASH]; • int scount = NHASH; /* how many have we looked at */ • while(--scount >= 0) { • if(sp->name && !strcmp(sp->name, sym)) { return sp; } • if(!sp->name) { /* new entry */ • sp->name = strdup(sym); • sp->value = 0; • sp->func = NULL; • sp->syms = NULL; • return sp; • } • if(++sp >= symtab+NHASH) sp = symtab; /* try the next entry */ • } • yyerror("symbol table overflow\n"); • abort(); /* tried them all, table is full */ • } 线性探测法解决冲突

抽象语法树节点构造过程 • newast~newsymlist等过程，基本步骤如下： • 分配一个节点 • 然后基于节点类型恰当地填充各个域 • struct ast * • newast(int nodetype, struct ast *l, struct ast *r) • { • struct ast *a = malloc(sizeof(struct ast)); • if(!a) { • yyerror("out of space"); • exit(0); • } • a->nodetype = nodetype; • a->l = l; • a->r = r; • return a; • }

其他辅助函数 • 计算器核心例程eval • 深度优先遍历抽象语法树来计算表达式的值 • 释放符号列表symlistfree • 释放一棵抽象语法树treefree • 递归地遍历一棵抽象语法树，同时释放这棵树的所有节点 • 调用内置函数callbuiltin • 调用用户自定义函数calluser • 调试模式时输出抽象语法树信息dumpast

执行

使用Bison

使用Bison

Presentation Transcript

Parsing Tools

BISON PRODUCERS OF ALBERTA

Mon cartable

YACC Parser Generator

Chapter 1

Historic American Indians

Stone Age day

Endangered Species: Bison Bears and Wolves-the Science and the Policy

Cattle Ranching in the 1800s

Photo of American bison skulls from Wikipedia

Upper Paleolithic

Upper Paleolithic Art

编译原理实践 -- 语法分析程序的自动生成工具 YACC

The Henry Doorly Zoo Omaha, Nebraska

American Bison Restoration as a Model for the Propagation of African Wildlife Populations

Game

WILDLIFE QUIZ # 1

Is Genetic Integrity Important in the Ecological Restoration of Bison?

AMERICA’S PROGRESS (1872)

Naturfag

Schuljahr 2012-2013

Liv Valmestad Reference Librarian