260 likes | 496 Views
Topic Structure Identification of PClause Sequence Based on Generalized Topic Theory. Yuru Jiang , Rou Song Beijing University of Technology. Punctuation Clause. Example :斑鳐. 斑鳐 是 鳐形目 鳐科 鳐属 的 1 种 。吻 中长 ,尖 突 。尾 细长 ,. c 1 : 斑鳐 是 鳐形目 鳐科 鳐属 的 1 种 。 c 2 : 吻 中长 , c 3 : 尖 突 。
E N D
Topic Structure Identification of PClauseSequence Based on Generalized Topic Theory Yuru Jiang , Rou Song Beijing University of Technology
Punctuation Clause Example:斑鳐 斑鳐 是 鳐形目 鳐科 鳐属 的 1 种 。吻 中长 ,尖 突 。尾 细长 , c1: 斑鳐 是 鳐形目 鳐科 鳐属 的 1 种 。 c2: 吻 中长 , c3: 尖 突 。 c4: 尾 细长 , PClause Sequence
Topic Clause c1: 斑鳐 是 鳐形目 鳐科 鳐属 的 1 种 。 c2: 吻 中长 , c3: 尖 突 。 c4: 尾 细长 , t1:斑鳐 是 鳐形目 鳐科 鳐属 的 1 种 。 t2:斑鳐 吻 中长 , t3:斑鳐 吻尖 突 。 t4:斑鳐尾 细长 , What we have done
Identification Scheme • Identification Process • Identification Algorithm • CTCs Scoring Function
Identification Process Example2:斑鳐(选自《中国大百科全书》) c1: 斑鳐 是 鳐形目 鳐科 鳐属 的 1 种 。 c2: 吻 中长 , c3: 尖 突 。 c4: 尾 细长 , t1= c1 t2=?
if: t1: 斑鳐 是 鳐形目 鳐科 鳐属 的 1 种 。 c2: 吻 中长 , then: t2=? 吻 中长 , 斑鳐 吻 中长 , 斑鳐 是 吻 中长 , 斑鳐 是 鳐形目 吻 中长 , 斑鳐 是 鳐形目 鳐科 的 吻 中长 , 斑鳐 是 鳐形目 鳐科 鳐属 吻 中长 , 斑鳐 是 鳐形目 鳐科 鳐属 的 吻 中长 , 斑鳐 是 鳐形目 鳐科 鳐属 的 1 吻 中长 , 斑鳐 是 鳐形目 鳐科 鳐属 的 1 种 吻 中长 , c2的CTCs
t1 CTCs of c2 Topic Clause of C3 C3
if: CTCs of c2: c3: 尖 突 , then: t3=? 吻 中长 , 斑鳐 吻 中长 , 斑鳐 是 吻 中长 , 斑鳐 是 鳐形目 吻 中长 , 斑鳐 是 鳐形目 鳐科 的 吻 中长 , 斑鳐 是 鳐形目 鳐科 鳐属 吻 中长 , 斑鳐 是 鳐形目 鳐科 鳐属 的 吻 中长 , 斑鳐 是 鳐形目 鳐科 鳐属 的 1 吻 中长 , 斑鳐 是 鳐形目 鳐科 鳐属 的 1 种 吻 中长 , CTCs of c2
if: one CTC of c2:斑鳐 是 鳐形目 吻 中长 , c3: 尖 突 , then: one group CTCs of c3 is: 尖 突 , 斑鳐 尖 突 , 斑鳐 是尖 突 , 斑鳐 是 鳐形目尖 突 , 斑鳐 是 鳐形目 吻尖 突 , 斑鳐 是 鳐形目 吻 中长尖 突 ,
t1 c2的CTCs c3的CTCs
CTC Tree How to choose the best path?
Identification Algorithm • Question1:How to calculate the value of each node in the CTC tree? • CTCs Scoring Function • Question2: How to calculate the path value of each leaf node to the root node? • Sum of the node value
CTCs Scoring Function • Given a CTC d of PClause c, a topic clause most similar to d is found from the corpus, whose similarity is marked as sim_CT(d). For any two strings x and y, given that their similarity is sim(x,y). sim_CT(d) is defined as Topic Clause Corpus
CTCs Scoring Function cont. • CTset(c) is the CTCs set of c, then the topic clause of c is: • Accuracyrate is 0.6499 • Reference:Yuru Jiang, Rou Song: Topic Clause Identification Based On Generalized Topic Theory. Journal of Chinese Information Processing. 26(5), (2012)
CTCs Scoring Function cont. • Accuracyrate is 0.7625 • >0.6499>baseline
Example3: d_tcpre:A一般 均 具H 或H C, d_c:用以 引诱食饵 。 t1:A 一般 均 具 H用以 引诱 食饵 。 st1:A C 一般 具 H , t2:A一般 均 具H 或H C用以 引诱食饵 。 t_tcpre: A 有些 B C 具 C , t_c: 以 引诱 食饵 , t: A 有些 B C 具 C 以 引诱 食饵 ,
Experiment • Corpus • Evaluation Criteria • Experiment Result • Analysis
Corpus • 202 texts about fish in the Biology volume of China Encyclopedia • 15 texts are used for test in the experiment • K-1 test are used
Evaluation Criteria • For N PClauses, if the number of PClauses whose topic clauses are correctly identified is hitN, then the identification accuracy rate is hitN/N.
Experiment Result • Fig. 2. PClause Count and Accuracy Rate for Topic Clause Identification about 15 texts
Analysis:The relation between accuracy rate and the PClause position
Analysis:The relation between the accuracy rate and the PClause depth
Future Work • CTCs Scoring Function • CTC Tree • Extend to other text
Thank you! Any suggestion?