1 / 26

Topic Structure Identification of PClause Sequence Based on Generalized Topic Theory

Topic Structure Identification of PClause Sequence Based on Generalized Topic Theory. Yuru Jiang , Rou Song Beijing University of Technology. Punctuation Clause. Example :斑鳐. 斑鳐 是 鳐形目 鳐科 鳐属 的 1 种 。吻 中长 ,尖 突 。尾 细长 ,. c 1 : 斑鳐 是 鳐形目 鳐科 鳐属 的 1 种 。 c 2 : 吻 中长 , c 3 : 尖 突 。

lark
Download Presentation

Topic Structure Identification of PClause Sequence Based on Generalized Topic Theory

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Topic Structure Identification of PClauseSequence Based on Generalized Topic Theory Yuru Jiang , Rou Song Beijing University of Technology

  2. Punctuation Clause Example:斑鳐 斑鳐 是 鳐形目 鳐科 鳐属 的 1 种 。吻 中长 ,尖 突 。尾 细长 , c1: 斑鳐 是 鳐形目 鳐科 鳐属 的 1 种 。 c2: 吻 中长 , c3: 尖 突 。 c4: 尾 细长 , PClause Sequence

  3. Topic Clause c1: 斑鳐 是 鳐形目 鳐科 鳐属 的 1 种 。 c2: 吻 中长 , c3: 尖 突 。 c4: 尾 细长 , t1:斑鳐 是 鳐形目 鳐科 鳐属 的 1 种 。 t2:斑鳐 吻 中长 , t3:斑鳐 吻尖 突 。 t4:斑鳐尾 细长 , What we have done

  4. Identification Scheme • Identification Process • Identification Algorithm • CTCs Scoring Function

  5. Identification Process Example2:斑鳐(选自《中国大百科全书》) c1: 斑鳐 是 鳐形目 鳐科 鳐属 的 1 种 。 c2: 吻 中长 , c3: 尖 突 。 c4: 尾 细长 , t1= c1 t2=?

  6. if: t1: 斑鳐 是 鳐形目 鳐科 鳐属 的 1 种 。 c2: 吻 中长 , then: t2=? 吻 中长 , 斑鳐 吻 中长 , 斑鳐 是 吻 中长 , 斑鳐 是 鳐形目 吻 中长 , 斑鳐 是 鳐形目 鳐科 的 吻 中长 , 斑鳐 是 鳐形目 鳐科 鳐属 吻 中长 , 斑鳐 是 鳐形目 鳐科 鳐属 的 吻 中长 , 斑鳐 是 鳐形目 鳐科 鳐属 的 1 吻 中长 , 斑鳐 是 鳐形目 鳐科 鳐属 的 1 种 吻 中长 , c2的CTCs

  7. t1 CTCs of c2 Topic Clause of C3 C3

  8. if: CTCs of c2: c3: 尖 突 , then: t3=? 吻 中长 , 斑鳐 吻 中长 , 斑鳐 是 吻 中长 , 斑鳐 是 鳐形目 吻 中长 , 斑鳐 是 鳐形目 鳐科 的 吻 中长 , 斑鳐 是 鳐形目 鳐科 鳐属 吻 中长 , 斑鳐 是 鳐形目 鳐科 鳐属 的 吻 中长 , 斑鳐 是 鳐形目 鳐科 鳐属 的 1 吻 中长 , 斑鳐 是 鳐形目 鳐科 鳐属 的 1 种 吻 中长 , CTCs of c2

  9. if: one CTC of c2:斑鳐 是 鳐形目 吻 中长 , c3: 尖 突 , then: one group CTCs of c3 is: 尖 突 , 斑鳐 尖 突 , 斑鳐 是尖 突 , 斑鳐 是 鳐形目尖 突 , 斑鳐 是 鳐形目 吻尖 突 , 斑鳐 是 鳐形目 吻 中长尖 突 ,

  10. t1 c2的CTCs c3的CTCs

  11. CTC Tree How to choose the best path?

  12. Identification Algorithm • Question1:How to calculate the value of each node in the CTC tree? • CTCs Scoring Function • Question2: How to calculate the path value of each leaf node to the root node? • Sum of the node value

  13. CTCs Scoring Function • Given a CTC d of PClause c, a topic clause most similar to d is found from the corpus, whose similarity is marked as sim_CT(d). For any two strings x and y, given that their similarity is sim(x,y). sim_CT(d) is defined as Topic Clause Corpus

  14. CTCs Scoring Function cont. • CTset(c) is the CTCs set of c, then the topic clause of c is: • Accuracyrate is 0.6499 • Reference:Yuru Jiang, Rou Song: Topic Clause Identification Based On Generalized Topic Theory. Journal of Chinese Information Processing. 26(5), (2012)

  15. CTCs Scoring Function cont. • Accuracyrate is 0.7625 • >0.6499>baseline

  16. Example3: d_tcpre:A一般 均 具H 或H C, d_c:用以 引诱食饵 。 t1:A 一般 均 具 H用以 引诱 食饵 。 st1:A C 一般 具 H , t2:A一般 均 具H 或H C用以 引诱食饵 。 t_tcpre: A 有些 B C 具 C , t_c: 以 引诱 食饵 , t: A 有些 B C 具 C 以 引诱 食饵 ,

  17. Experiment • Corpus • Evaluation Criteria • Experiment Result • Analysis

  18. Corpus • 202 texts about fish in the Biology volume of China Encyclopedia • 15 texts are used for test in the experiment • K-1 test are used

  19. Evaluation Criteria • For N PClauses, if the number of PClauses whose topic clauses are correctly identified is hitN, then the identification accuracy rate is hitN/N.

  20. Experiment Result • Fig. 2. PClause Count and Accuracy Rate for Topic Clause Identification about 15 texts

  21. Analysis:There may be nodes with the same CTC string

  22. Analysis:The relation between accuracy rate and the PClause position

  23. Analysis:The relation between the accuracy rate and the PClause depth

  24. Future Work • CTCs Scoring Function • CTC Tree • Extend to other text

  25. Thank you! Any suggestion?

More Related