Chapter 3 Modeling (การ สร้าง โมเดล)

Chapter 3 Modeling (การสร้างโมเดล)

บทนำ โมเดล หมายถึง รูปแบบในเชิงตรรกะ (Logical View)เพื่อจำลองสิ่งของในระบบหรือตัวระบบการปฏิบัติการทั้งหมดมีทั้งรูปภาพสัญลักษณ์ ลายเส้นหรือทั้งสัญญาลักษณ์ทางคณิตศาสตร์ ซึ่งโมเดลระบบการสืบค้นมีรูปแบบเฉพาะที่จำลอง เช่น ตัวเอกสาร คลังเอกสาร ข้อสารสนเทศที่ผู้ใช้องการหรือคำสอบถาม รวมทางการเทียบเคียง matching

โมเดล IR ทางคณิตศาสตร์ รูปแบบทางคณิตศาสตร์ของระบบ IR ได้แก่ 4อย่างดังนี้ D เป็นเซตของเอกสารที่แทนด้วยรูปแบบต่างๆ Q เป็นเซตของสารสนเทศที่ต้องการของผู้ใช้ F เป็นโครงสร้างของการจำลองตัวเอกสาร คำสอบถามและความสัมพันธ์ระหว่างกัน R(qi , dj) เป็นฟังก์ชั่นในการจัดอันดับ(ranking function)ของเอกสาร

ประเภทของโมเดล โมเดลของ IR แบ่งตามทฤษฏีทางคณิตศาสตร์ 1.Set Theory จะมีโมเดลของเอกสาร ประกอบด้วยเทอมต่างๆที่อยู่ภายในและมีดรรชนีของเทอม และเมื่อกำหนดคำสอบถามจะได้ผลลัพธ์ที่ออกมา match และ ไม่matchเท่านั้นจึงเป็นลักษณะของ Boolean Operations 2.Matrix Algebra โมเดลของเอกสารจะอยู่ในรูป term-Document Matrix มีการสร้างดรรชนี ในการสืบค้นค่าน้ำหนักจะขึ้นอยู่กับ ความถี่ของเทอมที่ปรากฏในเอกสารและอัตราส่วนระหว่างจำนวนเอกสารทั้งหมดกับเอกาสารที่เทอมนั้นปรากฏ 3.Probability Theory โมเดลนี้จะเป็นหาร matching ระหว่างความน่าจะเป็นที่เอกสารจะเกี่ยวพันธ์กับคำสอบถาม และความน่าจะเป็นที่เอกสารจะไม่เกี่ยวพันธ์กับคำสอบถามรายละเอียด ซับซ้อนจึงไม่เป็นที่นิยม

โมเดลการสืบค้น ซึ่งในโมเดลดังกล่าวได้พัฒนาจากโมเดลในส่วนแรก แต่ก็ยังอยู่ในขอบเขตหรืออ้างอิงโมเดลทางคณิตศาสตร์อยู่อันได้แก่ 1.Classic Boolean Model 1.1Extended Boolean Model 1.2Fuzzy Set Model 2.Vector Space Model 2.1Generalized Vector Space Model 2.2Topic-based Vector Space Model 2.3Latent Semantic Indexing Model 2.4Neural Network Model 3.Probabilistic Relevance Model 3.1Interface Network Model 3.2Belief Network Model

โมเดลการสืบค้น Classic Model 1.1Extended Boolean Model เป็นการพัฒนามาจาก ตัว Classic Boolean Model ที่ทีเพียงแยกว่าข้อมูล 0 กับ 1 มาให้สามารถจัดลำดับผลลัพธ์ตามความสำคัญก่อนหลัง มีค่ากลาง และมีการทำ normalization http://en.wikipedia.org/wiki/Extended_Boolean_model

โมเดลการสืบค้น Classic Model ดังนั้นแล้วจึงจะเห็นว่า ExtenedBoolean Model เป็นแบบดั้งเดิมคือ รวม Boolean Model และตัว Vector Space Model เข้าไปด้วยกันและมีการวัด p-norm ด้วยทำให้มีความยุ่งยากและมีขอบเขตการสืบค้นกว้าง

โมเดลการสืบค้น Classic Model Fuzzy Set Model (FSM) ในทฤษฎีของ Set ปกติ set มีขอบแหลม ( Sharp Edges ) คือ แต่ละตัวจะอยู่หรือไม่อยู่ใน Set ซึ่งในทฤษฎีของ Fuzzy Set แต่ละตัว ( สมาชิก ) จะมีระดับ สมาชิก ( Membership Grade ) ติดตัวอยู่ตามที่ Set กำหนดซึ่งค่านี้จะแสดงกำลังหรือระดับ ของความเชื่อในสมาชิกของ Set ค่าสมาชิกมักถูกกำหนดเป็นค่าในช่วง 0.0 ถึง 1.0

โมเดลแบบ Vector Space Model 2.1Generalized Vector Space Model 1985 โดยตั้งชื่อว่า Generalized Vector Space Model ซึ่งมีแนวความคิดว่าเทอมจะไม่ได้เป็นอิสระต่อกันแต่จะเกี่ยวพันธ์กันในลักษณ์ใดลักษณ์หนึ่งโดนสังเกตจากปรากฏการ่วมกันในเอกสารเมื่อเป็นเช่นนี้แทนที่จะมองเอกสารประกอบด้วยเทอมต่างๆเราจะมองภาพใหม่ที่มาจากเอกสารต่างๆ GVSM จะใช้ประโยชน์จากรูปแบบของปรากฏของเทอมมาทำการเปรียบเทียบความเหมือนหรือความแตกต่างของคำสอบถามกับชุดเอกสารในการสืบค้นข้อมูล และใช้หลักเดียวกับ VSM คือกาคำนวณหาค่าที่สอดคล้องของคำสอบถามกับเอกสารแต่ ในอันใหม่นี้มีวิธีการกำหนดเกณฑ์ขั้นต่ำของการวัดเพื่อขจัดเอกสารที่ไม่สอดคล้องออกไป

โมเดลแบบ Vector Space Model 2.2Topic-based Vector Space Model TVSM ถูกเสนอโดย Becker และ Kuropkaในแนวความคิดที่ TVSM ไม่ถือเอาเอมในเอกสารเป็นอิสระต่อกัน แต่ให้ความยืดหยุ่นในการกำหนดความเหมือนของเทอม(Term Similarty)และในแต่ล่ะแกนใน Vector Space ไม่ได้มาจากเทอมเหมือน VSM แต่ TVSM ให้แต่ละแกนใน Vector Space มาจากชื่อเรื่องพื้นฐานของ ตัวมันเอง

โมเดลแบบ Vector Space Model 2.3Latent Semantic Indexing Model จากการศึกษาโมเดลที่ผ่านมาพบว่ามีการใช้คำสำคัญในการค้นหา (keyword) ดังนั้นจะพบปัญหาอยู่หลักๆคือ มีเอกสารไม่ตรงประเด็นที่ต้องการค้นหาและมีเอกสารที่ตรงประเด็นแต่เอกสารนั้นไม่ได้อยู่ในดรรชนีจึงออกแบบโมเดลใหม่ๆเพื่อแก้ไขปัญหาดังกล่าว โดยมีหลักการคือเป็นการโยงเทอมหรือคำศัพท์ที่ปรากฏในเอกสาร มีการสร้าง Concept Model คั่นระหว่างกลางของเทอมและเอกสารรูปแบบจึงเป็นการโยงเทอมไปสู่เรื่อง(topic)และจากเรื่องไปสู่เอกสารซึ่งมีลักษณะที่เด่นคือมีมิติ มากกว่าโมเดลของเดิมดังนั้นดารคำนวณลดลงจากเทอมที่เป็นเวกเตอร์ด้วยมิติสูงๆเป็น topic ที่เป็นเวคเตอร์ด้วยมิติต่ำๆ ซึงมีการยืนยันหลักการดังกล่าวด้วยงานวิจัย ที่บ่งชี้ว่าได้ความเร็วในการค้นหาสูง

โมเดลแบบ Vector Space Model 2.4 Neural Network Model ในวิชาปัญญาประดิษฐ์ได้มีการพัฒนาโมเดลของสมองมนุษย์เพื่อจะให้คอมพิวเตอร์ทำงานคล้ายมนุษย์ไม่ว่าจะสั่งงาน การประมวลผล การรู้จำ โดยสร้างเป็นเครือข่ายที่ซับซ้อน เป็นการแทนเครือข่ายเซลล์สมองของมนุษย์ด้วยรูปแบบอย่างง่ายโดยNode ต่างๆในเครือข่ายแทนหน่วยประมวลผลต่างๆและ Edge ต่างเป็นเส้นประสาทแทนส่วนเชื่อมต่อระหว่างเซลล์สมอง และเพื่อเลียนแบบการทำงานของสองและเส้นประสาทจึงมีการกำหนดค่าน้ำหนักให้กับแต่ละ Edge ใน Neural Network โดยแต่ละสถานะของ Node จะถูกกำหนดด้วยการกระตุ้นซึ่งฟังก์ชั่นของสถานะเริ่มต้นและของสัญญาณที่ได้รับเข้ามา NodeA ไปกระตุ้น NodeB เป็นต้น

โมเดลแบบProbabilistic Relevance Model 3.1Interface Network Model ใช้หลักการของ Bayesian network เพื่อใช้ในการสร้างระบบสืบค้นตัวเครือข่ายอยู่ในรูป Directed Acyclic Graphs(DAG) ซึ่งประกอบด้วย Node และ Edgeต่างๆสำคัญคือทุก Edge จะมีลุกศรชี้โยงจาก Node หนึ่งไปสู่อีก Node หนึ่งและ Nodeต่างๆใช้ตัวแปรสุ่ม (Random Variables) ต่างๆการที่มีลูกศรชี้โยงใน Edge แสดงถึงความสัมพันธ์ที่ตัวแปรหนึ่งมีผลต่อตัวแปรหนึ่ง มีการนำกฎของ Bayes มาใช้มีการกำหนดค่าความน่าจะเป็นต่างๆทำให้สามารถสร้าง Inference Network ซึ่งครอบคลุมระบบสืบค้นสาระสนเทศรูปแบบต่างๆด้วยการจักอันดับก่อนหลัง (Ranking)ที่เกี่ยวพันธ์ได้อย่างเป็นสาระ มีการกระจายเอกสารแบบ Uniforms เพื่อให้น้ำหนักเท่ากันโดยไม่ลำเอียงน้ำหนักเอกสาร

โมเดลแบบProbabilistic Relevance Model 3.2 Belief Network Model คิดค้นโดย Ribeiro-Netoและ Muntz ด้วยต้องการใช้ทฤษฏีของbayes ที่เป็น Chain Rule ของ Conditional Probability ในการประยุกต์ชื่อโมเดล จึงมีชื่อเรียกเต็มว่า Bayesian Belief Network Model ในทางวิชาการจะต้องลายกับโมเดลก่อนหน้านี้ แต่ในทาง Topology นั้นมีความแตกต่างกันโดยเฉพาะ BNM นั้นจะแยกชัดเจนในส่วนของคำสอบถาม q และส่วนของเอกสารd ออกจากกันจึงมีผลแตกต่างกัน

โมเดลสำหรับ Browsing 1. Directory Model เป็นรูปแบบที่จัดเป็นหมวดหมู่อย่างเป็นระบบเป็นขั้นตอน โดยมีชื่อกำกับ ปะเภททั่วไปอยู่บนประเภทเจาะจงอยู่ล่าง เช่น วิชาฟิสิกส์ เคมี ชีวะวิทยา ก็จัดอยู่ในหมวดวิชาวิทยาศาสตร์

โมเดลสำหรับ Browsing

โมเดลสำหรับ Browsing 2. Hypertext Model เป็นรูปแบบที่มีโครงสร้างเป็น Directed Graph จากข้อความหนึ่งในเอกสารชี้ไปยังอีกข้อความหนึ่งอีกแหล่งหนึ่ง กล่าวคือจาก Node หนึ่งบน Graph ชี้ไปยังอีก Node หนึ่งโดยไม่จำเป็นต้องเป็นหมวดหมู่เดียวกันเมื่อเป็นเช่นนี้ Node หนึ่งบน Graph อาจจะชี้ไปยังหลายๆ Node อย่างมีทิศทางได้ และ Node ลูกหนึ่งก็ยังสามารถชี้ต่อยังหลายๆ Nodeลูกของลูกได้

Question/Answer Thank you

Chapter 3 Modeling (การ สร้าง โมเดล)

Chapter 3 Modeling (การ สร้าง โมเดล)

Presentation Transcript

Chapter 3 Data Modeling

Spatial Modeling with GIS

Chapter 2 Information Security Overview

Chapter 2, Modeling with UML

Chapter 3

Chapter 5 – System Modeling

Chapter 4: Use Case Modeling

Chapter 5 – System Modeling

Chapter 6: Normalization

Object Modeling (2)

Chapter 10

Chapter 8

Models and Modeling

Chapter 5: Introduction to Predictive Modeling: Neural Networks and Other Modeling Tools

Chapter 4

Chapter 2a: Structural Modeling

Chapter 4 Requirement Modeling

Chapter 4: Predictive Modeling

Chapter 5 – System Modeling

Chapter 10

Chapter 7

Chapter 3