200 likes | 328 Views
Sansarn ( สรรสาร ) Smart-Q ( สมาร์ท - คิว ). วิรัช ศรเลิศล้ำวาณิช ผู้อำนวยการฝ่ายวิจัยและพัฒนาสาขาสารสนเทศ ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ. 31 ตุลาคม 2544 “ แถลงข่าวเปิดตัวที่ NECTEC ชั้น 21 ตึกมหานครยิปซั่ม ”. ความยากในการสืบค้นกรณีภาษาไทย. ครัว.
E N D
Sansarn (สรรสาร)Smart-Q (สมาร์ท-คิว) วิรัช ศรเลิศล้ำวาณิช ผู้อำนวยการฝ่ายวิจัยและพัฒนาสาขาสารสนเทศ ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ 31 ตุลาคม 2544“แถลงข่าวเปิดตัวที่ NECTEC ชั้น 21 ตึกมหานครยิปซั่ม”
ความยากในการสืบค้นกรณีภาษาไทยความยากในการสืบค้นกรณีภาษาไทย ครัว ...การสมรสหมู่โดยสหพันธ์ครอบครัวเพื่อความสามัคคี... ...เปลี่ยนเป็นห้องน้ำ...ห้องครัว...ห้องรับแขก... ประชา ...กองประชาสัมพันธ์การสื่อสารแห่งประเทศไทย... ...นายแพทย์ประชา เป็นประธานคณะกรรมการ... ธาตุ ...ประวัติวัดมหาธาตุวรวิหาร... ...โปรแกรมช่วยสอนเคมีเบื้องต้น และตารางธาตุ...
47 19 44 10, 32 1 16 29 38 “Inverted index is generated to index words in files.” Inverted Index คำ ตำแหน่ง file generate in index invert is to word
Search Engine สำหรับภาษาอังกฤษ Google Fast search Yahoo! AltaVista HotBot Excite Lycos . . .
Stemming/ Normalization work:- work, working, works, worked go:- go, going, goes, went, gone Windows:- WINDOWS, Windows Scoring สำหรับการจัดลำดับบทความ ความสำคัญของคำในบทความ เช่น คำที่ปรากฏใน Title, คำสำคัญ (key word), ความถี่ของคำในไฟล์ เป็นต้น ความนิยมของบทความ เช่น จำนวน click ที่เข้าแวะชม, จำนวน link จาก คำที่ใช้สืบค้น เป็นต้น สร้าง Inverted Index File โดยอาศัยโปรแกรม Database การสร้าง Index สำหรับภาษาอังกฤษ
Search Engine สำหรับภาษาที่ไม่เว้นวรรคระหว่างคำ (ญี่ปุ่น, จีน, เกาหลี, ไทย, ...) goo msn Namazu Yahoo Japan ใช้ตัวตัดคำของ SuperMorpho-J ความเร็ว 300 MB/hr. ถูกต้อง 98%
Word Segmentation Stemming/ Normalization work:- work, working, works, worked go:- go, going, goes, went, gone Windows:- WINDOWS, Windows Scoring สำหรับการจัดลำดับบทความ ความสำคัญของคำในบทความ เช่น คำที่ปรากฏใน Title, คำสำคัญ (key word), ความถี่ของคำในไฟล์ เป็นต้น ความนิยมของบทความ เช่น จำนวน click ที่เข้าแวะชม, จำนวน link จาก คำที่ใช้สืบค้น เป็นต้น สร้าง Inverted Index File โดยอาศัยโปรแกรม Database การสร้าง Index สำหรับภาษาที่ไม่เว้นวรรคระหว่างคำ
การสร้าง Inverted Index สำหรับภาษาไทย(แบบเก่า) | ประวัติ | วัด | มหาธาตุวรวิหาร | และ | วัด | อารามหลวง | ตำแหน่ง ประวัติ 1 มหาธาตุวรวิหาร 11 และ 25 วัด 8, 28 อารามหลวง 31
| ประวัติ | วัด | มหาธาตุวรวิหาร | และ | วัด | อารามหลวง | 1 1 | ประวัติ | วัด | มหาธาตุ | วรวิหาร | และ | วัด | อาราม | หลวง | 2 2 มหาธาตุ หาไม่เจอ ? Partial matching method มหาธาตุวรวิหาร หาไม่เจอ ? Word segmentation + Concatenation (AND) มหาธาตุ AND วรวิหาร • ตัดคำให้ย่อยที่สุด • เพิ่ม Index โดยอาศัยวิธีการ SIString (Semi-infinite string) Precision สถิติคลาดเคลื่อน จัดลำดับไม่ได้ Recall ความครอบคลุม หาไม่พบ Speed กรณีสืบค้นวลี, ประโยค ช้า การสืบค้น (แบบเก่า)
ความหลากหลายของคำที่อยู่ข้างเคียงความหลากหลายของคำที่อยู่ข้างเคียง “ครัว” “ครอบ” ความบ่อยของการอยู่เคียงข้างกันของอักขระ “ครอบครัว” Rank * เปรียบเทียบความน่าจะเป็นของอันดับคำ * Weight ตามค่าความสำคัญของคำ (key word, title, ...) และ ความถี่ (term frequency) ค่าความน่าจะเป็นของคำ ครอบ ใน ที่ ห้อง ทำ ครัว . . . ค + รอบ ครอบ + ครัว
การสืบค้น สะดวก / รวดเร็ว / แม่นยำ Full Text Search ค้นหาทั่วไปเหมาะสำหรับทั้งที่เป็น คำ, วลี, ประโยค ค้นหาตามหัวข้อ เช่น ชื่อผู้แต่ง, ชื่อโครงการ เป็นต้น Field Search Soundex Search ค้นหาคำที่มีเสียงคล้าย เช่น ประเสิด => ประเสริฐ, บรรได => บันได ทั้งหมดสนับสนุนการสืบค้นที่มีเงื่อนไข AND, OR, NOT ในกรณีที่ระบุคำค้นมากกว่าหนึ่งคำ
การป้อนอักขระไทยบนโทรศัพท์มือถือการป้อนอักขระไทยบนโทรศัพท์มือถือ • พยัญชนะ 46 ตัวอักษร • สระ, วรรณยุกต์ และสัญลักษณ์ 28 ตัวอักษร • 6-7 ตัวอักษร/คีย์ “ท” อยู่ปุ่มไหน?
แป้นพิมพ์สำหรับ Smart-Q • มาตรฐานที่มีใช้อยู่ทั่วไป