210 likes | 418 Views
به نام خدا. مباحث علمي در پياده سازي موتور جستجوي قرآني وب. دانشگاه صنعتي شريف دانشکده مهندسي کامپيوتر سمينار کارشناسي ارشد. استاد راهنما : دکتر قدسي استاد مشاور: دکتر ابوالحسني ارائه دهنده : مجتبي محمدي نصيري 84206861. فهرست. تعريف پروژه جستجو در وب کارهاي مرتبط اجزاي موتور جستجو
E N D
به نام خدا مباحث علمي در پياده سازيموتور جستجوي قرآني وب دانشگاه صنعتي شريف دانشکده مهندسي کامپيوتر سمينار کارشناسي ارشد استاد راهنما : دکتر قدسي استاد مشاور: دکتر ابوالحسني ارائه دهنده : مجتبي محمدي نصيري 84206861
فهرست • تعريف پروژه • جستجو در وب • کارهاي مرتبط • اجزاي موتور جستجو • راهکارهاي پيشنهادي • نتيجهگيري • مراجع موتور جستجوی قرآنی وب - مجتبی محمدی نصیری
تعريف پروژه موتور جستجوي قرآني وب • سيستم بازيابي اطلاعات وب بر اساس کليد واژه • نتايج قرآني : مستنداتي که قسمتي از قرآن در آنها آمده است • پرس جوي قرآني : کليد واژهها عربي و از کلمات موجود در قرآن قرآني وب موتور جستجوي وب موتور جستجوي موتور جستجوی قرآنی وب - مجتبی محمدی نصیری
مشکلات اطلاعات وب و راه حلها • حجم بالاي اطلاعات • نياز به موتورهاي جستجو براي کاربر امروزي • نتايج متنوع و در زمينههاي مختلف • نياز به موتورهاي خاص منظوره و تخصّصي مثل شيمی و بيولوژی • اطلاعات غلط و غيرعلمي • ايجاد پايگاههاي تخصّصي وب و مرجع موتور جستجوی قرآنی وب - مجتبی محمدی نصیری
علوم اسلامي در وب • همان مشکلات گفته شده • راه حلهاي گفته شده هنوز انجام نشدهاند • کم بودن پايگاههاي تخصّصي قرآني در وب • وجود نداشتن پايگاه مرجع قوي در پژوهشهاي قرآني • کاربردهايِ ديگرِ پروژه • جستجو در متون اسلامي • جستجو در يک اينترانت بر روي مستندات معتبر موتور جستجوی قرآنی وب - مجتبی محمدی نصیری
کارهاي مرتبط • جستجوي عربي وب • http://www.google.com/intl/ar • جستجو در متن قرآن و کتابهاي اسلامي • http://www.searchquran.org • ارتباط بين قرآن و متون اسلامي (10/ 2006) موتور جستجوی قرآنی وب - مجتبی محمدی نصیری
URL Server Store Server Crawler Repository Anchors URL Revolver Indexer Lexicon Links Barrels Doc Index Sorter Page Rank Searcher ساختمان يک موتور جستجو Crawler خزشگر زير سيستمهاي موتور جستجو Indexer انديسگذار Searcher & Ranker جستجوگر و رتبهبند موتور جستجوی قرآنی وب - مجتبی محمدی نصیری
خزشگر(Crawler) • هدف • جمعآوري و ذخيره مستندات وب • چالشها • نياز به منابع شبکه زياد • تعيين اولويت پيمايش صفحات • آدرسهاي تکراري و پيموده شده • صفحات متقلب • همزماني دسترسي به منابع(در خزشگرهاي موازي) موتور جستجوی قرآنی وب - مجتبی محمدی نصیری
انديسگذار(Indexer) • هدف • ايجاد فهرستي از اطلاعات لازم مستندات براي جستجوي درست و سريع • مسائل • روش انديسگذاري : مستقيم يا معکوس • تعيين اطلاعات لازم يک مستند • نحوه نگهداري انديسها (ساختار دادهي مناسب) • تعيين کلمات بسيار متداول و يا اصطلاحاً کلمات توقف(stop words) • فشردهکردن انديسها • ريشهيابي کلمات (stemming) • بروزرساني يا افزايش : انديسگذاري دستهاي موتور جستجوی قرآنی وب - مجتبی محمدی نصیری
جستجو و رتبهبند (Searcher & Ranker) • هدف • ارائه نتايج جستجو، به ترتيب اهميت و ميزان ارتباط با پرسجو • اطلاعات رتبهبندي • اطلاعات مربوط به متن صفحه • اطلاعات مربوط به لينکهاي بين اين صفحه و صفحات ديگر • انواع رتبهبندي بر اساس لينکها • شبکههاي اجتماعي(Social Networks) • PageRank موتور جستجوی قرآنی وب - مجتبی محمدی نصیری
جستجو و رتبهبند (Searcher & Ranker) ادامه... • مسائل • جستجوي ترکيب منطقي از کلمات (و، يا، نفي، ...) • گسترش پرسجو • ريشهيابي کلمات پرسجو، • اضافهکردن کلمات مترادف يک کلمه • اضافهکردن کلماتي که از نظر املائي نزديک به کلمه مورد نظر هستند؛ چون ممکن است کاربر يا نويسنده مستند، در املاي کلمه اشتباه کرده باشد. • ترجمهکردن کلمات به زبانمستندات موتور جستجوی قرآنی وب - مجتبی محمدی نصیری
راهکارهاي انجام پروژه • خزشگر کانوني (Focus Crawler) • فوق موتور جستجو (Meta Search Engine) • انديسگذاري بر اساس رابطهي آيات و مستندات موتور جستجوی قرآنی وب - مجتبی محمدی نصیری
خزشگر کانوني(Focus Crawler) • تعريف : • الگوريتم جستجوي بهترين اول(Best First Search) • جمعآوري مستندات مرتبط با يک زمينهي خاص • مزايا • حذف بسياري از صفحات وب قبل از جمعآوری • کنترل مرتبط با قرآن بودن نتايج از همين ابتدا • نياز کمتر به منابع شبکهاي • معايب • پيچيدگي الگوريتمي و نياز به منابع پردازشي موتور جستجوی قرآنی وب - مجتبی محمدی نصیری
فوق موتور جستجو (Meta Search Engine) • سه رويکرد • رتبهبندي دوباره • فيلترکردن نتايج • گسترش پرسجو • مزايا • پيادهسازي سادهتر • معايب • زمان پاسخگويي سيستم بالا • نياز به منابع شبکهي زياد • عدم تضمين مربوط بودن نتايج به قرآن موتور جستجوی قرآنی وب - مجتبی محمدی نصیری
انديسگذاري بر اساس رابطهي آيات و مستندات • دو مرحله • مدلکردن رابطههاي بين آيات • مدلکردن ارتباط مستندات و آيات • سه پيشنهاد • استفاده از کلمات مشترک • استفاده از محلکلمات مشترک • هستانشناسيبراي مفاهيم قرآن و ايجادپايگاه دانش موتور جستجوی قرآنی وب - مجتبی محمدی نصیری
انديسگذاري بر اساس رابطهي آيات و مستندات (ادامه...) • مزايا • تضمين ارتباط مستندات بازيابي شده با قرآن • با اجرای پيشنهاد سوم امکان گسترش پروژه به حالت پرسجوهاي به زبانهاي ديگر • گسترش پروژه به بازيابی صفحات در مورد مفاهيم اسلاميو قرآني (با اجرای پيشنهاد سوم) • معايب • مشکل بودن و هزينه و زمان بر بودن بخصوص ايجاد هستانشناسي • نياز به تخصص بالايي درعلوم قرآني بخصوص در پيشنهاد سوم موتور جستجوی قرآنی وب - مجتبی محمدی نصیری
نتيجهگيري • سه راهکار بالا در تضاد با هم نيستند و با کمي تطبيق ميتوان در يک موتور به کار روند. • با توجه به مزايا و معايب • راهکار سوم قابل اجرا در يک سال نيست • راهکار دوم نتايج مطلوب را ايجاد نمیکند تمرکز ما در اين مرحله بر روي خزشگر کانوني است موتور جستجوی قرآنی وب - مجتبی محمدی نصیری
مراجع • Blaz N. A survey of focused web crawling algorithm. SIKDD'04, 2004. • Brin S. and Page L. The Anatomy of a Large-Scale Hypertextual Web Search Engine.1998(Extended in 2003). • Noordin, M.F. Othman, R. An Information Retrieval System for Quranic Texts: A Proposed System Design. ICTTA'06. 2nd Information and Communication Technologies, 2006. • Pretschner A. Ontology Based Personalized Search. Master 's thesis, The University of Kansas, Lawrence, KS, 1999. موتور جستجوی قرآنی وب - مجتبی محمدی نصیری
مراجع (ادامه...) • Ah Chung Tsoi. Forsali, D. Gori, M. Hagenbuchner, M. Scarselli F. A Simple Focused Crawler. 2003. • Aljlayl, M. and Frieder, O. On Arabic Search: Improving the Retrieval Effectiveness via a Light Stemming Approach, ACM Eleventh Conference on Information and Knowledge Management, Mclean, VA, November, 2002. • Angkawattanawit N., Rungsawang A., Learnable Crawling: An Efficient Approach to Topic-specific Web Resource Discovery. 2002. • Charu C. Aggarwal, Fatima Al-Garawi, and Philip S. Yu. Intelligent crawling on the World Wide Web with arbitrary predicates. In Proceedings of the 10 th International World Wide Web Conference, Hong Kong, May 2001. • Ehrig M. and Maedche A.. Ontology-focused crawling of Web documents. In Proc. of the 2003 ACM symposium on Applied computing, Melbourne, Florida, 2003. • Rachidi, T. Iraqi, O. Bouzoubaa, M. Khattab, A.B.E. Kourdi, M.E. Zahi, A. Bensaid, A. Barq: distributed multilingual internet search engine with focus on Arabic language. IEEE International Conference on Systems, Man and Cybernetics, 2003. موتور جستجوی قرآنی وب - مجتبی محمدی نصیری
پايگاههاي مرجع • http://www.searchquran.org/ • http://www.google.com/intl/ar/ • http://scholar.google.com • http://www.searchengineguide.com/pages/Science/Biology • http://scitech.quickfound.net/biology_medical_news_search.html • http://chemfinder.cambridgesoft.com/ • http://www.chemindustry.com/ موتور جستجوی قرآنی وب - مجتبی محمدی نصیری
با تشکر از توجه شما موتور جستجوی قرآنی وب - مجتبی محمدی نصیری