350 likes | 629 Views
گزارش سمینار کارشناسی ارشد کاوشگر های وب معنایی. ریحانه امامدادی استاد راهنما: جناب دکتر کاهانی پاییز 1391. فهرست مطالب. کاوشگر وب وب معنایی چالش های کاوشگر های سنتی برای وب معنایی کاوشگر های وب معنایی کاوشگر های متمرکز برای وب معنایی نتیجه گیری. کاوشگر وب.
E N D
گزارش سمینار کارشناسی ارشدکاوشگر های وب معنایی ریحانه امامدادی استاد راهنما: جناب دکتر کاهانی پاییز 1391
فهرست مطالب • کاوشگر وب • وب معنایی • چالش های کاوشگر های سنتی برای وب معنایی • کاوشگر های وب معنایی • کاوشگر های متمرکز برای وب معنایی • نتیجه گیری
کاوشگر وب • برنامه ای است که به صورت خودکار، وب را از طریق دانلود کردن صفحات و دنبال کردن پیوند ها، از صفحه ای به صفحه ای دیگر، پیمایش می کند. • جمع آوری داده • اولین مولفه مورد نیاز برای ایجاد شاخص گذاری و بازیابی اسناد وب • crawler، spider، robot، ... چرخه کاوش [Mae2006]
رفتار کاوشگر • چه صفحاتی باید دانلود شوند؟ (سیاست انتخاب صفحه) • محبوبیت محور • علاقه محور • چگونه صفحات باید به روز شوند؟ (سیاست به روز رسانی) • بررسی به روز بودن صفحه • اولویت به روز رسانی • چگونه باید سربار کاوش را بر روی سایت ها به حداقل رساند؟ (سیاست politeness) • مجوز کاوش سایت: فایل robot.txt • رعایت یک میزان تاخیر، بین ارسال درخواست های متوالی به یک سایت • چگونه باید فرآیند کاوش را موازی کرد؟ (سیاست موازی سازی) • یک صفحه یکسان چندین بار توسط کاوشگرهای مختلف کاوش نشود.
روشهای پیوند اسناد در وب معنایی • rdfs:seeAlso ، rdfs:isDefinedBy ، owl:sameAs، owl:import • پیوند های موجود در اسناد html که اشاره به یک سند با پسوند .rdf می کنند. • دنبال کردن پیوند های A-BoxوT-Box • استدلال بر روی سه گانه ها (subject, predicate, object) • T-Box: کلاس ها و خصیصه ها (شمای یک سند) • URIهر predicate • URIمربوط به هر obejct، در صورتی که در سه گانه مورد نظر، predicateآن از نوع typeباشد.. • A-Box: نمونههای تعریف شده • URI مربوط به هر Subject و یا Object
چالش های کاوشگر های سنتی برای وب معنایی • حجم کمتر وب معنایی نسبت به وب سنتی : عدم نیاز به کاوش جامع و کامل وب • عدم اتصال کافی بین منابع • تفاوت فرمت داده ها: عدم توجه به محتوای معنایی اسناد • شیوه متفاوت پیوند بین منابع • به روز رسانی اسناد
کاوش وب معنایی • جمع آوری URIهای اولیه • وارد کردن URIتوسط کاربر • استفاده از خروجی موتور های جستجو و بعضی از سایت ها • فیلتر های معنایی • جلوگیری از واکشی و ذخیره داده های غیر معنایی • انواع فیلتر ها: پروتکل - پسوند فایل - عبارات منظم – دامنه - پیشوند URI- نوع رسانه/محتوا • پارسرهای معنایی • Jena - Any23 – NxParser • استخراج سه گانه ها از اسناد و تبدیل آنها به چهار گانه ها • چهارگانه = (subject, predicate, object, context)
روش های کاوش • روش کاوش کران دار [Din2005] • در اطراف یک سند معنایی ممکن است اسناد معنایی دیگری نیز وجود داشته باشد. • کاوش تمام صفحات متعلق به یک سایت • یافتن منابع منزوی • کشف اسناد معنایی بیشتر • روش اول-سطح • کاوش زودتر صفحات مرتبط • تنوع بیشتر در دیتاست های کاوش شده • روش اول-عمق • مسیرهای عمیق تر در داخل یک سایت
صف های کاوش • مزایای صف های مبتنی بر دامنه [Lee2008] • کنترل کردن سایت ها با حجم بالا • رعایت عدالت میان دامنه ها • جلوگیری از تاثیر سایت های اسپم • Top-Level Domain (TLD) • .com , .net , .uk • cc-TLD : co.uk , edu.au • Pay level domain (PLD) • amazon.com , det.wa.edu.au
روش مبتنی بر یادگیری [Bat 2012] • BioCrawler: یک کاوشگر هوشمند • مجموعه ای از کاوشگر ها با ویژگی های زیر: • قابلیت حرکت - بردار دید - قابلیت ارتباط - مدل دانش - انرژی • هدف • افزایش انرژی = کاوش بیشتر سایت های معنایی (OWLیا RDF) • الگوریتم پایه: کاوش اول-عمق • مدل دانش: مجموعه قوانین • IF < vision_vector > THEN < select_domain > • امکان تبادل قوانین میان کاوشگر ها
سیاست های Politeness • رعایت حداقل زمان تاخیر بین در خواست متوالی به یک دامنه (PLD- سایت) • تعیین حداکثر تعدادURI های کاوش شده به ازای هر دامنه • در روش مبتنی بر یادگیری: کاهش قدرت قانون به ازای هر بار استفاده • مشکل قحطی PLD ها • عدم داشتن PLDفعال به تعداد کافی [Hog2011] • دلایل • واکشی سایت ها با فاکتور انشعاب داخلی بالا • عدم اتصال خوب اسناد در وب معنایی • راه حل • بازگشت از دور
به روز رسانی داده ها • بازه به روز رسانی • بر حسب تقاضا • خودکار • بررسی به روز بودن • بررسی فیلد (last-modified-since) در هدر HTTPصفحه • هش محتوای صفحه • استفاده از سرویس "Pingthesemanticweb.com" • استفاده از نقشه سایت • اولویت به روز رسانی • میزان غنی بودن دامنه از نظر معنایی • اولویت بالا برای کاربر
مدل های طراحی • چارچوب توزیع شده • افزایش مقیاس پذیری • مدل Master-Slave[Hog2011] • پراکنده کردن URIهای seedتوسط Master بین Slaveها • اجرای یک دور از فرآیند کاوش توسط Slaveها • پراکنده کردن URIها توسط Slaveها بین یکدیگر در پایان هر دور • مدل خط لوله [Har2006] • جدا کردن مولفه واکشی از مولفه پردازش • اجرای هر یک از مولفه های کاوش به صورت چند نخی • افزایش مقیاس پذیری و توان عملیاتی
مدل ترکیبی کنترل کننده-کارگر و تولید کننده-مصرف کننده [Dod2006] • جدا کردن مولفه واکشی (کنترل کننده-کارگر) از مولفه پردازش (تولید کننده-مصرف کننده) معماري کاوشگر SLUG
کاوش متمرکز • دلایل • رشد روز افزون و تغییر سریع محتوای وب • نیاز به اسناد با کیفیت و ارتباط بالا • به روز رسانی صفحات بر اساس محبوبیت نه ارتباط • محدود کردن مرزهای کاوش و تمرکز بر روی نقاط مرتبط با موضوع • مزایا • حفظ قابل توجه منابع سخت افزاری و شبکه • حجم کمتر، به روز رسانی و نگهداری آسان تر شاخص
مراحل کاوش متمرکز • سلسله مراتب موضوعی با مجموعه ای از اسناد نمونه • آنتالوژی • ایجاد گراف زمینه برای اسناد هدف • انتخاب موضوع از روی سلسله مراتب موضوعی • پرس جوی کلمه کلیدی • دادن آنتالوژی نمونه • دادن اسناد هدف • محاسبه فرکانس ترم ها در اسناد • امتیاز دادن به روابط در آنتالوژی • نگاشت بین آنتالوژی موضوع و آنتالوژی سند • محاسبه فاصله بین ترمهای سند بر اساس ساختار آنتالوژی
کاوشگر های متمرکز • چالش ها • تعریف یک هدف کاوش رضایت بخش • یک سند مرتبط ممکن است به یک سند نامرتبط پیوند دهد • یک سند نامرتبط ممکن است به یک سند مرتبط پیوند دهد • شناسایی نقاطی که به تعداد زیادی اسناد مرتبط پیوند می دهند • معیار های ارزیابی • میانگین تعداد اسناد مرتبط (harvest) • تعداد اسناد مرتبط / تعداد کل اسناد بازیابی شده • میانگین ارتباط اسناد • توانایی کاوشگر برای حفظ تمرکز بر روی اسناد مرتبط • مجموع ارتباط اسناد / تعداد کل اسناد بازایابی شده
نتیجه گیری • عدم اتصال خوب اسناد در وب معنایی • کشف منابع اولیه اسناد معنایی • کاوش کران دار • انتخاب و به روز رسانی منابع معنایی تر • نسبت مفید اعتبار • استفاده از روش های مبتنی بر یادگیری • استفاده از روش های کاوش متمرکز • توزیع شدگی • توزیع بار بر اساس میزان معنایی بودن URIها • کاوش هر چه بیشتر اسناد معنایی • اجتناب از بازیابی اسناد غیر معنایی • صرفه جویی در مصرف منابع محاسباتی و شبکه • کم تر شدن حجم شاخص • پشتیبانی از انواع دادههای معنایی • استخراج فراداده های معنایی از اسناد غیر معنایی • جدا کردن مولفه تبدیل از مولفه واکشی • کاوش اول-سطح مبتنی بر دامنه • کاهش سربار ناشی از کاوش بر روی دامنهها • قطحی PLDها
مراجع [Bat2012] A. Batzios, P. A. Mitkas, “WebOWL: A Semantic Web search engine development experiment.”Journal of Expert Systems with Applications, vol. 39, pp. 5052–5060, 2012. [Kum2012] R. K. Rana, N. Tyagi, “A Novel Architecture of Ontology-based Semantic Web Crawler.”International Journal of Computer Applications, vol. 44, Apr. 2012. [Hog2011] A. Hogan, A. Harth, J. Umbrich, S. Kinsella, A. Polleres, S. Decker, “Searching and Browsing Linked Data with SWSE: the SemanticWeb Search Engine.”Journal web semantics, vol. 9, pp. 365-401, 2011. [Cyg2011] R. Cyganiak, D1.1 Deployment of Crawler and Indexer Module, Linking Open Data Around The Clock (LATC) Project, 2011. [Jal2011] O. Jaliian, H. Khotanlou, “A New fuzzy-Based Method to Weigh the Related Concepts in Semantic Focused Web Crawlers,” IEEE Conference, 2011. [Dhe2011] S. S. Dhenakaran, K. T. Sambanthan, “WEB CRAWLER - AN OVERVIEW.”International Journal of Computer Science and Communication, vol. 2, pp. 265-267, Jun 2011. [Ise2010] R. Isele, J. Umbrich, C. Bizer, A. Harth, “LDSpider: An open-source crawling framework for the Web of Linked Data,” In Poster. ISWC2010, Shanghai, Chinam, 2010. [Del2010]R. Delbru, “Searching Web Data: an Entity Retrieval Model.”Ph.D thesis, at Digital Enterprise Research Institute, National University of Ireland, Sep. 2010.
مراجع [Che2009] G. Cheng, Y. Qu, “Searching Linked Objects with Falcons: Approach, Implementation and Evaluation.”International Journal on Semantic Web and Information Systems, vol. 5, pp. 50-71, Sep. 2009. [Ore2008] E. Oren, R. Delbru, M. Catasta, R. Cyganiak, H. Stenzhorn, G. Tummarello, “Sindice.com: A document-oriented lookup index for open linked data.” International Journal Metadata Semant and Ontologies, vol. 3, pp. 37-52, 2008. [Umb2008] J. Umbrich, A. Harth, A. Hogan, S. Decker, “Four heuristics to guide structured content crawling,” in Proc. of the 2008 Eighth InternationalConference on Web Engineering-Volume 00, IEEE Computer Society, Jul. 2008, pp.196-202. [Cyg2008] R. Cyganiak, H. Stenzhorn, R.Delbru, S. Decker, G. Tummarello, “Semantic Sitemaps: Efficient and Flexible Access to Datasets on the Semantic Web,” in Proc. of the 5th European semantic web conference on The semantic web: research and applications, 2008, pp. 690-704. [Lee2008] H. T. Lee, D. Leonard, X. Wang, D. Loguinov, “Irlbot: scaling to 6 billion pages and beyond.” in Proc. of the 17th international conference on World Wide Web, 2008, pp. 427-436. [Don2008] H. Dong, F. K. Hussain, E. Chang, “State of the art in metadata abstraction crawlers,” IEEE International Conference on Industrial Technology, Chengdu, 2008.
مراجع [Sab2007] M. Sabou, C. Baldassarre, L. Gridinoc, S. Angeletou, E. Motta, M. d'Aquin, M. Dzbor, “WATSON: A Gateway for the Semantic Web,” in ESWC poster session, 2007. [Bat2007] A. Batzios, C. Dimou, A. L. Symeonidis, P. A. Mitkas, “BioCrawler: An intelligent crawler for the Semantic Web.”Journal of Expert Systems with Applications, vol. 35, pp. 524-530, 2007. [Dod2006] L. Dodds, Slug: A Semantic Web Crawler, 2006. [Han2006] L. Han, L. Ding, R. Pan, T. Finin, Swoogle's Metadata about the Semantic Web, 2006. [Har2006] A. Harth, J. Umbrich, S. Decker, “Multicrawler: A pipelined architecture for crawling and indexing semantic web data,” In 5th International Semantic Web Conference, 2006, pp. 258–271. [Mae2006] F. V. D. Maele. “Ontology-based Crawler for the Semantic.” M.A. thesis, Department of Applied Computer Science, Brussel, 2006. [Yuv2006] M. Yuvarani, N. Ch. S. N. Iyengar, A. Kannan, “LSCrawler: A Framework for an Enhanced Focused Web Crawler based on Link Semantics,” in Proc. of the 2006 IEEE/WIC/ACM International Conference on Web Intelligence, 2006. [Din2005] L. Ding, T. Finin, A. Joshi, R. Pan, P. Reddivari, “Search on the semantic web.”Journal IEEE Computer, vol. 10, pp. 62-69, Oct. 2005.
مراجع [Din2004] T. Finin, Y. Peng, R. S. Cost, J. Sachs, R. Pan, A. Joshi, P. Reddivari, R. Pan, V. Doshi, L. Ding,“Swoogle: A Search and Metadata Engine for the Semantic Web,” in Proc. of the Thirteenth ACM Conference on Information and Knowledge Management, 2004. [Ehr2003] M. Ehrig, A. Maedche, “Ontology-focused crawling of Web documents,” in Proc. of the 2003 ACM Symposium on AppliedComputing, 2003, pp. 1174-1178. [Ara2001] A. Arasu, J. Cho, H. G. Molina, A. Paepcke, S. Raghavan, “Searching the Web.”ACM Transactions on Internet Technology, vol. 1, pp. 2–43, Aug. 2001. [Ber2001] T. Berners-Lee, J. Hendler, O. Lassila, “The Semantic Web.” Journal of Scientific American, vol. 284, pp.35-43, May 2001. [Dil2000] M. Diligenti, F. Coetzee, S. Lawrence, C. L. Giles, M. Gori, “Focused crawling using context graphs,” in Proc. of 26th International Conference on Very Large Databases, 2000, pp. 527–534. [Cha1999] S. Chakrabarti, M. V. D. Berg, B. Dom, “Focused crawling: a new approach to topic-specific web resource discovery.”Journal of Computer Networks, vol. 31, pp. 1623-1640, 1999. [Kle1998] J. Kleinberg, “Authoritative sources in a hyperlinked environment,” in Proc. ACM-SIAM Symposium on Discrete Algorithms, 1998.