350 likes | 570 Views
ارزیابی کیفیت داده در حوزه داده های پیوندی. استاد راهنما: دکتر محسن کاهانی ارائه دهنده: نجمه یاقوتی. فهرست مطالب. مقدمه چالشهای موجود در حوزه دادههای پیوندی ابعاد مؤثر در کیفیت داده روششناسی ها. مقدمه. کاهش موانع در انتشار و دسترسی به مستندات
E N D
ارزیابی کیفیت داده در حوزه داده های پیوندی استاد راهنما: دکتر محسن کاهانی ارائه دهنده: نجمه یاقوتی
فهرست مطالب • مقدمه • چالشهای موجود در حوزه دادههای پیوندی • ابعاد مؤثر در کیفیت داده • روششناسی ها
مقدمه • کاهش موانع در انتشار و دسترسی به مستندات • تغییر رویکرد به اشتراکگذاری دانش به صورت بنیادی • تغییر وب از فضایی با اسناد به هم پیوند خورده، به فضایی با دادهها و اسناد به هم پیوند خورده • دادههای پیوندی • مجموعهای از تلاشها در جهت انتشار و اتصال دادههای ساختیافته در وب • استفاده از وب، به منظور ایجاد پیوندهای دارای نوع، میان دادههای منابع مختلف
پروژه داده های باز پیوندی • واضحترین مثال از اتخاذ و استفاده از اصول دادههای پیوندی • پروژه LinkedOpenData یک تلاش جمعی مردمی، آغاز شده در ژانویه ۲۰۰۷، پشتیبانی توسط گروه آموزش و توسعه وب معنایی W3C • مفید بودن تنها در صورت داشتن کیفیت مناسب ابر LOD در ماه مه 2007[lod-cloud.net]
چالشهای تحقیقاتی • واسطهای کاربر و نمونههای تعاملی • نگاشت شِما و تلفیق داده • نگهداری یا حفظ پیوند • جواز • کیفیت • حریم خصوصی
ابعاد کیفیت داده • ساختاری چند بعدی با تعریف "مناسب بودن برای کاربرد" • وابسته به طراحی و ایجاد فرآیندهای مؤثر در تولید داده • داشتن کیفیت مناسب • درک کیفیت و چگونگی اندازهگیری آن • مشکلات کیفیت داده • یکپارچه سازی اطلاعات فراهم آورندگان مختلف توسط سیستمهای اطلاعاتی تحت وب • مقادیر دارای تضاد با یکدیگر در منابع داده مختلف، به دلیل تنوع داده • ارائه نادرست موجودیتهای دنیای واقعی در سیستم اطلاعاتی • خطاها، اختلالات و یا اشتباهات در مسائل مدل سازی • مجموعهای از مسائل دارای پتانسیل تحت تأثیر قرار دادن برنامههایی که از آن دادهها استفاده میکنند[Wan1996, Zav2012]
ابعاد کیفیت داده • ارزیابی کیفیت داده • اندازهگیری ابعاد و ضوابط کیفی داده • سنجه یا مقیاس ارزیابی کیفیت داده • روالی برای اندازهگیری بعد کیفی اطلاعات ابعاد کیفیت داده و روابط آنها [Zav2012] 8
ابعاد زمینهای هستان شناسی کامل بودن خصیصه جمعیت بهم پیوستگی مقدار دادهها ابعاد زمینه ای مرتبط بودن
ابعاد اطمینان/اعتماد منشأ اثباتپذیری ابعاد اطمینان باورپذیری شهرت مجوز
ابعاد ذاتی دقت عینی بودن استفاده معتبر از واژگان زیربنایی اعتبار مستندات نحو معتبر برای اسناد ابعاد ذاتی بهم پیوستگی سازگاری سطح داده ایجاز سطح شِما
ابعاد دسترسی در دسترس بودن عملکرد ابعاد دسترسی امنیت زمان پاسخ
ابعاد نمایشی ایجاز نمایشی سازگاری نمایشی ابعاد نمایشی قابلیت فهم تنوع قابلیت تفسیر
ابعاد پویای مجموعه داده تازگی زمان تحویل زمان فعلی نوسانات ابعاد پویای مجموعه داده زمان ورودی زمان انقضا بهنگام بودن
جنبههای مقایسهای برای تحلیل روششناسی ها • فازها و گامهای سازنده روششناسی • راهبردها و روشهای اتخاذ شده برای ارزیابی و بهبود سطوح کیفیت داده در هر روششناسی • ابعاد و سنجههای انتخاب شده برای ارزیابی سطوح کیفیت داده در روششناسی • انواع هزینههای مرتبط با مسائل کیفی داده • انواع دادههای در نظر گرفته شده در روششناسی • انواع سیستمهای اطلاعاتی مصرف کننده، تغییر دهنده و مدیریت کننده دادهها • سازمانهای درگیر در فرآیند با قابلیت ایجاد و بروز رسانی دادهها با ساختارها و قواعد خود • فرآیندهای با هدف ایجاد سرویسهای مورد نیاز کاربران • خدمات ایجاد شده توسط فرآیند • تفاوت روششناسی ها از نقطه نظر چگونگی در بر گرفتن این جنبهها
فازها و گامها • نوسازی یا ساخت مجدد وضعیت(اختیاری) • جمعآوری اطلاعات زمینهای در خدمات سازمانی • جمع آوری دادهها و روالهای مدیریتی مختلف • مسائل کیفی و هزینههای مرتبط • ارزیابی/ اندازهگیری کیفیت مجموعههای داده، همراه با ابعاد کیفی مرتبط • اندازهگیری یا سنجش • اندازهگیری مقدار یک مجموعه از ابعاد کیفی داده • ارزیابی • مقایسه اندازهگیری ها با مقادیر مرجع به منظور تشخیص کیفیت • بهبود • انتخاب گام ها، راهبردها و روشهایی برای دستیابی به اهداف کیفی داده جدید
گامهای فاز ارزیابی • تحلیل داده • تحلیل نیازمندیهای کیفی داده • شناسایی نواحی بحرانی • مدل سازی فرآیند • سنجش کیفیت • اندازهگیری مستقل از نظر فرد • بر مبنای سنجههای کمی • اندازهگیری وابسته به تفکر شخص • بر مبنای ارزیابیهای کیفی توسط مدیران یا کاربران دادهها
گامهای فاز بهبود • ارزیابی هزینه ها • تخصیص مسئولیتهای فرآیند • تخصیص مسئولیتهای داده • شناسایی علت خطاها • انتخاب راهبردها و روشها • سازگاری راهبردها با دانش زمینه ای، اهداف کیفی و محدودیتهای بودجه • طراحی راهکارهای بهبود داده • کنترل فرآیند • طراحی مجدد فرآیند • مدیریت بهبود • مانیتورینگ بهبود
راهبردهای فاز بهبود • راهبردهای داده-محور • بهبود کیفیت داده به صورت مستقیم با تغییر مقادیر داده • بروز رسانی پایگاه داده با دادههایی از پایگاه دادههای جدیدتر • راهبردهای فرآیند-محور • بهبود کیفیت دادهها با طراحی مجدد فرآیندهای ایجاد کننده یا تغییر دهنده دادهها • طراحی مجدد یک فرآیند به منظور افزودن فعالیت جدیدی به منظور کنترل قالب دادهها قبل از ذخیره سازی
روشهای بهبود راهبردهای داده-محور • روشهای بهبود به کار رفته توسط راهبردهای داده-محور • اکتساب دادههای جدید • استاندارد سازی (نرمال سازی) • بهمپیوستگی رکورد • محلیسازی یا موضعیسازی خطا و اصلاح آن[Bat2006, Das2003] • شناسایی منابع قابل اعتماد • بهینه سازی هزینه • یکپارچگی داده و شِما • دسترسی کاربر به دادههای ذخیره شده توسط منابع داده ناهمگن، توسط یک دید یکتا از این دادهها
روشهای بهبود راهبردهای فرآیند-محور • کنترل فرآیند • درج روالهای کنترلی و بررسی در فرآیند تولید داده • اعمال یک راهبرد واکنشی به رخدادهای تغییرِ داده • اجتناب از تنزل دادهها و انتشار خطا • طراحی مجدد فرآیند • حذف علل کیفیت ضعیف • معرفی فعالیتهای جدید برای ایجاد دادههای با کیفیت بالاتر • چشمانداز بلندمدت • روشهای فرآیند-محور • چشم انداز کوتاهمدت • راهبردهای داده-محور
ابعاد • مجموعه هستهای از ابعاد • دقت • کامل بودن • سازگاری • بهنگام بودن • مشکل LOD • عدم وجود توافق عمومی بر روی مجموعهای از ابعاد کیفیت داده، برای تعریف کیفیت [Zav2012, Bat2009]
هزینهها • هزینه کیفیت داده • مجموع هزینه فعالیتهای ارزیابی و بهبود کیفیت داده (هزینههای مستقیم) • هزینههای مرتبط با کیفیت داده ضعیف (هزینههای غیر مستقیم) • کاهش هزینه کیفیت ضعیف با پیاده سازی یک برنامه کیفیت داده مؤثرتر و هزینهبر تر
انواع دادهها • هدف نهایی روششناسی کیفیت داده • تحلیل داده های توصیف کننده اشیاء دنیای واقعی در قالبی قابل ذخیره، بازیابی و پردازش توسط یک روال نرم افزاری • تمایز میان سه نوع داده • دادههای ساختیافته • تجمع یا تعمیم اقلام تشریح شده توسط مجموعه ای از صفات خاصه • دادههای غیر ساختیافته • دنبالهای عمومی از نمادها، معمولاً کد شده در زبان طبیعی • دادههای نیمه ساختیافته • دادههایی دارای ساختاری با درجهای از انعطافپذیری • کاهش ساختار دادهها • پیچیدگی رو به رشد روشهای کیفیت داده • ابعاد کیفی یکسان • سنجههای کیفی متفاوت بسته به نوع داده
انواع سیستمهای اطلاعاتی • تأثیرپذیری روششناسی های کیفیت داده توسط انواع سیستمهای اطلاعاتی • تمایز سیستمهای اطلاعاتی بر مبنای درجه یکپارچگی داده، فرآیند و مدیریت • کاهش میزان یکپارچگی داده، فرآیند و مدیریت • پیچیدهتر شدن روشهای ارزیابی و بهبود داده • چالش برانگیزتر شدن ارزیابی و بهبود کیفیت داده • تمایز انواع سیستمهای اطلاعاتی بر اساس درجه یکپارچگی[Zac2006] • سیستم اطلاعاتی یکپارچه • انبار داده • سیستم اطلاعاتی توزیع شده • سیستم اطلاعاتی همکارانه • سیستم اطلاعاتی وب • سیستم اطلاعاتی نظیر به نظیر
روششناسی ها و ابعاد مختلف کیفیت داده [Bat2009, Zav2012]
روششناسی ها و گامهای ارزیابی [Bat2009]
روششناسی ها و انواع راهبردهای بهبود[Bat2009]
روششناسی ها و انواع دادهها [Bat2009]
روششناسی ها و سیستمهای اطلاعاتی [Bat2009]
مراجع [Abi2000] Abiteboul, Serge, Peter Buneman, and Dan Suciu, "Data on the Web: from relations to semistructured data and XML." Morgan Kaufmann, 2000. [Ant2004] Antoniou, Grigoris. "A semantic web primer." the MIT Press, 2004. [Bat2007] Batini, Carlo, et al. "A Framework And A Methodology For Data Quality Assessment And Monitoring." ICIQ, 2007. [Bat2006] Batini, Carlo, and Monica Scannapieca. "Data quality: concepts, methodologies and techniques." Springer, 2006. [Ber1997] Berners-Lee, Tim. "Cleaning up the user interface." World Wide Web Consortium ,1997. [Bri1998] Brin, Sergey, and Lawrence Page. "The anatomy of a large-scale hypertextual Web search engine." Computer networks and ISDN systems 30.1: 107-117, 1998. [Bri2004] Brickley, Dan, and Ramanathan V. Guha. "{RDF vocabulary description language 1.0: RDF schema}." 2004. [Biz2007] Bizer, Christian. "Quality Driven Information Filtering: In the Context of Web Based Information Systems." VDM Publishing, 2007. [Biz2009] Bizer, Christian, Tom Heath, and Tim Berners-Lee. "Linked data-the story so far." International Journal on Semantic Web and Information Systems IJSWIS)5.3: 1-22, 2009. [Bun1997] BUNEMAN, P. 1997. "Semi-structured data." In Proceedings of the 16th ACM Symposium on Principles of Database Systems (PODS). [Cal1999] Calvanese, Diego, Giuseppe De Giacomo, and Maurizio Lenzerini. "Modeling and querying semi-structured data." Networking and Information Systems Journal 2: 253-273, 1999. [Car2004] Carroll, Jeremy J., and Graham Klyne. "Resource Description Framework ({RDF}): Concepts and Abstract Syntax." 2004.
مراجع [Cyg2009] Cyganiak, Richard, Michele Catasta, and Giovanni Tummarello. "Towards ECSSE: live Web of Data search and integration." Proceedings of the Semantic Search 2009 Workshop, 2009. [Che2010] Chen, Ping, and Walter Garcia. "Hypothesis generation and data quality assessment through association mining." Cognitive Informatics (ICCI), 2010 9th IEEE International Conference on. IEEE, 2010. [Eng1999] Larry, P. "English, Improving data warehouse and business information quality: methods for reducing costs and increasing profits." 1999. [Fle2010] Flemming, A. Quality characteristics of linked data publishing datasources. Diss. Master’s thesis, Humboldt-Universität of Berlin, 2010. [Fur2011] Fürber, Christian, and Martin Hepp. "SWIQA–A Semantic Web information quality assessment framework." , 2011. [Gil2002] Gil, Yolanda, and VarunRatnakar. "Trusting information sources one citizen at a time." The Semantic Web—ISWC 2002. Springer Berlin Heidelberg, 2002. 162-176. [Gil2007] Gil, Yolanda, and Donovan Artz. "Towards content trust of web resources." Web Semantics: Science, Services and Agents on the World Wide Web 5.4 2007): 227-239. [Gol2003] Golbeck, Jennifer, BijanParsia, and James Hendler. "Trust networks on the semantic web." Springer Berlin Heidelberg, 2003. [Gue2012] Guéret, Christophe, et al. "Assessing linked data mappings using network measures." The Semantic Web: Research and Applications. Springer Berlin Heidelberg, 2012. 87-102. [Ham2001] Hammer, Michael, and James Champy. "Reengineering the Corporation: Manifesto for Business Revolution", 2009. [Har2010] Hartig, Olaf, and Jun Zhao. "Publishing and consuming provenance metadata on the web of linked data." Provenance and Annotation of Data and Processes. Springer Berlin Heidelberg, 2010. 78-90.
مراجع [Hau2009] Hausenblas, Michael. "Linked data applications." First Community Draft, DERI(2009). [Hea2011] Heath, Tom, and Christian Bizer. "Linked data: Evolving the web into a global data space." Synthesis lectures on the semantic web: theory and technology1.1: 1-136, 2011. [Hog2010] Hogan, Aidan, et al. "Weaving the pedantic web." , 2010. [Hog2012] Hogan, Aidan, et al. "An empirical survey of Linked Data conformance." Web Semantics: Science, Services and Agents on the World Wide Web 14: 14-44, 2012. [Jac2004] Jacobs, Ian, and Norman Walsh. "Architecture of the world wide web." 2004 [Lei2007] Lei, Yuangui, Victoria Uren, and Enrico Motta. "A framework for evaluating semantic metadata." Proceedings of the 4th international conference on Knowledge capture. ACM, 2007. [Men2012] Mendes, Pablo N., HannesMühleisen, and Christian Bizer. "Sieve: linked data quality assessment and fusion." Proceedings of the 2012 Joint EDBT/ICDT Workshops. ACM, 2012. [Red1996] Redman, Thomas C., and A. Blanton. "Data quality for the information age." Artech House, Inc., 1997. [Sto2003] Stoica, Mihail, NimitChawat, and Namchul Shin. An investigation of the methodologies of business process reengineering. School of Computer Science and Information Systems, Pace University, 2004. [Wan1996] Wand, Yair, and Richard Y. Wang. "Anchoring data quality dimensions in ontological foundations." Communications of the ACM 39.11 : 86-95, 1996. [Zav2012] Zaveri, Amrapali, et al. "Quality Assessment Methodologies for Linked Open Data." Submitted to SWJ.