380 likes | 640 Views
داده کاوی و ضرورت محرمانگی داده مهدی نصیری nasiri_m@iust.ac.ir. اسفند91. چرا داده کاوی. ایجاد و افزایش تعداد پايگاه داده ها: داده وب، تجارت الکترونیک تراکنشهای بانک آب و هوا فروشگاه ها ارزان تر و قویتر شدن کامپیوترها شدت رقابت قوی برای فراهم کردن بهتر سرویس دهی به مشتری
E N D
داده کاوی و ضرورت محرمانگی دادهمهدی نصیری nasiri_m@iust.ac.ir اسفند91
چرا داده کاوی • ایجاد و افزایش تعداد پايگاه داده ها: • داده وب، تجارت الکترونیک • تراکنشهای بانک • آب و هوا • فروشگاه ها • ارزان تر و قویتر شدن کامپیوترها • شدت رقابت قوی برای فراهم کردن بهتر سرویس دهی به مشتری • وجود پايگاه داده ها براي مديران، برنامه ريزان، پژوهشگران و... برای تصميم گيري هاي راهبردي، تهيه گزارش هاي مختلف، توصيف وضعيت جاري خود و...
چرا داده کاوی اندازه داده(ترابایت) فاصله بین داده تعداد تحلیلگران
تعریف داده کاوی • وجود حجم زیاد داده باعث پنهان ماندن بسیاری از اطلاعات محتوی آن می شود. • نیاز به روشهای جدیدی برای کشف دانش نیاز است. • واژه کشف دانش در پايگاه داده ها در اوايل دهه 80 در مراجعه به مفهوم کلي، گسترده، سطح بالا و به دنبال جستجوي دانش در اطلاعات شکل گرفته است. • هدف مورد نظر تمامی روشها دست یافتن به دانشی سطح بالا از داده های سطح پایین (خام) در دادگان های بزرگ می باشد. • KDD یا کشف دانش از داده، فرآیند یافتن اطلاعات و الگوهای مفید از داده را گویند که داده کاوی بهره گیری از الگوریتمهایی برای یافتن اطلاعات مفید در فرآیند KDD است.
تعریف داده کاوی • « داده کاوي در حقيقت کشف ساختارهاي جالب توجه، غير منتظره و با ارزش از داخل مجموعه وسيعي از داده ها مي باشد و فعاليتي است که اساساً با آمار و تحليل دقيق داده ها منطبق است» هند (1998)
تفاوت داده کاوی • اگر تعداد متغیرها بیشتر از 3 بود آمار • اگر مساله NP-Hard بود یادگیری ماشین • اگر مساله در فضای محدود بودهوش مصنوعی • اگر ندانیم که در کدام فضا چه محدودیتی داریمداده کاوی
وظایف داده کاوی • کشف تقلب
شبکه اجتماعی وداده کاوی • دادگان گراف • شاخصها • کشف گروه • پیش بینی ارتباط
سيستمهاي پیشنهاددهنده • سيستمهاي پیشنهاددهنده • سيستمهاي پیشنهاد دهنده شخصي • سيستمهاي پیشنهاد دهنده غيرشخصي • سيستمهاي پیشنهاددهنده • پالایش مبتني بر محتوي(CB) • پالایش مشارکتي (CF) • مورد توجه بودن سيستمهاي پیشنهاد دهنده از سال 1970 ميلادي
چالش های داده کاوی • دامنه ابعاد داده • پیچیدگی و همگن بودن داده • کیفیت داده • توزیع داده • محرمانگی داده • داده جریانی • سخت افزار و نرم افزار لازم و موقعیت بانک اطلاعاتی • در دسترس بودن نیروی انسانی ماهر در داده کاوی • ضعف ذاتی نهفته در ابزارهای نظری مثل مانند یادگیری ماشینی و الگوریتم های ژنتیکی به کار گرفته شده در فعالیت های داده کاوی
مهمترین چالش های داده کاوی 2007-2011 • کثیف بودن داده(چالشی ترین موضوع) • ارائه داده کاوی و کاربرد آن به دیگران(جز 4 چالش اول) • سخت بودن دسترسی به داده ها(جز 3 چالش اول)
محرمانگی داده • انتشار اطلاعات برای سومندی صاحب داده • افزایش قدرت رایانه • خرید، سرویس بهتر • جلوگیری از سوء استفاده • افزایش سرقت شناسه، کلاه برداری • نگرانی بیشتر از هرزنامه و هزینه و امنیت • تعامل بین انتشار و محرمانگی • نیاز سازمانهای آماری • رایانش ابر
چند نمونه از عدم رعایت محرمانگی داده • موتور جستجوی AOL • Netflix • ترکیب لیست رای دهندگان و بیمه ایالتی-> پرونده پزشکی دولتمردان
تعریف محرمانگی داده • Warren,Brandeis دو وکیل آمریکایی: حق یک فرد برای تنها ماندن(1890) • Westin: تمایل افراد برای تعیین آزادانه شرایط و حدودی که خودشان، گرایش هایشان و یا رفتارشان در معرض دید دیگران قرار می گیرد.(1967) • Schoeman: حق فرد برای تعیین اینکه چه نوع اطلاعات در مورد وی در حال تبادل است یا کنترل یک فرد روی اطلاعات شخصی اش(1984) • Clutterbuck,Cockcraft: حق کاربران برای حذف اطلاعات شخصیتشان و نیز درجه ای از کنترل روی استفاده از اطلاعات شخصی آشکار شده برای دیگران • یک مساله اجتماعی و فرهنگی
انواع محرمانگی داده • فیزیکی • جلوگیری از نفوذ به محدوده فیزیکی و تنهایی فرد مانند خانه • اطلاعاتی • نگرانی از نحوه جمع آوری ، ذخیره سازی، دسترسی و ارتباط دهی اطلاعات مربوط به آنها حین استفاده از سرویس های اطلاع رسانی مانند حریم مالی، اینترنتی، دارویی، سیاسی هنگام رای گیری • سازمانی • دولتی و شرکتی-> دسته بندی اطلاعات و محدود کردن دسترسی • روحی/عقلی • جنبه احساسی و رفتاری
امنیت و محرمانگی داده • محرمانگی داده دلیلی است که به امنیت نیاز داریم • پیچیدگی حفظ حریم خصوصی با دسترسی به اطلاعات • تعادل بین نیاز امنیتی و حفظ حریم خصوصی
محرمانگی داده در انتشار داده • در صورت اطمینان کامل به منتشر کننده
محرمانگی داده در انتشار داده • چند فرضیه • عدم تخصص منتشر کننده داده، پردازش داده توسط دریافت کننده آن انجام می شود. داده باید منتشر شود نه نتیجه پردازش روی آن • منتشر کننده داده دریافت کننده و نوع پردازش را نمی داند • مهاجم بین دریافت کنندگان اطلاعات است • اطلاعات تا حد ممکن به واقعیت نزدیک باشد • دانش زمینه ای مهاجم محدود است • صاحب داده و منتشر کننده می توانند خصیصه شناسا را از اطلاعات معمولی شناسایی کنند
سطوح پنهان سازی • رکورد • صفت • جدول • دانش • داده شناسا(کد پستی)، نیمه شناسا، حساس و غیرحساس
نحوه انتشار • نوع تکی یا چندتایی • انتشار متوالی: از روی یک جدول اصلی و هرکدام برای یک عملیات پردازشی خاص منتشر می شود • حفظ حریم خصوصی با پیوند • انتشار حالت پیوسته • کاربرد کار(پیش بینی، خوشه بندی یا ...)
سایتهای مفید • IranDataMiner.ir • KDNuggets.com