380 likes | 924 Views
بهبود سازوکار مقیاسپذیری در هادوپ. به نام خداوند بخشندهی مهربان. دانشکده مهندسی برق و کامپیوتر گروه مهندسی کامپیوتر. پایان نامه دوره کارشناسیارشد. پژوهشگر : معصومه رضائیجم استاد راهنما : سرکار خانم دکتر لیلی محمد خانلی استاد مشاور : جناب آقای دکتر محمد کاظم اکبری اسفند 1392.
E N D
بهبود سازوکار مقیاسپذیری در هادوپ به نام خداوند بخشندهی مهربان دانشکده مهندسی برق و کامپیوتر گروه مهندسی کامپیوتر پایان نامه دوره کارشناسیارشد پژوهشگر : معصومه رضائیجم استاد راهنما : سرکار خانم دکتر لیلی محمدخانلی استاد مشاور : جناب آقای دکتر محمدکاظم اکبری اسفند 1392
فهرست مطالب 2 3 1 4 5 مقدمه شرح مسئله کارهای مرتبط روش پیشنهادی نتیجهگیری و پیشنهادات آینده بهبود مقیاسپذیری در هادوپ 2
تعریف هادوپ • شامل 3 لایه : • لایه پردازش یا نگاشتکاهش (MapReduce) • لایه مدیریت منبع (YARN) • لایه ذخیرهسازی یا سیستمفایل توزیعشده (HDFS) • چارچوبی متنباز برای اجرای برنامههای کاربردی • پردازش دادههای توزیعشده با حجم بالا ازجمله ویژگیهای سکوی هادوپ • قابلیت دسترسی • قدرتمندی و قابلیتاطمینان • مقیاسپذیری بسیار بالا • سادگی بهبود مقیاسپذیری در هادوپ 3
شرکتهای استفادهکننده از هادوپ بهبود مقیاسپذیری در هادوپ 4
فهرست مطالب 2 3 1 4 5 مقدمه شرح مسئله کارهای مرتبط روش پیشنهادی نتیجهگیری و پیشنهادات آینده بهبود مقیاسپذیری در هادوپ 5
ابعاد مقیاسپذیری • داده • ابعاد مقیاسپذیری • منابع • پردازش بهبود مقیاسپذیری در هادوپ 6
ظرفیت هدررفته در اثر ظرفیت ثابت ظرفیت ظرفیت هدر رفته ظرفیت ثابت نیاز واقعی زمان بهبود مقیاسپذیری در هادوپ 7
اهمیت موضوع رایانشابری و اهداف و ویژگیهای اصلی آن افزایش حجم داده و نیاز به پردازش آن نگاشتکاهش و هادوپ موفقترین لزوم مقیاسپذیری هادوپ بهبود مقیاسپذیری در هادوپ 8
اهمیت موضوع (ادامه) مشکل هادوپ تاخیر بالاو نیاز به دخالت انسان اضافه و کمکردن پیرو به صورت دستی بلا استفاده ماندن پویایی و انعطاف ابر در اجرا، مجموعه ایستا و ثابت گره بهبود مقیاسپذیری در هادوپ 9
راه حل • مقیاسپذیری خودکار • تعریف • اهداف • بهینهسازی منابع بکار رفته • حداقلکردن دخالت انسان • برای تطبیق با تقاضای غیرمنتظره • تخصیص خودکار منبع براساس شرایط بدون مداخله انسان بهبود مقیاسپذیری در هادوپ 10
هدف ارتقا توانایی هادوپ برای تطبیق با بار اضافی و یا بهرهوری کم منبع در طول اجرای کار و بصورت «خودکار». بهبود مقیاسپذیری در هادوپ 11
فهرست مطالب 1 2 3 4 5 مقدمه شرح مسئله کارهای مرتبط روش پیشنهادی نتیجهگیری و پیشنهادات آینده بهبود مقیاسپذیری در هادوپ 12
جمع بندی کارهای مرتبط بهبود مقیاسپذیری در هادوپ 13
فهرست مطالب 1 2 3 4 5 مقدمه شرح مسئله کارهای مرتبط روش پیشنهادی نتیجهگیری و پیشنهادات آینده بهبود مقیاسپذیری در هادوپ 14
روش پیشنهادی بهبود مقیاسپذیری در هادوپ 15
معماری سازوکار پیشنهادی سازوکار پیشنهادی هادوپ (نگاشت کاهش + سیستم فایل توزیع شده) مدیر منبع خوشه هادوپ … گره n گره 2 گره 1 زیرساخت بهبود مقیاسپذیری در هادوپ 16
روند اجرای روش پیشنهادی • اندازهگیری وضعیت یا عملکرد منابع موردنظر • نگاشت نیازمندیها بر منابع • مقایسه مقادیر اندازهگیری شده با آستانههای ظرفیت • تبدیل پیشبینیهای بارکاری به نیازمندیها • پیشبینی بارکاری آینده بهبود مقیاسپذیری در هادوپ 17
ارزیابی و نتایج آن بهبود مقیاسپذیری در هادوپ 23
معیارهای ارزیابی بهبود مقیاسپذیری در هادوپ 24
شرایط هر پیرو ا هسته پردازنده 2 گیگا بایت حافظه اصلی 8 گیگا بایت دیسک نصب هادوپ نسخه 2 نصب پایگاه داده RRDtool 1.4.x بر روی تمامی پیروها بهبود مقیاسپذیری در هادوپ 25
حالات و شرایط ارزیابی اندازهگیری وضعیت خوشه هادوپ در 1 ساعت مستمر ارجاع 15 کار نگاشتکاهش محاسبه عدد pi، بصورت موازی پس از سپریشدن 15 دقیقه پس از اتمام این کارها، ارجاع 15 کار دیگر با همان شرایط حالات ارزیابی • با 2 گره پیرو : 2 گره ثابت • با 4 گره پیرو : 4 گره ثابت • شروع با 2 گره و کاهش تا 2 گره و افزایش تا 4 گره : 2 گره خودکار • شروع با 4 گره و کاهش تا 2 گره و افزایش تا 4 گره : 4 گره خودکار بهبود مقیاسپذیری در هادوپ 26
تعداد گرههای فعال در خوشه بهبود مقیاسپذیری در هادوپ 27
میانگین زمان اتمام کار بهبود مقیاسپذیری در هادوپ 28
میانگین تعداد کارهای منتظر در صف بهبود مقیاسپذیری در هادوپ 29
میانگین بهرهوری پردازنده کل خوشه بهبود مقیاسپذیری در هادوپ 30
فهرست مطالب 1 2 3 4 5 مقدمه شرح مسئله کارهای مرتبط روش پیشنهادی نتیجهگیری و پیشنهادات آینده بهبود مقیاسپذیری در هادوپ 31
مقایسه حالات ارزیابی برحسب درصد بهبود مقیاسپذیری در هادوپ 32
جمعبندی راهحل نتیجه مشکل افزایش زمان اتمام کار: 17-12 درصد بهبود تعداد گره های فعال: 77-73 درصد بهبود بهرهوری پردازنده: 79-78 درصد بهبود مصرف انرژی و بهبود بهرهوری خوشه افزایش تعداد کارهای منتظر: 39-22 درصد مقیاسپذیری خودکار با سازوکار پیشنهادی نوشتن ابزاری برای نظارت بر خوشه هادوپ بارکاری اخیر و کارهای منتظر برای پیشبینی نیاز به دخالت انسان و توقف اجرای خوشه بهرهوری کم منبع در اثر تعداد گره ثابت عدم تطبیق با افزایش نیاز و غیرمنتظره بهبود مقیاسپذیری در هادوپ 33
پیشنهادات آینده دستهبندی مقیاسپذیری به داده و پردازش و نیاز به حافظه و پردازنده اضافه و کمکردن بیش از یک گره از خوشه درصورت ورود و خروج پشت سر هم کارها اضافهکردن معیارهایی دیگر از جمله ساعات و روزهای هفته، استفاده از پهنای باند شبکه ، میزان استفاده از حافظه و میزان مصرف دیسک از نظارت به معیارهای مقیاسپذیری حذف گرهها با در نظر گرفتن پرداخت ساعتی هزینه استفاده از واسطهای برنامهنویسیکاربردی OpenStack به جای ساخت ماشینهای مجازی در VMWareبرای راهاندازی خوشه و اضافه و کمکردن گره به صورت خودکار بهبود مقیاسپذیری در هادوپ 34
مقاله مستخرج از پایان نامه Jam, M.R. ; Khanli, L.M. ; Akbari, M.K. ; Hormozi, E. ; Javan, M.S, Survey on Improved AutoScaling in Hadoopinto Cloud Environments, Information and Knowledge Technology (IKT), 2013 5th Conference on, Page(s):19 – 23, Shiraz, 28-30 May 2013 (Serial No: 978-1-4673-6489-8). بهبود مقیاسپذیری در هادوپ 35
مراجع Riteau, P., K. Keahey, and C. Morin. Bringing Elastic MapReduce to Scientific Clouds. in 3rd Annual Workshop on Cloud Computing and Its Applications: Poster Session. 2011. Sharma, B., et al., Mrorchestrator: A fine-grained resource orchestration framework for hadoopmapreduce. 2012, Technical Report CSE-12-001, Pennsylvania State University. Asadullah, A.M., et al. A data-centric heuristic for Hadoop provisioning in the cloud. in Proceedings of the 6th ACM India Computing Convention. 2013. ACM. Vavilapalli, V.K., et al.Apache hadoop yarn: Yet another resource negotiator. in Proceedings of the 4th annual Symposium on Cloud Computing. 2013. ACM. Sarma, J.S. Industry’s First Auto-Scaling Hadoop Clusters. June 2012; Available from: http://www.qubole.com/blog/index.php/first-auto-scaling-hadoop-hive-clusters. Elastic Hadoop on OpenStack. Dec 5, 2013; Project Savanna: Operational agility & deployment flexibility across public and private clouds for Hadoop]. Available from: http://hortonworks.com/labs/openstack/. Elmeleegy, K., Piranha: Optimizing short jobs in hadoop. Proceedings of the VLDB Endowment, 2013. 6(11): p. 985-996. بهبود مقیاسپذیری در هادوپ 36
مراجع (ادامه) T. Römer, "AutoscalingHadoop Clusters," MSc thesis, University of Tartu, 2010. J. Leverich, C. Kozyrakis, “On the energy (in)efficiency of hadoop clusters,” In HotPower, 2010. D. Warneke, O. Kao, “Exploiting dynamic resource allocation for efficient parallel data processing in the Cloud,” Parallel and Distributed Systems, IEEE Transactions on 22 (6) (2011) 985 –997, 2011. N. Maheshwari, R. Nanduri, V. Varma, “Dynamic energy efficient data placement and cluster reconfiguration algorithm for MapReduce framework,” Future Generation Computer Systems, vol. 28, no. 1, pp. 119–127, 2012. Y. Chen, S. Alspaugh, D. Borthakur, R. Katz, “Energy Efficiency for Large-Scale MapReduce Workloads with Significant Interactive Analysis,” Proceedings of the 7th ACM european conference on Computer System, pp. 43-56, 2012. R. Kaushik, M. Bhandarkar, K. Nahrsted, “Evaluation and Analysis of GreenHDFS: A Self-Adaptive, Energy-Conserving Variant of the Hadoop Distributed File System,” IEEE, 2012. بهبود مقیاسپذیری در هادوپ 37
با تشکر از توجه شما بهبود مقیاسپذیری در هادوپ 38