1 / 43

Big Data

Big Data. GV: TS Võ Đình Hiếu Thực hiện : Phạm Công Thiên Lý Dương Bà Cường Nguyễn Khắc Chung Đinh Anh Thái. Nội dung. Giới thiệu Big Data Các thành phần Big Data Tổ chức lưu trữ dữ liệu BigData Giải pháp Big data của Oracle. Giới thiệu BIG DATA. BIG DATA ?.

arne
Download Presentation

Big Data

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Big Data GV: TS VõĐìnhHiếu Thựchiện: PhạmCôngThiênLý DươngBàCường NguyễnKhắc Chung Đinh Anh Thái

  2. Nội dung • Giớithiệu Big Data • Cácthànhphần Big Data • TổchứclưutrữdữliệuBigData • Giảipháp Big data của Oracle

  3. Giớithiệu BIG DATA

  4. BIG DATA ? • Lànhữngsốlượngkhủngvềcáchồsơkháchhàng, âmthanh, hìnhảnh, vănbản…

  5. BIG DATA ? • Dữliệucósốlượnglớncầnđượclưutrữnhư • Truyềnthống: thông tin kháchhàng, giaodịch… • Thu thậptựđộng qua cảmbiến: thờitiết, nhậtký… • Mạngxãhội: comment trênfacebook, twitter… • Đặctrựng • Sốlượng • Tốcđộ • Đadạng • Giátrị

  6. Big Data

  7. Dung lượng • Nhucầulưutrữngàycàngtăng • 2000: 800000 (PB) lưutrữtrênthếgiới(*) • 2020: 35 ZB trêntoànthếgiới?(*) • Làmthếnàođểquảnlý? • Dữ liệu càng lớn thì: • Khảnăngxửlýgiảm? • Phântíchdữliệugiảm • Truyxuấtchậm (*)Sốliệutừ IBM 1ZB = 1021 bytes 1PB = 1015 bytes

  8. Đadạng • Dữliệuđếntừnhiềunguồn: • Cảmbiến • Smart device • Mạngxãhội • Tin tức • … • Dữliệuphứctạp • Truyềnthốngvàkhôngtruyềnthống • Cócấutrúc, báncấutrúc, khôngcấutrúc…

  9. Tốcđộ • Khốilượngdữliệulàrấtlớn tốcđộtruyxuấtchậm • Yêucầutừngườisửdụng: • Nhanh • Ổnđịnh • Chínhxác

  10. Tầmquantrọng Big Data • Mangtớisựhiểubiếtsâusắchơnchodoanhnghiệp • Làsựtồntạicủadoanhnghiệp • Mangtớisựhiểubiếtmới

  11. Cácthànhphần Big Data

  12. Cácthànhphần

  13. Cácthànhphần • Quảnlýdữliệu: cơsởhạtầnglưutrữdữliệu, vànguồnđểthaotácnó. • Phântíchdữliệu: côngnghệvàcáccôngcụđểphântíchcácdữliệuvàthuthậphiểubiếtsâusắctừnó • Sửdụngdữliệu: đưadữliệulớnđãphântíchđểphụcvụtrongKinhdoanhthông minh vàcácứngdụngcủangườidùngcuối

  14. Quảnlýdữliệu • Hệdữliệucócấutrúc • Hệthốngquảnlýcơsởdữliệuquanhệ(RDBMS): đểlưutrữvàthaotácdữliệucócấutrúc. • HệthốngMPP: tậphợpdữliệuđồsộngàycànglớnthêmvàtăngcườngdữliệutăngtrưởng. • Khodữliệu: tậphợpvàlưutrữdữliệuchocácbáocáosaunày. • Hạnchế • Khómởrộng, hiệusuấtchậmlại. • Biểudiễndữliệu

  15. Quảnlýdữliệu • Hệdữliệukhôngcấutrúc: phùhợpchoviệclưutrữdữliệucócấutrúcphứctạpvàdễdàngmởrộng • Dữliệu • Dữliệucócấutrúcvàkhôngcócấutrúc • Lấytừnhiềunguồnvớikíchcỡkhácnhau • Dữliệuthườngrấtlớn, yêucầutốcđộxửlýcao  Yêucầutổchứcdữliệuđểđápứng: Apache Hadoop

  16. Phântíchdữliệu • Lànơimàcáccôngtybắtđầutríchxuấtgiátrịdữliệulớn. • Liênquantớiviệcpháttriểncácứngdụngvàsửdụngcácứngdụngđểđạtđượccáinhìnsâusắcvàodữliệulớn. • Xâydựngcác tool phântíchdữliệu

  17. Sửdụngdữliệu • Làcáchoạtđôngtrêndữliệuđượcphântích

  18. TổchứclưutrữdữliệuBigData

  19. Hadoop • GiớithiệuvềHadoop • CácthànhphầncủaHadoop • HDFS (Hadoop Distributed file System)

  20. Hadooplàgì? • Mộtnềntảngứngdụnghỗtrợcácứngdụngphântánvớidữliệurấtlớn • Hàng terabyte • Hàngngàn node • Cungcấpphươngtiệnlưutrữdữliệutrênnhiều node, hỗtrợtốiưuhóalưulượngmạng.

  21. ThànhphầncủaHadoop • Xửlý (MapReduce): một framework giúppháttriểncácứngdụngphântántheomôhìnhMapReducemộtcáchdễdàngvàmạnhmẽ. • Lưutrữ (HDFS): hệ thống file phân tán, cung cấp khả năng lưu trữ dữ liệu khổng lồ vàtính năng tối ưu hoá việc sử dụng băng thông giữa các node.

  22. Hadoop Distributed file System

  23. Hadoop Distributed file System

  24. Kiếntrúccủa HDFS

  25. Kiếntrúccủa HDFS • Name node: Đóngvaitròlà master củahệthống HDFS, quảnlýthông tin các file, block id tươngứngchotừng file • Block: đơn vị lưu trữ dữ liệu nhỏ nhất • Hadoop dùng mặc định 64MB/block • Một file chia làm nhiều block • Các block chứa ở bấtkỳ node nàotrong cluster • DataNode: Chứacác block

  26. Kiếntrúccủa HDFS • JobTracker: tiếpnhậncácyêucầuthựcthicácMapReduce job. • Phânchia job vàgiao task cho task tracker • Quảnlýtìnhtrạngcủatừng node • TaskTracker: • Nhậncác task từjobTrackervàthựchiện task

  27. Cơchếhoạtđộng HDFS

  28. Cơchếhoạtđộng HDFS • Đọc • client yêucầuđọcdữliệutừ Name Node, namenodetrảvềvịtrícác block củadữliệu • Chươngtrìnhtrựctiếpyêucầudữliệutạicác node

  29. Cơchếhoạtđộng HDFS • Ghi • Ghitheodạngđườngống (pipeline) • client yêucầuthaotácghi ở Name Node • Namenodekiểmtraquyềnghivàđảmbảo file khôngtồntại • Cácbảnsaocủa block tạothànhđườngốngđểdữliệutuầntựđượcghivào

  30. Hadoop Distributed file System • Ưuđiểm • Lưutrữđượclượng file rấtlớn • Truycậpdữliệutheodòng • Liênkếtdữliệuđơngiản • Phầncứngphổthông, đadạng • Tựđộngpháthiệnlỗi, phụchồidữliệunhanh • Nhượcđiểm • Cóđộtrễtruycập • Khôngthểlưutrữquánhiều file trêncùng 1 cluster

  31. Hadoop Common • TậphợpcácthưviệnhỗtrợchoHadoop • Baogồmtậpcáclệnh • Cat copy file tớibộrachuẩn(stdout) • Chmodchuyểnquyềnđọcvàghichomột file • Chownchuyểnquyềnsởhữucủamột file hoặc 1 tậphợp file • ……

  32. MapReduce • Quảnlýtiếntrình song song, phântán, sắpxếplịchtrình I/O • Quảnlýtrạngtháidữliệu • Quảnlýsốlượnglớndữliệucóquanhệphụthuộcnhau • Xửlýlỗi • Trừutượnghóavớilậptrìnhviên

  33. MapReduce

  34. Oracle Big Data

  35. Tổngquan

  36. Oracle Big data • Làsựkếthợpcảphầncứngvàphầnmềm • Phầncứng: • 18 server Sun • Dung lượng 648TB • 2CPU/server, 6 nhân/CPU  216 nhân • 48GB RAM

  37. Oracle Big data • Phầnmềm • BảnđầyđủcủaCloudera’s Distribution( baogồmcả Apache Hadoop) (CDH) • Cloudera manager: đểquảntrịCloudera CDH • Gói R làmộtmãnguồnmởchoviệcphântíchdữliệuchưađượcxửlýtrên Oracle Big Data • Oracle NoSQL database • Hệđiềuhành Oracle Enterprise Linux cùngvới Oracle Java VM

  38. Oracle Big data • Cácthànhphầnchính • CDH vàCloudera Manager • Oracle Big data connectors • Oracle Loader choHadoop • Oracle Direct Connector for Hadoop Distributed file system • Oracle data intergator application adapter choHadoop • Oracle R connector for Hadoop • Oracle NoSQL database

  39. Phântíchdữliệu • Vídụ: • Hệthốngbánhàng online  cácđốitượngđượcxácđịnhrõràng

  40. Phântíchdữliệu

  41. Phântíchdữliệu • Vídụ: • Dữliệuđượcthuthậptừnhiềunguồn, kocócấutrúc

  42. Phântíchdữliệu

  43. Tàiliệuthamkhảo • Big-Data Computing: Creating revolutionary breakthroughs in commerce, science, and society (Randal E. Bryant Carnegie Mellon University, Randy H. Katz University of California, Berkeley, Edward D. Lazowska University of Washington) • Understanding the Elements of Big Data: More than a Hadoop Distribution(Martin Hall, Founder, Karmasphere) • Big Data The power and possibilities of Big Data • Basic Data Analysis Tutorial • Oracle: Big Data for the enterprise

More Related