440 likes | 711 Views
Big Data. GV: TS Võ Đình Hiếu Thực hiện : Phạm Công Thiên Lý Dương Bà Cường Nguyễn Khắc Chung Đinh Anh Thái. Nội dung. Giới thiệu Big Data Các thành phần Big Data Tổ chức lưu trữ dữ liệu BigData Giải pháp Big data của Oracle. Giới thiệu BIG DATA. BIG DATA ?.
E N D
Big Data GV: TS VõĐìnhHiếu Thựchiện: PhạmCôngThiênLý DươngBàCường NguyễnKhắc Chung Đinh Anh Thái
Nội dung • Giớithiệu Big Data • Cácthànhphần Big Data • TổchứclưutrữdữliệuBigData • Giảipháp Big data của Oracle
BIG DATA ? • Lànhữngsốlượngkhủngvềcáchồsơkháchhàng, âmthanh, hìnhảnh, vănbản…
BIG DATA ? • Dữliệucósốlượnglớncầnđượclưutrữnhư • Truyềnthống: thông tin kháchhàng, giaodịch… • Thu thậptựđộng qua cảmbiến: thờitiết, nhậtký… • Mạngxãhội: comment trênfacebook, twitter… • Đặctrựng • Sốlượng • Tốcđộ • Đadạng • Giátrị
Dung lượng • Nhucầulưutrữngàycàngtăng • 2000: 800000 (PB) lưutrữtrênthếgiới(*) • 2020: 35 ZB trêntoànthếgiới?(*) • Làmthếnàođểquảnlý? • Dữ liệu càng lớn thì: • Khảnăngxửlýgiảm? • Phântíchdữliệugiảm • Truyxuấtchậm (*)Sốliệutừ IBM 1ZB = 1021 bytes 1PB = 1015 bytes
Đadạng • Dữliệuđếntừnhiềunguồn: • Cảmbiến • Smart device • Mạngxãhội • Tin tức • … • Dữliệuphứctạp • Truyềnthốngvàkhôngtruyềnthống • Cócấutrúc, báncấutrúc, khôngcấutrúc…
Tốcđộ • Khốilượngdữliệulàrấtlớn tốcđộtruyxuấtchậm • Yêucầutừngườisửdụng: • Nhanh • Ổnđịnh • Chínhxác
Tầmquantrọng Big Data • Mangtớisựhiểubiếtsâusắchơnchodoanhnghiệp • Làsựtồntạicủadoanhnghiệp • Mangtớisựhiểubiếtmới
Cácthànhphần • Quảnlýdữliệu: cơsởhạtầnglưutrữdữliệu, vànguồnđểthaotácnó. • Phântíchdữliệu: côngnghệvàcáccôngcụđểphântíchcácdữliệuvàthuthậphiểubiếtsâusắctừnó • Sửdụngdữliệu: đưadữliệulớnđãphântíchđểphụcvụtrongKinhdoanhthông minh vàcácứngdụngcủangườidùngcuối
Quảnlýdữliệu • Hệdữliệucócấutrúc • Hệthốngquảnlýcơsởdữliệuquanhệ(RDBMS): đểlưutrữvàthaotácdữliệucócấutrúc. • HệthốngMPP: tậphợpdữliệuđồsộngàycànglớnthêmvàtăngcườngdữliệutăngtrưởng. • Khodữliệu: tậphợpvàlưutrữdữliệuchocácbáocáosaunày. • Hạnchế • Khómởrộng, hiệusuấtchậmlại. • Biểudiễndữliệu
Quảnlýdữliệu • Hệdữliệukhôngcấutrúc: phùhợpchoviệclưutrữdữliệucócấutrúcphứctạpvàdễdàngmởrộng • Dữliệu • Dữliệucócấutrúcvàkhôngcócấutrúc • Lấytừnhiềunguồnvớikíchcỡkhácnhau • Dữliệuthườngrấtlớn, yêucầutốcđộxửlýcao Yêucầutổchứcdữliệuđểđápứng: Apache Hadoop
Phântíchdữliệu • Lànơimàcáccôngtybắtđầutríchxuấtgiátrịdữliệulớn. • Liênquantớiviệcpháttriểncácứngdụngvàsửdụngcácứngdụngđểđạtđượccáinhìnsâusắcvàodữliệulớn. • Xâydựngcác tool phântíchdữliệu
Sửdụngdữliệu • Làcáchoạtđôngtrêndữliệuđượcphântích
Hadoop • GiớithiệuvềHadoop • CácthànhphầncủaHadoop • HDFS (Hadoop Distributed file System)
Hadooplàgì? • Mộtnềntảngứngdụnghỗtrợcácứngdụngphântánvớidữliệurấtlớn • Hàng terabyte • Hàngngàn node • Cungcấpphươngtiệnlưutrữdữliệutrênnhiều node, hỗtrợtốiưuhóalưulượngmạng.
ThànhphầncủaHadoop • Xửlý (MapReduce): một framework giúppháttriểncácứngdụngphântántheomôhìnhMapReducemộtcáchdễdàngvàmạnhmẽ. • Lưutrữ (HDFS): hệ thống file phân tán, cung cấp khả năng lưu trữ dữ liệu khổng lồ vàtính năng tối ưu hoá việc sử dụng băng thông giữa các node.
Kiếntrúccủa HDFS • Name node: Đóngvaitròlà master củahệthống HDFS, quảnlýthông tin các file, block id tươngứngchotừng file • Block: đơn vị lưu trữ dữ liệu nhỏ nhất • Hadoop dùng mặc định 64MB/block • Một file chia làm nhiều block • Các block chứa ở bấtkỳ node nàotrong cluster • DataNode: Chứacác block
Kiếntrúccủa HDFS • JobTracker: tiếpnhậncácyêucầuthựcthicácMapReduce job. • Phânchia job vàgiao task cho task tracker • Quảnlýtìnhtrạngcủatừng node • TaskTracker: • Nhậncác task từjobTrackervàthựchiện task
Cơchếhoạtđộng HDFS • Đọc • client yêucầuđọcdữliệutừ Name Node, namenodetrảvềvịtrícác block củadữliệu • Chươngtrìnhtrựctiếpyêucầudữliệutạicác node
Cơchếhoạtđộng HDFS • Ghi • Ghitheodạngđườngống (pipeline) • client yêucầuthaotácghi ở Name Node • Namenodekiểmtraquyềnghivàđảmbảo file khôngtồntại • Cácbảnsaocủa block tạothànhđườngốngđểdữliệutuầntựđượcghivào
Hadoop Distributed file System • Ưuđiểm • Lưutrữđượclượng file rấtlớn • Truycậpdữliệutheodòng • Liênkếtdữliệuđơngiản • Phầncứngphổthông, đadạng • Tựđộngpháthiệnlỗi, phụchồidữliệunhanh • Nhượcđiểm • Cóđộtrễtruycập • Khôngthểlưutrữquánhiều file trêncùng 1 cluster
Hadoop Common • TậphợpcácthưviệnhỗtrợchoHadoop • Baogồmtậpcáclệnh • Cat copy file tớibộrachuẩn(stdout) • Chmodchuyểnquyềnđọcvàghichomột file • Chownchuyểnquyềnsởhữucủamột file hoặc 1 tậphợp file • ……
MapReduce • Quảnlýtiếntrình song song, phântán, sắpxếplịchtrình I/O • Quảnlýtrạngtháidữliệu • Quảnlýsốlượnglớndữliệucóquanhệphụthuộcnhau • Xửlýlỗi • Trừutượnghóavớilậptrìnhviên
Oracle Big data • Làsựkếthợpcảphầncứngvàphầnmềm • Phầncứng: • 18 server Sun • Dung lượng 648TB • 2CPU/server, 6 nhân/CPU 216 nhân • 48GB RAM
Oracle Big data • Phầnmềm • BảnđầyđủcủaCloudera’s Distribution( baogồmcả Apache Hadoop) (CDH) • Cloudera manager: đểquảntrịCloudera CDH • Gói R làmộtmãnguồnmởchoviệcphântíchdữliệuchưađượcxửlýtrên Oracle Big Data • Oracle NoSQL database • Hệđiềuhành Oracle Enterprise Linux cùngvới Oracle Java VM
Oracle Big data • Cácthànhphầnchính • CDH vàCloudera Manager • Oracle Big data connectors • Oracle Loader choHadoop • Oracle Direct Connector for Hadoop Distributed file system • Oracle data intergator application adapter choHadoop • Oracle R connector for Hadoop • Oracle NoSQL database
Phântíchdữliệu • Vídụ: • Hệthốngbánhàng online cácđốitượngđượcxácđịnhrõràng
Phântíchdữliệu • Vídụ: • Dữliệuđượcthuthậptừnhiềunguồn, kocócấutrúc
Tàiliệuthamkhảo • Big-Data Computing: Creating revolutionary breakthroughs in commerce, science, and society (Randal E. Bryant Carnegie Mellon University, Randy H. Katz University of California, Berkeley, Edward D. Lazowska University of Washington) • Understanding the Elements of Big Data: More than a Hadoop Distribution(Martin Hall, Founder, Karmasphere) • Big Data The power and possibilities of Big Data • Basic Data Analysis Tutorial • Oracle: Big Data for the enterprise