500 likes | 702 Views
Chapter 5 . DATA WAREHOUSING. Learning Objectives. ทำความเข้าใจถึงนิยามและแนวความคิดพื้นฐานของ data warehouses ทำความเข้าใจถึงสถาปัตยกรรมของ data warehouse อธิบายถึงกระบวนการที่ใช้ในการพัฒนาและจัดการกับ data warehouse อธิบายการปฏิบัติงานที่เกี่ยงข้องกับ data warehouse
E N D
Chapter 5 DATA WAREHOUSING
Learning Objectives • ทำความเข้าใจถึงนิยามและแนวความคิดพื้นฐานของ data warehouses • ทำความเข้าใจถึงสถาปัตยกรรมของ data warehouse • อธิบายถึงกระบวนการที่ใช้ในการพัฒนาและจัดการกับ data warehouse • อธิบายการปฏิบัติงานที่เกี่ยงข้องกับ data warehouse • อธิบายบทบาทของ data warehouse ที่สนับสนุนการตัดสินใจ • อธิบายการรวมข้อมูลและ the extraction, transformation, and load (ETL) processes • อธิบาย real-time (active) data warehousing • ทำความเข้าใจเรื่องเกี่ยวกับ data warehouse administration และ security
Data Warehousing Definitions and Concepts • คลังข้อมูล (Data warehouse) A physical repository that relational data are specially organized to provide enterprise-wide, cleansed data in a standardized format • คุณลักษณะของคลังข้อมูล • 1. Organization ข้อมูลจะถูกจัดเป็นรูปแบบ organized โดย แบ่งเป็นหมวดหมู่ เช่น กลุ่มลูกค้า ผู้ให้บริการ สินค้า ราคา สถานที่ และข้อมูลที่สำคัญเพื่อช่วยในการระบบสนับสนุนการตัดสินใจ • 2. Consistency ข้อมูลในงานด้านฐานข้อมูลที่แตกต่างกัน อาจจะใช้กระบวนการ encode ที่แตกต่างกัน เช่น ข้อมูลที่เกี่ยวกับเพศอาจจะแทนค่าด้วย 0 และ 1 ในระบบฐานข้อมูลหนึ่ง ในอีกระบบอาจใช้เป็น M และ L
3. Time variant ข้อมูลที่เก็บเป็นเวลานานหลาย ๆ ปี สามารถนำมาใช้ได้โดยการดูจากแนวโน้ม โดยการพยากรณ์ และการเปรียบเทียบ • 4. Nonvolatile เมื่อนำข้อมูลเข้าสู่ warehouse ข้อมูลจะไม่ถูกเปลี่ยแปลงหรือ update • 5. Relational โดยทั่วไป Data warehouse จะเชื่อมโยงด้วยโครงสร้างความสัมพันธ • 6. Client/Server สำหรับ Data warehouse จะใช้สถาปัตยกรรมลักษณะ Client/Server เป็นหลักในการรองรับการ access ข้อมูลโดย user • 7. Web-based ปัจจุบัน Data warehouse ถูกออกแบบให้รองรับการทำงานในลักษณะ Web base application • 8. Integration ข้อมูลที่มีอยู่เดิม หรือที่มีอยู่แล้วสามารถนำมารวบรวมกันได้ และ Web services เป็นเครื่องมือสำหรับรองรับการ Integration
9. Real time แม้ว่า application ส่วนใหญ่ของ Data warehousing อาจยังไม่ทำงานแบบ real time แต่ในไม่ช้าก็จะสามารถรองรับการทำงาน real time มากขึ้น • สำหรับการเริ่มสร้าง และ ทำการดำเนิการ Data warehousing จะเริ่มค่อยพบปัญหา เนื่องจาก การทำ Data warehousing นั้นเป็นโครงการที่ใหญ่ และค่าใช้จ่ายที่ลงทุนนั้นสูง แต่สิ่งสำคัญนั้น คือ การทำความเข้าใจกับองค์ประกอบหลัก ที่สำคัญต่อการสร้างและใช้งาน เราพอสรุปปัจจัยที่มีผลต่อการนำ Data warehouse มาใช้งานได้ดังต่อไปนี้ • 1. สิ่งแรกที่ต้องตอบคำถามคือ ผู้บริหารระดับ หรือ การจัดการ หรือ เครืองในการจัดการรองรับ Data warehousing แล้วหรือไม่
2. ต่อมาในระดับผู้ปฎิบัติงานมีความรู้และเข้าใจเกี่ยวกับ Data warehousing มากน้อยเพียงใด • 3. ผู้ปฎิบัติงานมีความต้องการเข้าถึงข้อมูลแบ่งออกเป็นกี่ระดับ • 4. ตัองการเครื่องมือช่วยในการวิเคราะห์หรือไม่ • 5. ผู้ปฎิบัติงานมีความเข้าใจและเห็นถึงประสิทธิภาพและข้อดีเกี่ยวกับ Data warehousing เข้ามาช่วยแก้ไขปัญหาในด้านธุรกิจอย่างไรบ้าง • 6. ผู้ปฎิบัติงานมีความเข้าใจในเทคโนโลยีที่ช่วยให้การทำงานของเขาให้ดีขึ้น • 7. ในหน่วยงานนั้นมีบุคลากรที่มีความรู้และเข้าใจเกี่ยวกับเทคโนโลยี data warehousing จำนวนมากน้อยขนาดใหน
Data Warehousing Definitions and Concepts • Data mart เป็น departmental data warehouse ที่ใช้เก็บเฉพาะข้อมูลที่เกี่ยวข้องกับของ department นั้น ๆ • Dependent data mart เป็น subset ซึ่งสร้างโดยตรงมาจาก data warehouse โดยการดึงข้อมูลของ department นั้น ๆ ที่ต้องใช้มาจาก data warehouse • Independent data mart data warehouse ขนาดเล็กที่ออกแบบมาสำหรับ strategic business unit หรือ department หนึ่ง ๆ และไม่เกี่ยวข้องกับใคร • Operational data stores (ODS) เป็น database ประเภทหนึ่งที่ใช้ในเชิงเป็นพื้นที่กลาง (interim area) สำหรับทำเป็น data warehouse มักใช้สำหรับเก็บไฟล์สารสนเทศของลูกค้า
Data Warehousing Definitions and Concepts • Oper marts ย่อมาจาก operational data mart เป็น small-scale data mart ในทางปฏิบัติแล้วถูกใช้โดยแผนกหนึ่ง ๆ หรือ พื้นที่เชิงฟังก์ชันหนึ่ง ๆ ในองค์กร • Enterprise data warehouse (EDW) เทคโนโลยีที่ใช้จัดเก็บข้อมูลหรือสารสนเทศขององค์กรขนาดใหญ่ไว้ที่เดียวกัน • Metadata ข้อมูลที่ใช้เป็นตัวแสดงแทนกลุ่มข้อมูลใน data warehouse เราใช้ metadata อธิบายถึงบริบท (content) ของ data warehouse และ นัยของการนำไปใช้งาน
Data Warehousing Process Overview • องค์กรจะมีการรับวรวมข้อมูล สารสนเทศ และ องค์ความรู้อย่างต่อเนื่อง สิ่งเหล่านี้จะมีอัตราการเพิ่มขึ้นอย่างรวดเร็วและมันจะถูกเก็บอยู่ในระบบคอมพิวเตอร์ • จำนวนผู้ใช้ที่ต้องการเข้าถึงสารสนเทศเพิ่มขึ้นอย่างตอเนื่อง โดยผลของการปรับปรุงความเชื่อถือได้และการมีให้ใช้ในวงกว้างของระบบเครือข่าย โดยเฉพาะอย่างยิ่ง Internet • องค์ประกอบหลัก ๆ ของกระบวนการ data warehouse ประกอบด้วย Data sources Data extraction Data loading Comprehensive database Metadata Middleware tools
Data Warehousing Architectures • เรื่องที่ควรพิจารณาเมื่อตัดสินใจจะเลือกสถาปัตยกรรมใดมาใช้งานก็คือ: • Database management system (DBMS) แบบใดที่ควรนำมาใช้? • จะใช้แบบ parallel processing และ/หรือ partitioning? • จะใช้เครื่องมือสำหรับทำ data migration หรือไม่ ในการโหลด data warehouse? • เครื่องมืออะไรที่ควรใช้เพื่อสนับสนุนการดึงข้อมูลและการวเคราะห์?
Data Warehousing Process Overview Extraction, Transformation, Load
Information interdependence between organizational units Upper management’s information needs Urgency of need for a data warehouse Nature of end-user tasks Constraints on resources 6. Strategic view of the data warehouse prior to implementation 7. Compatibility with existing systems 8. Perceived ability of the in-house IT staff 9. Technical issues 10. Social/political factors Data Warehousing Architectures Ten factors that potentially affect the architecture selection decision:
Data Integration and the Extraction, Transformation, and Load (ETL) Process • Data integration การรวมกันหมายถึงการทำงานร่วมกันของสามกระบวนการหลักคือ data access, data federation และ change capture เมื่อทั้งสามกระบวนการมีการนำมาใช้งานอย่างถูกต้อง ข้อมูลก็จะถูกเข้าถึงและถูกจัดให้เหมาะแก่การเข้าถึง ผ่านทาง array ของ ETL และเครื่องมือที่ใช้วิเคราะห์ และสภาพแวดล้อมของ data warehousing • Enterprise application integration (EAI) เทคโนโลยีที่ใชจัดให้มี vehicle สำหรับผลักข้อมูล (pushing data) จาก source systems ไปสู่ data warehouse • Enterprise information integration (EII) An evolving tool space that promises real-time data integration from a variety of sources, such as relational databases, Web services, and multidimensional databases
Data Integration and the Extraction, Transformation, and Load (ETL) Process • Extraction, transformation, and load (ETL) คือกระบวนการของ data warehouse ที่ประกอบด้วย การคัดแยก (extraction) (เช่นการอ่านข้อมูลจากฐานข้อมูล) การเปลี่ยนรูปแบบ (transformation) (เช่น การเปลี่ยนข้อมูลที่ถูกคัดแยกจากรูปแบบเดิมไปเป็นรูปแบบที่ต้องการเพื่อสามารถวางลงใน data warehouse ได้ หรือ ฐานข้อมูลอื่นได้) และ การโหลด (load) (เช่น การวางข้อมูลลงใน data warehouse)
Data Integration and the Extraction, Transformation, and Load (ETL) Process Data cleanse หมายถึงการ detect หรือ correct (หรือ remove)corrupt หรือ inaccurate records จาก record set
Data Integration and the Extraction, Transformation, and Load (ETL) Process • เรื่องที่มีผลกระทบเมื่อองคืกรจะจัดซื้อ data transformation tools หรือสร้างกระบวนการเปลี่ยนผ่าน (transformation process) ขึ้นมา • Data transformation tool มีราคาแพง • Data transformation tool อาจต้องใช้เวลาในการเรียนรู้เพื่อใช้งานยาวนาน • มันเป็นการยากที่จะวัดว่า ฝ่าย IT ขององค์กรกำลังทำอย่างไรจนกว่าเขาจะได้เรียนรู้ในการใช้งาน data transformation tool เสียก่อน
Data Integration and the Extraction, Transformation, and Load (ETL) Process • หลักเกณฑ์ที่สำคัญในการเลือก ETL tool • ความสามารถในการอ่านจากและเขียนไปยัง unlimited number of data source architectures • Automatic capturing and delivery of metadata • A history of conforming to open standards • An easy-to-use interface for the developer and the functional user
Data Warehouse Development • ประโยชน์โดยตรงของ data warehouse • ยอมให้ผู้ใช้ดำเนินการวิเคราะห์ข้อมูลได้หลากหลายมากขึ้น (วิเคราะห์ได้หลายแบบ) • ยอมให้มองภาพของcorporate data รวมเป็นภาพเดียวกัน • ได้สารสนเทศที่แปรตามเวลาได้มากขึ้นและดีขึ้นกว่าเดิม • ขยายประสิทธิภาพการดำเนินงานของระบบ • การเข้าถึงข้อมูลทำได้ง่าย
Data Warehouse Development • ผลลัพธ์อันเป็นประโยชน์โดยอ้อมจากผู้ใช้ • ขยายองค์ความรู้ทางด้านธุรกิจ • ก่อให้เกิดความได้เปรียบในการแข่งขันในปัจจุบัน • ขยายการให้บริการลูกค้า ก่อให้เกิดความพึงพอใจมากขึ้น • มีส่วนช่วยในการทำการตัดสินใจ • ช่วยในการจัดรูปแบบกระบวนการทางธุรกิจแบบใหม่ ๆ
Data Warehouse Development • Data warehouse vendors • หกแนวทางในการพิจารณาเลือกผู้ขาย: • Financial strength • ERP linkages • Qualified consultants • Market share • Industry experience • Established partnerships
Data Warehouse Development • แนวทางในการพัฒนา Data warehouse • Inmon Model: EDW approach • Kimball Model: Data mart approach • รูปแบบใดดีกว่า? • There is no one-size-fits-all strategy to data warehousing • One alternative is the hosted warehouse
Data Warehouse Development • โครงสร้างของ Data warehouse: The Star Schema • Dimensional modeling A retrieval-based system that supports high-volume query access • Dimension tables A table that address how data will be analyzed
Data Warehouse Development • Grain A definition of the highest level of detail that is supported in a data warehouse • Drill-down The process of probing beyond a summarized value to investigate each of the detail transactions that comprise the summary
Data Warehouse Development • เรื่องเกี่ยวกับการนำ Data warehousing มาใช้งาน • การนำ data warehouse มาใช้งานโดยทั่วไปแล้วต้องทุ่มเทความมานะพยายามอย่างมากในการวางแผนและการดำเนินตามแผนให้เป็นไปตามวิธีการที่ได้จัดทำไว้แล้ว • ต้องถือว่ามีงานมากมายหลายส่วนใน project lifecycle และคงไม่มีใครคนใดคนหนึ่งเป็นผู้ชำนาญในด้านใดด้านหนึ่งแต่เพียงผู้เดียว
Establishment of service-level agreements and data-refresh requirements Identification of data sources and their governance policies Data quality planning Data model design ETL tool selection Relational database software and platform selection Data transport Data conversion Reconciliation process Purge and archive planning End-user support Data Warehouse Development Eleven major tasks that could be performed in parallel for successful implementation of a data warehouse (Solomon, 2005) :
Data Warehouse Development • Best practices บางอย่างในการนำ data warehouse มาใช้งาน (Weir, 2002): • โครงการต้องเหมาะสมกับ corporate strategy และ business objectives • ระดับ executives, managers, และ users ต้อง complete buy-in ในโครงการ • ถือเป็นเรื่องที่สำคัญในการจัดการเกี่ยวกับความคาดหวังของผู้ใช้เมื่อโครงการแล้วเสร็จ • Data warehouse ต้องถูกสร้างในเชิง incrementally • ใส่ความสามารถในการปรับตัวเข้าไปในการทำงาน • โครงการต้องถูกจัดการทั้ง IT และ business professionals • พัฒนาความสัมพันธ์ระหว่าง business กับ supplier
Data Warehouse Development • มีเพียงข้อมูลที่ต้องโหลดเท่านั้นที่ต้องถูก cleansed และองค์กรต้องเข้าใจเรื่องคุณภาพของข้อมูลเป็นอย่างดี • อย่างมองข้ามเรื่องการฝึกอบรมที่จำเป็น • ระมัดระวังเรื่องการเมือง
Data Warehouse Development • ปัจจัยที่ทำให้โครงการ data warehouse ล้มเหลว: • ละเลยในเรื่องวัฒนธรรมขององค์กร • เลือกใช้สถาปัตยกรรมไม่เหมาะสมกับองค์กร • เป้าประสงค์ทางด้านธุรกิจไม่ชัดเจน • ละเลยสารสนเทศที่สำคัญ ๆ • มีความคาดหวังที่ไม่สามารถเป็นจริงได้ • Low levels of data summarization • คุณภาพของข้อมูลแย่ (Low data quality)
Data Warehouse Development • เรื่องที่ต้องนำมาพิจารณาในการสร้าง data warehouse ให้ประสบผลสำเร็จ: • การเริ่มต้นด้วย wrong sponsorship chain • การกำหนดความคาดหวังว่า ท่านไม่สามารถทำได้และก่อให้เกิดความวิตกกังวลแก้ผู้บริหารระดับสูงในเรื่องที่ท่านเชื่อ • เผชิญกับเรื่องการเมืองในเชิงพฤติกรรมที่เคยทำ ๆ กันมานานแล้ว • การโหลดสารสนเทศเข้าสู่ warehouse ก็เพราะว่ามันมีอยู่แล้ว (ไม่ได้พิจารณาว่าจำเป็นหรือไม่ ถูกต้องหรือไม่) • การเชื่อว่า การออกแบบฐานข้อมูลใน data warehouse ก็เหมือนกับการออกแบบ transactional database
Data Warehouse Development • การเลือกผู้จัดการ data warehouse เอามาจากคนเก่งเรื่องเทคโนโลยี แทนที่จะเป็นคนที่มุ่งเน้นไปที่ผู้ใช้ • มุ่งเน้นไปที่ traditional internal record-oriented data และละเลยคุณค่าของ external data และละเลยเรื่องเกี่ยวกับ text, images และอาจรวมถึง sound และ video • การส่งมอบ data ที่มีการนิยามที่ overlap กัน และ เกิดความสับสน • การเชื่อในคำสัญญาทางด้าน performance, capacity, และ scalability • การเชื่อว่าปัญหาของท่านจะจบสิ้นทันทีเมื่อ data warehouse ถูกตั้งขึ้นและใช้งานได้ • การมุ่งเน้นที่ ad hoc data mining และ periodic reporting แทนที่จะเป็นการแจ้งเตือน (alert)
Data Warehouse Development • ปัจจัยการนำมาใช้งานสามารถแบ่งออกได้เป็น 3 หลักเกณฑ์ คือ • Organizational issues • Project issues • Technical issues • การมีส่วนร่วมของผู้ใช้ในการพัฒนาข้อมูลและรูปแบบในการเข้าถึงเป็นปัจจัยที่วิกฤติต่อความสำเร็จของการพัฒนา data warehouse
Data Warehouse Development • Data warehouses ขนาดใหญ่และ scalability • เรื่องหลัก ๆ ที่เกี่ยวข้องกับ scalability: • จำนวนข้อมูลใน warehouse • การคาดการว่า Warehouse จะโตขึ้นเร็วขนาดไหน • จำนวนของผู้ใช้งานพร้อม ๆ กันในปัจจุบัน • ความซับซ้อนของ user queries • Good scalability หมายถึง การ queries และ data-access function ต่าง ๆ โตเป็นเชิงเส้นไปกับขนาดของ warehouse
Real-Time Data Warehousing • Real-time (active) data warehousing กระบวนการในการโหลดและส่งผ่านข้อมูลผ่านทาง data warehouse ทันที่ที่มีข้อมูลเกิดขึ้น • ระดับของ data warehouses: • รายงานว่าอะไรเกิดขึ้น • ทำการวิเคราะห์ว่าบางสิ่งบางอย่างเกิดขึ้น 3. จัดให้มีความสามารถทางด้าน prediction 4. Operationalization 5. Becomes capable of making events happen
Real-Time Data Warehousing • ความต้องการ real-time data • ธุรกิจไม่สามารถทนรอได้ทั้งวันสำหรับ operational data ที่จะโหลดเข้าสู่ data warehouse เพื่อทำการวิเคราะห์ • ก่อให้เกิดreal-time data ที่เพิ่มขึ้นตลอดเวลาทำให้เห็นทุก ๆ ขั้นตอนที่เปลี่ยนแปลงและ almost analogous patterns over time • การรักษา metadata ให้ sync กันไปสามารถทำได้ • ใช้ทุนต่ำในการพัฒนา ดูแลรักษาและดูและความปลอดภัยของ data warehouse ขนาดใหญ่มาก ๆ ซึ่งข้อมูลพวกนี้เป็นศูนย์กลางของ BI/BA tools • EAI ที่มี real-time data collection สามรถลดหรือขจัด batch processes ที่คลุมเครือออกไปได้
Data Warehouse Administration and Security Issues • Data warehouse administrator (DWA) ผู้ที่มีความรับผิดชอบสำหรับการบริหาร(administration) และ จัดการ (management) เกี่ยวกับ data warehouse • ความมีประสิทธิผลด้านความปลอดภัยใน data warehouse ต้องมุ่งเน้นไปที่สี่ด้านหลัก ๆ คือ: • จัดให้มี effective corporate และ security policies และ procedures • นำ logical security procedures และ techniques มาใช้งาน เพื่อจำกัดการเข้าถึง • จำกัด physical access ทางด้าน data center environment • จัดให้มี effective internal control review process ซึ่งมุ่งเน้นไปที่ security และ privacy
จบหัวข้อที่ 5 • มีคำถามมั๊ยครับ…….