120 likes | 320 Views
Data Warehousing & Data Mining. Nhóm 9: 0512173 Nguyễn Khoa 0512256 Vũ Đình Phong 0512262 Đoàn Thu Phương 0512292 Phạm Minh Sang 0512446 Hồ Hoàng Ánh. Data Warehousing. Định nghĩa Mục đích Đặc trưng Data Modeling. Định nghĩa.
E N D
Data Warehousing & Data Mining Nhóm 9: 0512173 Nguyễn Khoa 0512256 Vũ Đình Phong 0512262 Đoàn Thu Phương 0512292 Phạm Minh Sang 0512446 Hồ Hoàng Ánh
Data Warehousing Định nghĩa Mục đích Đặc trưng Data Modeling
Định nghĩa Kho dữ liệu là tuyển tập các cơ sở dữ liệu tích hợp, hướng chủ đề, được thiết kế để hỗ trợ cho chức năng trợ giúp quyết định Công nghệ kho dữ liệu (Data Warehouse Technology) là tập các phương pháp + kỹ thuật và các công cụ có thể kết hợp, hỗ trợ nhau cung cấp thông tin cho người sử dụng trên cơ sở tích hợp từ nhiều nguồn dữ liệu, nhiều môi trường khác nhau.
Một số loại ứng dụng OLAP (on-line analytical processing):các phân tích phức tạp của dữ liệu từ kho dữ liệu, OLAP sử dụng khả năng tính toán phân tán cho các phân tích, yêu cầu nhiều không gian lưu trữ và sức mạnh xử lý cao DSS (desion-support systems): hỗ trợ đưa ra quyết định có tính lãnh đạo của 1 tổ chức nào đó, với các dữ liệu có mức độ phức tạp và quan trọng Data mining: khám phá, tìm kiếm dữ liệu cho các kiến thức mới không dự biết trước
Vai trò tiện lợi cho việc truy cập theo nhiều nguồn, nhiều kiểu dữ liệu khác nhau kết hợp được cả những ứng dụng của các công nghệ hiện đại + kế thừa từ những hệ thống đã có sẵn
Mục đích của kho dữ liệu khả năng đáp ứng mọi yêu cầu về thông tin của NSD Hỗ trợ nhân viên thực hiện tốt, hiệu quả công việc của mình, (quyết định hợp lý, nhanh, năng suất cao hơn... Giúp cho quản lý và điều hành các dự án, các nghiệp vụ một cách hiệu quả và chính xác. Tích hợp dữ liệu từ nhiều nguồn khác nhau
Đặc tính của kho dữ liệu Tính tích hợp (Integration) Dữ liệu gắn thời gian và có tính lịch sử Dữ liệu có tính ổn định (nonvolatility) Dữ liệu không biến động Dữ liệu tổng hợp
Data Modeling • Các mô hình lưu trữ nhiều chiều liên quan đến hai loại bảng: • Dimension table: chứa đựng các tuple thuộc tính của các chiều. • Fact table: gồm nhiều tuple, mỗi dòng là 1 sự việc đã được ghi nhận
Star-schema • Lượt đồ kho dữ liệu đơn giản nhất • Ở giữa lượt đồ là fact table • xung quanh là các dimension table • cung cấp sự ánh xạ trực tiếp giữa thực thể được phân tích bởi người dùng và bản thiết kế lượt đồ • Tối ưu hoá các câu truy vấn dạng sao thông thường
Snowflake schema 1 loại của mô hình dạng sao nhưng phức tạp hơn. Mô hình này sẽ loại bỏ tính dư thừa, vì dữ liệ dememsion đã được chia làm nhiều bảng thay vì chỉ 1 bảng duy nhất như ở lượt đồ dạng sao.