350 likes | 476 Views
企业智能基础:数据库和信息管理. 内容回顾. 计算机存储单位 文件. 字节 BYTE. 7 6 5 4 3 2 1 0. 位 Bit. 每个记忆单元由 8 位二进制位组成。. 1KB=2 10 B=1024B 1MB= 2 10 KB= 1024KB 1GB= 2 10 MB= 1024MB 1TB= 2 10 GB= 1024GB. 文件. 文件是一个具有符号的一组相关联元素的有序序列。文件可以包含范围非常广泛的内容。系统和用户都可以将具有一定独立功能的程序模块、一组数据或一组文字命名为一个 文件。
E N D
内容回顾 • 计算机存储单位 • 文件
字节BYTE 7 6 5 4 3 2 1 0 位Bit 每个记忆单元由8位二进制位组成。 1KB=210B=1024B 1MB= 210KB= 1024KB 1GB= 210MB= 1024MB 1TB= 210GB= 1024GB 精品课程《计算机应用基础》
文件 • 文件是一个具有符号的一组相关联元素的有序序列。文件可以包含范围非常广泛的内容。系统和用户都可以将具有一定独立功能的程序模块、一组数据或一组文字命名为一个文件。 • 文件是具有符号名的,在逻辑上具有完整意义的一组相关信息项的有序序列。
学习目标 • 描述数据库管理系统如何解决传统文件环境中管理数据资源的问题? • 描述数据库管理系统的功能和价值。 • 应用重要数据库的设计原则 • 评估访问数据库中信息的工具和技术,以改善企业经营绩效与决策。 • 评估信息政策、数据管理和数据质量,保证在企业数据资源管理中的作用,
数据管理的数据库方法 • 数据库 • 有组织的数据集合通过集中数据和控制冗余数据来服务许多应用程序 • 数据库管理系统 • 应用程序和物理数据文件之间的接口 • 划分数据的逻辑和物理视图
多视图人力资源数据库 保险金视图 名字 社会保险号 健康保险 员工ID 姓名 社会保险号 职位 雇佣日期 总工资 净收入工资 人寿保险 养老保险 健康保险 数据库管理系统 名字 社会保险号 总工资 税后工资 工资总额视图
解决传统文件环境的问题 • 控制冗余 • 消除不一致 • 分离程序和数据 • 使组织集中管理数据和数据安全。
关系型数据库 关系型数据库以二维表的形式组织数据。这里主要说明供应商和零件实体表,显示如何表示每个实体和属性。供应商号是供应商表的主关键字,是零件表的外关键字。
惠普从一个企业数据仓库中采集会成功吗? • 问题:惠普的众多系统无法提供一个商业运作的完整界面,缺乏数据一致性。 • 解决方案:建立一个单一的全球企业级数据库,更换17项数据库技术和14000个数据库 • 针对所有企业创建使用一致数据模型和专有平台。 • 在建立及时、准确的数据和报告中,演示数据库管理的重要性, • 说明如何从不同的来源存储、组织和管理数据的需求规范。
使用数据库提高企业效益和决策 • 大数据库和系统需要特殊的功能和工具 • 分析大量数据 • 从多个系统中访问数据 • 三项关键技术 • 数据仓库 • 数据挖掘 • 通过web访问因特网数据库的工具
数据仓库 • 存储来自多个核心操作事务系统的当前、历史数据 • 巩固和规范跨企业的信息,但是数据不能被修改。 • 数据仓库系统将提供查询、分析和汇报工具
数据仓库组件 运营数据 客户数据 提取与转换 数据仓库 内部数据来源 数据访问和分析 制造数据 查询和报表 OLAP 数据挖掘 历史数据 外部数据来源 外部数据 信息字典 数据仓库从组织中的多个运营系统中抽取当前和历史数据。这些数据与外部数据重新组合组织,形成为管理人员使用的报告分析中心数据库。信息字典为用户提供数据仓库中的可用数据信息。
国税局使用数据仓库查获骗税 • 国税局分析收集到的纳税人数据为什么如此困难? • 国税局执行它的CDW时,将面临什么样的挑战? • 什么管理、组织和技术问题需要解决? • 国税局使用CDW怎样提高决策运营?对纳税人有哪些益处? • 你认为数据仓库在联邦部门的其他领域有用吗?哪些部门?为什么有用或为什么没用?
国税局分析收集到的纳税人数据为什么如此困难?国税局分析收集到的纳税人数据为什么如此困难? • 数据以不同的格式来组织 • 不容易查询、分析以及与相关的数据结合
国税局执行它的CDW时,将面临什么样的挑战? • 管理上 • 技术上 • 组织上
国税局使用CDW怎样提高决策运营?对纳税人有哪些益处?国税局使用CDW怎样提高决策运营?对纳税人有哪些益处?
企业智能: • 巩固、分析和提供获取大量数据的工具,帮助用户做出更好的商业决策 • 例如,哈拉斯娱乐赌博分析客户开发概况并找出最有利可图的客户。 • 原理工具包括: • 数据库查询和汇报软件 • 联机分析处理 • 数据挖掘
商业智能 数据仓库 数据库 企业智能 一系列分析工具处理数据库中的数据,帮助经理和雇员找出更好地决策和提高组织绩效的模式和见解。 决定作出反应的数据和模式 寻找模式和洞察力 保持交易追踪
联机事务分析(OLAP) • 支持多维数据分析 • 浏览多维数据 • 信息的每一方面(产品、价格、成本、地区、时间)代表一个维度。 • 例如:六月份东部地区与其他地区相比较,卖了多少台洗衣机? • 联机分析处理能够快速地进行网上答疑。
数据库越来越大 数据挖掘 数据挖掘的社会需求 有价值的知识 可怕的数据 工业控制技术研究所
苦恼: 淹没在数据中 ; 不能制定合适的决策! 决策 数据 知识 • 金融 • 经济 • 政府 • POS. • 人口统计 • 生命周期 • 模式 • 趋势 • 事实 • 关系 • 模型 • 关联规则 • 序列 • 目标市场 • 资金分配 • 贸易选择 • 在哪儿做广告 • 销售的地理位置 数据挖掘的社会需求 数据爆炸,知识贫乏 工业控制技术研究所
数据挖掘 • 从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。 • 与OLAP相比发现更多的驱动信息 • 发掘数据中隐藏的模式和关系,并将这些规则用于预测未来发展。 • 例如:在一对一营销活动客户数据中寻找模式,或者确定有利可图的模式
数据挖掘获取信息的类型 • 协会 • 序列 • 分类 • 聚类 • 预测
数据挖掘的类型 • 预示分析 • 使用数据挖掘技术、历史数据和未来条件的假设来预测事件结果 • 例如:顾客对一个特殊产品出价或购买的概率 • 文本挖掘 • 从大量无结构化数据集(存储的电子邮件)中抽取关键元素。
web挖掘 • web挖掘 • 从万维网中发掘和分析有用模式信息 • 例如,要了解顾客行为,评估网站效力等 • 技术 • Web内容挖掘:从网页内容中提取知识 • Web结构挖掘:例如,网页链接进出 • Web使用挖掘:通过Web服务器记录用户交互数据
数据库和web 因特网 应用程序服务器 数据库服务器 数据库 Web服务器 客户端web浏览器
数据库和web • 许多公司使用网络给客户或合作伙伴提供内部数据库 • 典型的配置包括: • web服务器 • 应用程序服务器/中间件/CGI脚本 • 数据库服务器( DBM的存取) • 应用web进行数据库访问的优点 • 易于使用的浏览器软件 • Web界面很少或根本不需要更改数据库 • 廉价地添加web接口到系统
MySpace后台数据库 • 阅读交互式会话:技术,然后讨论以下问题: • MySpace使用什么样的数据库和数据库服务器? • 对类似MySpace的企业为什么数据库技术如此重要? • MySpace如何有效地在它的网站上组织和存储数据? • 引发什么样的数据管理问题?MySpace如何解决或试图解决这些问题的?
建立一个信息策略 • 公司的规则、程序、共享、管理规范数据的角色 • 例如,什么员工负责更新员工的敏感信息? • 数据管理:企业职能是负责具体政策和管理数据的规程 • 数据统治:管理政策和流程的有效性、可用性、完整性和企业数据安全性,尤其涉及到政府规章。 • 数据库管理:定义、组织、实施、维护数据库;由数据库设计和管理小组执行
确保数据质量 • 确保数据质量 • 《财富》中1000多个公司的数据库大约25%的数据不准确或不完整 • 大多数数据质量问题源于错误的输入 • 在建立新数据库之前,需要: • 发现并纠正错误数据 • 建立严格的数据录入规则
数据质量审计 • 结构化调查信息系统中的数据完整性的精确性和级别。 • 从数据文件中调查样本 • 调查终端用户的质量观点
数据清洗 • 用软件来检测、纠正不正确、不完整、不恰当的格式或冗余数据 • 加强独立信息系统中不同数据集的一致性。