330 likes | 420 Views
应用统计方法与软件. 第 1,2 周 18:00-20:15 松 1206 第 3-16 周 18:00-20:15 图文 4 号机房 考试:第 16 周 成绩:上机单元练习 40% ,期末上机考试 40% ,平时成绩 20%. 应用统计方法与软件. 教材:邓祖新,数据分析方法和 SAS 系统, 上海财大出版社, 2006 参考 1: 高惠璇,实用统计方法与 SAS 系统,北京大学出版社 , 2001 ( 经典 ) 参考 2 : 杜强, SAS统计分析标准教程, 北京:人民邮电出版社, 2010 (update)
E N D
应用统计方法与软件 • 第1,2周18:00-20:15 松1206 • 第3-16周18:00-20:15 图文4号机房 • 考试:第16周 • 成绩:上机单元练习40%,期末上机考试40%,平时成绩20%
应用统计方法与软件 • 教材:邓祖新,数据分析方法和SAS系统, 上海财大出版社,2006 • 参考1: 高惠璇,实用统计方法与SAS系统,北京大学出版社 ,2001(经典) • 参考2:杜强, SAS统计分析标准教程, 北京:人民邮电出版社,2010(update) • 参考3:罗纳德•科迪(Ronald P.Cody)等,SAS应用统计分析(第5版) ,人民邮电出版社,2011 (国际,应用)
第一章 基本统计分析及SAS实现 第一节 数据分析统计学方法 第二节SAS系统的基本操作
统计学的概念 • Statistics is a mathematical science pertaining to the collection, analysis, interpretation or explanation, and presentation of data. http://en.wikipedia.org/
统计学的概念 • 统计学是运用概率论和数理统计的原理、方法研究数据资料的搜集、整理、分析和推断,从而掌握事物内在客观规律 。
统计学基本观点 • 数据的某些差异性本质上是不确定性的,它来自随机因素的影响; • 随机因素的影响在大量重复随机试验中具有统计规律性。
统计学分类 • 描述统计学(descriptive statistics) • 推断统计学(inferential statistics) • 应用统计学(applied statistics) • 数理统计学(mathematical statistics)
统计学的主要内容 • 统计研究设计 : 取怎样的数据? • 统计描述:数据本身说明什么现象?(浅) • 统计推断:数据背后代表什么讯息?(深)
统计研究设计(本课程不涉及) • 抽样调查设计 • 正交试验设计
统计描述(较简单) • 统计表和统计图 • 定量资料统计描述
参数估计 假设检验 方差分析 非参数统计 回归分析 主成分分析 因子分析 典型相关分析 判别分析 聚类分析 时间序列分析 统计推断(本课程重点)
常用统计软件 • 最易上手: SPSS • 最专业化: SAS • 最便宜(免费)R • 速度最快Stata • 最精练Minitab • 计量经济学软件EViews • 最简单Excel • 可以凑合Matlab
本课程的范围 • SAS统计软件使用 • 应用统计方法介绍
本课程的内容 • Ch1 简介 • Ch2 SAS数据集和编程基础 • Ch3 SAS作图 • Ch4 统计描述、估计和检验、方差分析 • Ch5 非参数统计(non-parametric statistics): 总体不服从正态分布 • Ch6 回归分析(Regression Analysis): 建立因变量Y与多个自变量X之间关系的依存关系, 以便观察特定变量来预测研究者感兴趣的变量 。
本课程的内容 • Ch7 相关分析与简化 • 主成分分析(Principal components analysis):对于原先提出的所有变量,建立尽可能少的新变量,并尽可能保持原有的信息。 • 因子分析(Factor Analysis): 把一些具有错综复杂关系的变量归结为少数几个综合因子。 • 典型相关分析(Canonical Correlation Analysis)是研究两组变量间相关关系的一种多元统计分析方法。
本课程的内容 • Ch8 分类 • 判别分析(discriminant analysis):根据已掌握的一批分类明确的样品,建立一个较好的判别函数,进而能用此判别函数对给定的一个新样品判别它来自哪个总体。 • 聚类分析(Cluster analysis):把目标数据放入少数相对同源的组或“类”(cluster)里. 用于对事物的类别面貌尚不清楚,甚至在事前连总共有几类都不能确定的情况下进行分类的场合。
本课程的内容 • Ch8 预测 • 时间序列分析: 按照时间的顺序把随机事件变化发展的过程记录下来就构成了一个时间序列。对时间序列进行观察、研究,找寻它变化发展的规律,预测它将来的走势就是时间序列分析。 • 平稳序列 • 非平稳序列指数平滑 • 非平稳序列ARIMA
本课程未涉及的统计学 • 抽样调查 • 试验设计 • 生存分析 • 对应分析
第二节SAS系统的基本操作 一、SAS系统的支持技术 二.SAS系统的基本操作 三.运行SAS程序的步骤
一、SAS系统的支持技术 • SAS系统的功能 • 数据访问 • 数据管理 • 数据分析 • 数据呈现
SAS系统的支持技术 • 数据仓库技术(Data Warehouse) • 数据挖掘技术(Data Mining) • 决策支持技术(Decision Support System) • 提供与主流数据库Teradata, DB2, Oracle接口。
数据挖掘(Data Mining) • 数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中提取或“挖掘”知识。 • 主要方法: • 统计学方法 • 人工智能方法:专家系统、模糊逻辑、神经网络、进化算法等
SAS系统的主要模块 • BASE(基础) • STAT(统计) • ETS(预测) • QC(质量控制) • OR(规划) • IML(矩阵运算) • GRAPH(图形) • ACCESS(外部数据库接口) • ASSIST(面向任务的通用菜单驱动界面) • FSP(数据处理交互式菜单系统) • AF(面向对象编程的应用开发工具)
二.SAS系统的基本操作 主要窗口 • 编辑器(Enhanced Editor)窗口:编写SAS程序 • 日志(Log)窗口: 显示有关程序运行的信息\错误 • 输出(Output)窗口: 显示程序运算结果的输出 • 资源管理器\结果(Explorer\Result)窗口:查看有关数据文件 • 程序编辑器(Program Editor)窗口: 编写SAS程序 • 图形(Graph)窗口: 图形输出、编辑
菜单与工具栏 • 菜单介绍:file, edit, view, tools, run, solutions, widows, help • 工具栏介绍 • 注意在不同窗口菜单和工具栏显示有些不同
管理系统命令 • 在命令框中直接键入命令 • 按功能键 • 使用下拉式菜单 • 使用工具栏
三.运行SAS程序的步骤 • 在EDITOR窗口中键入程序 • 提交这段程序 • (查看LOG窗口的信息、错误) • (修改并重新提交) • 在OUTPUT窗口查看运行结果 • (在Results窗口查看运行结果) • (在Exploer窗口查看数据)
例1 • Abc03.sas • Editor (Enhanced)与Program Editor • Data步:数据获取、加工、处理; • Proc步:数据分析和输出报告 • 管理系统命令nums • 程序错误信息
解决方案Solutions和可视化界面 ASSIST • Data mgmt 数据导入、导出等 • Report Writing 报表书写 • Graphics 绘图模块 • Data analysis 统计分析模块 • Planning Tools 计划工具 • EIS 面向对象的报告工具 • Index 提供全部可用命令的索引
例2 用ASSIST做统计分析 • 对数据集work.class.data做简单统计分析 • 使用solutions\ASSIST • 选data analysis\elementary\summray • 选table、columns和统计量 • 运行可产生程序abc03.sas同样效果 • 用file\save as source可自动产生程序(在log窗口)。
例3 用分析家模块Analyst做统计分析 • 解决方案(Solutions)菜单\分析(Analysis)\分析家模块Analyst • 打开SAS自带的数据集cheese.sas7bdat • 选Statistics\descriptive\summray • 将变量a, b选为分析变量(analysis) • 选需要计算的统计量(Statistics) • 选OK计算