370 likes | 515 Views
数学建模中的统计学. 描述性数据分析 假设检验 主成分分析 线性回归模型. 描述性数据分析. 直方图、条形图 概括统计量(平均数、中位数、众数、百分位数和四分位数、方差和标准差、极值与四分位间距、变异系数、相关系数、学生氏化 ). 直方图和条形图. 例 : 一分钟内碰撞某宇宙装置的宇宙粒子 , 连续记录 40 分钟 , 得如右数据 :. 条形图. 统 计 量. 它反映了 总体均值 的信息. 它反映了总体 方差的信息. 它反映了总体 k 阶矩的信息. 它反映了总体 k 阶 中心矩的信息. 异常点检验.
E N D
数学建模中的统计学 • 描述性数据分析 • 假设检验 • 主成分分析 • 线性回归模型
描述性数据分析 • 直方图、条形图 • 概括统计量(平均数、中位数、众数、百分位数和四分位数、方差和标准差、极值与四分位间距、变异系数、相关系数、学生氏化)
例:一分钟内碰撞某宇宙装置的宇宙粒子,连续记录40分钟,得如右数据:例:一分钟内碰撞某宇宙装置的宇宙粒子,连续记录40分钟,得如右数据:
统 计 量 它反映了 总体均值 的信息 它反映了总体 方差的信息
它反映了总体k 阶矩的信息 它反映了总体k 阶 中心矩的信息
异常点检验 • 在正态分布中σ代表标准差,μ代表均值x=μ即为图像的对称轴三σ原则即为数值分布在(μ—σ,μ+σ)中的概率为0.6826数值分布在(μ—2σ,μ+2σ)中的概率为0.9544数值分布在(μ—3σ,μ+3σ)中的概率为0.9974 • 如果在一组数据中,数值落在样本均值的三倍标准差以外,我们认为该数据是异常值,需要剔除。如今年的全国赛A题
单个正态总体的均值检验 • 断言:在座的各位平均身高是170cm。 • 要检验这句话正确与否,我们可以采用单正态总体的均值检验。
独立性检验 列联表独立性检验是卡方拟合优度检验的一个特例,人们将两个或多个特征分类数据即交叉分类数据以表格形式列出即列联表,从而利用这些数据用来研究两种或多种分类之间是否有某种联系。
1976-1977 年美国佛罗里达州29 个地区发生凶杀案中被告人判死刑的情况,白人参与凶杀案中被判死刑的比例要比黑人参与凶杀案中被判死刑的比例要高,那是不是在美国社会就不存在凶杀案判罚上的种族问题呢?
在凶杀案的判罚上,不仅仅要看被告人的肤色,还要看被害人的肤色。我们把情况分为四种情况:分别为白人杀害黑人,黑人杀害黑人,白人杀害白人,黑人杀害白人,一般来说后两种情况被告人被判死刑的概率要比前两种情况大得多,这是美国社会的种族歧视在其中所起的作用。在凶杀案的判罚上,不仅仅要看被告人的肤色,还要看被害人的肤色。我们把情况分为四种情况:分别为白人杀害黑人,黑人杀害黑人,白人杀害白人,黑人杀害白人,一般来说后两种情况被告人被判死刑的概率要比前两种情况大得多,这是美国社会的种族歧视在其中所起的作用。
主成分分析 • 主要用于变量降维,主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。 • PCA的数学定义是:一个正交化线性变换,把数据变换到一个新的坐标系统中,使得这一数据的任何投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推
变量之间具有密切关联而又不能由一个或某一些变量唯一确定另外一个变量的关系称为变量之间的相关关系.变量之间具有密切关联而又不能由一个或某一些变量唯一确定另外一个变量的关系称为变量之间的相关关系.
(a) 函数关系 0 0 (b) 统计关系
“回归”名称的由来,统计史上一般归功于英国生物学家兼统计学家F.高尔顿(F.Galton,1822-1911)及他的学生现代统计学家的奠基者之一K.皮尔逊(K.Pearson).“回归”名称的由来,统计史上一般归功于英国生物学家兼统计学家F.高尔顿(F.Galton,1822-1911)及他的学生现代统计学家的奠基者之一K.皮尔逊(K.Pearson).
他们在研究父母身高与其子女身高的遗传问题时,观察了1078对夫妇,以每对夫妇的平均身高作为x,而取他们的一个成年儿子的身高作为y,将结果在平面直角坐标系上给出散点图,发现趋势近于一直线,并计算得回归直线他们在研究父母身高与其子女身高的遗传问题时,观察了1078对夫妇,以每对夫妇的平均身高作为x,而取他们的一个成年儿子的身高作为y,将结果在平面直角坐标系上给出散点图,发现趋势近于一直线,并计算得回归直线 (单位:英寸) 这1078对夫妇平均身高为 英寸,而 子代平均身高
四 回归方程的显著性检验 回归方程的假设检验包含两个内容: (一)检验变量之间的总体线性关系是否显著,即检验自变量与应变量之间的关系能否用一个适当的回归模型来表示。 (二)检验回归参数,即检验回归模型中每一自变量对因变量对影响程度是否显著。
这两种检验在次序上不能颠倒的,因为只有当回归模型所代表的变量之间的线性关系通过检验后,进一步检验模型中的个别回归参数才有意义。如果某个回归模型本身是个错误的模型,那就没有必要再去检验该模型中的各个回归参数了。这两种检验在次序上不能颠倒的,因为只有当回归模型所代表的变量之间的线性关系通过检验后,进一步检验模型中的个别回归参数才有意义。如果某个回归模型本身是个错误的模型,那就没有必要再去检验该模型中的各个回归参数了。 虽然这两种检验在一元回归分析中是等价的,但在多元分析里却有不同的意义,应注意区别。
各种检验介绍 • F-检验 • t检验 • 相关系数检验 • 后期将做详细介绍