340 likes | 459 Views
人教版高中数学课标教材( A 版). 普通高中课程标准实验教科书选修 1 - 2. 第一章 统计案例 简 介. 北京师范大学数学科学院 李勇 2005 年 8 月. 1. 教学目标. 通过典型案例的探究,进一步了解 回归分 析 的基本思想、方法及其初步应用。 通过典型案例的探究,了解 独立性检验(只要求 2×2 列联表) 的基本思想、方法及其初步应用。. 2. 结构设置与课时分配. 3. 回归分析模型. ( 4 学时). 数学3 —— 统计 画散点图 了解最小二乘法的思想 求回归直线方程 y = bx + a 用回归直线方程解决应用问题.
E N D
人教版高中数学课标教材(A版) 普通高中课程标准实验教科书选修1-2 第一章 统计案例简 介 北京师范大学数学科学院 李勇 2005年8月
1.教学目标 • 通过典型案例的探究,进一步了解回归分 析的基本思想、方法及其初步应用。 • 通过典型案例的探究,了解独立性检验(只要求2×2列联表)的基本思想、方法及其初步应用。
3.回归分析模型 (4学时)
数学3——统计 画散点图 了解最小二乘法的思想 求回归直线方程 y=bx+a 用回归直线方程解决应用问题 选修1-2——统计案例 引入线性回归模型 y=bx+a+e 了解模型中随机误差项e产生的原因 了解相关指数 R2和模型拟合的效果之间的关系 了解残差图的作用 利用线性回归模型解决一类非线性回归问题 正确理解分析方法与结果 a. 比《数学3》中“回归”增加的内容
函数模型: 回归模型: b.函数模型与“回归模型”的关系 不能提供 选择模型的准则 可以提供 选择模型的准则
问题背景分析 c.回归分析知识结构图 散点图 线性相关系数 两个变量线性相关 两个变量非线性相关 最小二乘法 线性回归模型 非线性回归模型 残差分析 相关指数 应用
d.教学建议 案例1:女大学生的 身高与体重 • 散点图; • 回归方程: • 通过探究“身高172 cm 的女大学生的体重一定是60.23 kg吗?”引入线性回归模型。此处可以引导学生们体会函数模型与回归模型之间的差别。
使学生理解:在回归模型中,预报变量(因变量)是解释变量(自变量)与残差变量共同作用的结果。使学生理解:在回归模型中,预报变量(因变量)是解释变量(自变量)与残差变量共同作用的结果。 • 解释残差变量的来源(可以推广到一般): • 其它因素的影响:影响身高 y 的因素不只是体重 x,可能还包括遗传基因、饮食习惯、生长环境等因素; • 用线性回归模型近似真实模型所引起的误差; • 身高 y 的观测误差。
使学生正确理解相关指数的含义,他是度量模型拟合效果的一种指标。在线性模型中,他代表自变量刻画预报变量的能力。使学生正确理解相关指数的含义,他是度量模型拟合效果的一种指标。在线性模型中,他代表自变量刻画预报变量的能力。 在线性模型中, 并不要求学生掌握 偏差平方和分解公式 可以直接由相关指数的定义理解其含义 总偏差平方和: 预报变量的变化程度 回归平方和: 解释变量引起的变化程度 残差平方和: 残差变量的变化程度
身高与体重残差图 异常点 • 错误数据 • 模型问题 • 使学生了解残差图的制作及作用。 • 坐标纵轴为残差变量,横轴可以有不同的选择; • 若模型选择的正确,残差图中的点应该分布在以横轴为心的带形区域; • 对于远离横轴的点,要特别注意。
在教学的过程中,要注意把所蕴含的统计思想提炼出来。如在本例结尾提到“用身高预报体重时,需要注意下列问题:……”,这些论述适用于所有的回归模型。在教学的过程中,要注意把所蕴含的统计思想提炼出来。如在本例结尾提到“用身高预报体重时,需要注意下列问题:……”,这些论述适用于所有的回归模型。 • 模型适用的总体; • 模型的时间性; • 样本的取值范围对模型的影响; • 模型预报结果的正确理解。 • 教科书上所列“建立回归模型的基本步骤”,不仅适用于线性回归模型,也适用于一般回归模型的建立。
案例2:红铃虫的产卵数与温度 • 散点图: 从散点图中可以看出产卵数和温度之间的关系并不能用线性回归模型来很好地近似。这些散点更像是集中在一条指数曲线或二次曲线的附近。
令 ,则 x 与z 的散点图为 x 和 z 之间的关系可以用线性回归模型来拟合
令 ,则 t 与y 的散点图为 散点并不集中在一条直线的附近,因此用线性 回归模型拟合他们的效果不是最好的。
教师在此处可以引导学生体会应用统计方法解决实际问题需要注意的问题:教师在此处可以引导学生体会应用统计方法解决实际问题需要注意的问题: 对于同样的数据,有不同的统计方法进行分析, 要用最有效的方法分析数据。 现在有三个不同的回归模型可供选择来拟合红铃虫的产卵数与温度数据,他们分别是: 可以利用直观(散点图和残差图)、相关指数来确定哪一个模型的拟合效果更好。
4.两个分类变量的 独立性检验 3课时
反证法原理: 在一个已知假设下,如果推出一个矛盾,就证明了这个假设不成立。 假设检验原理:在一个已知假设下,如果一个与该假设矛盾的小概率事件发生,就推断这个假设不成立。 a.反证法原理与假设检验原理
例.数学家庞加莱每天都从一家面包店买一块1000g 的面包,并记录下买回的面包的实际质量。一年后,这位数学家发现,所记录数据的均值为950g。于是庞加莱推断这家面包店的面包分量不足。 推断过程: • 假设“面包分量足”,则一年购买面包的质量数据的平均值应该不少于1000g ; • “平均值不大于950g”是一个与假设“面包分量足”矛盾的小概率事件; • 这个小概率事件的发生使庞加莱得出推断结果。
b.假设检验问题 假设检验问题由两个互斥的假设构成,其中一个 叫做原假设,用H0表示;另一个叫做备择假设,用H1表示。 例如,在前面的例子中,原假设为: H0:面包分量足, 备择假设为: H1:面包分量不足。 这个假设检验问题可以表达为: H0:面包分量足 ←→ H1:面包分量不足
求解思路: • 在H0成立的条件下,构造与H0矛盾的小概率事件; • 如果样本使得这个小概率事件发生,就能以一定把握断言H1成立;否则,断言没有发现样本数据与H0相矛盾的证据。 c.求解假设检验问题 考虑假设检验问题: H0←→ H1 问题:判断应该是H0还是H1正确?
只取两个值的变量 d.独立性检验 检验两个分类变量 x 和 y 之间是否有关系,即回答假设检验问题: H0: x 和 y 之间没有关系 ←→ H1: x 和 y 之间有关系
e.知识结构图 背景分析 条形图 柱形图 列联表 独立性检验 分类变量之间关系
f.教学建议 案例1. 吸烟与肺癌 • 确定所涉及的变量是否为二值分类变量; • 根据样本数据制作列联表:
不吸烟 吸烟 • 通过图形直观判断两个分类变量是否相关: 患肺癌 比例 不患肺癌 比例
推导统计量K2 (用于构造有利于H成立的小概率事件),使同学了解: K2越大, H成立的可能性就越大。 • 在“吸烟与患肺癌没有关系”成立的条件下,可以估算出: 在教学过程中可以指出估算需要很多的概率统计知识,为学生指明还有更多的知识需要学习。 在教学过程中强调:只有在此条件下,才能得到这个近似公式。
当 n→∞ 时,变为等号。在实际应用中,当 近似的效果才可接受。 • 推导统计量K2 (用于构造有利于H成立的小概率事件),使同学了解: K2越大, H成立的可能性就越大。 • 在“吸烟与患肺癌没有关系”成立的条件下,可以估算出:
注:④⑤隐含了构造与原假设H0矛盾的小概率事件注:④⑤隐含了构造与原假设H0矛盾的小概率事件 的思想,基础好的学生可以深入体会。 • 推导统计量K2 (用于构造有利于H成立的小概率事件),使同学了解: K2越大, H成立的可能性就越大。 • 在“吸烟与患肺癌没有关系”成立的条件下,可以估算出:
由列联表中的数据计算随机变量K2的值: 用k是为了区分随机变量与其观测值 • 结果的解释:k≈54.721>6.635解释为有99%的把握断定“吸烟与患肺癌有关” 。 若按如下规则进行判断,则把“吸烟与患肺癌没有关系”错判断成“吸烟与患肺癌有关系”的可能性不超过0.01 。 规则:若K2≥6.635,就断定“吸烟与患肺癌有关”
两个分类变量独立性检验的基本思想: 当 很大时,就认为两个变量有关系;否则就认为没有充分的证据显示两个变量有关系。 小概率事件发生
在前面案例中,由 k≈54.721>6.635 可得结论: 有99%的把握断定“吸烟与患肺癌有关”。 规则一:如果随机变量的观测值大于或等于6.635就认为“吸烟与患肺癌有关系” 。 另一方面,由 k≈54.721>10.828 还可得结论: 有99.9%的把握断定“吸烟与患肺癌有关”。 规则二:如果随机变量的观测值大于或等于10.828就认为“吸烟与患肺癌有关系” 。 评判规则是在获取样本数据之前 确定的。 问题:二者矛盾吗? 不矛盾,他们是对两个不同评判规则的结论。
因为这组数据来自住院的病人,因此所得到的结论适合住院的病人群体.因为这组数据来自住院的病人,因此所得到的结论适合住院的病人群体. 例1.秃头与患心脏病 • 在解决实际问题时,可以直接计算K2的观测值k进行独立检验,而不必写出K2的推导过程。 • 本例中的边框中的注解,主要是使得学生们注意统计结果的适用范围(这由样本的代表性所决定)。
例2.性别与喜欢数学课 • 本例主要是使学生理解独立性检验的原理。 • 在教学过程中向同学们说明:在掌握了两个分类变量的独立性检验方法之后,就可以模仿例1中的计算解决实际问题,而没有必要画相应的图形。 图形可帮助向非专业人士解释所得结果; 也可以帮助我们判断所得结果是否合理