1.92k likes | 2.09k Views
项目二 数据资料统计显示. 一、实训目的和要求. 市场调查数据的推断统计分析可以通过非全面调查,利用样本资料达到对总体的数量特征的认识。通过实训,培养学生对市场调查数据进行推断统计分析的能力。 通过实训,要求: 1 、了解市场调查数据的推断统计分析的概念、步骤、内容与方法。 2 、掌握总体参数估计的基本方法。 3 、掌握假设检验的基本方法。 4 、针对调查获取的信息资料进行推断统计分析。. 【 项目导向 】. 本市职业学院手机使用情况调查数据。. 【 任务驱动 】.
E N D
一、实训目的和要求 • 市场调查数据的推断统计分析可以通过非全面调查,利用样本资料达到对总体的数量特征的认识。通过实训,培养学生对市场调查数据进行推断统计分析的能力。 • 通过实训,要求: • 1、了解市场调查数据的推断统计分析的概念、步骤、内容与方法。 • 2、掌握总体参数估计的基本方法。 • 3、掌握假设检验的基本方法。 • 4、针对调查获取的信息资料进行推断统计分析。
【项目导向】 • 本市职业学院手机使用情况调查数据。
【任务驱动】 • 本市职业学院手机使用情况调查数据的数据库建立后,为了便于对调查资料进行有效的分析与对比,我们需要将经过审核及预处理的数据资料,根据调查目的和重要程度,进行进一步的分类和整理,形成相关的统计表和统计图,并进行各种统计指标的计算。 • 1.根据数据资料编制统计表; • 2.根据数据资料绘制统计图; • 3.根据数据资料计算相关统计指标。
任务一 统计表的编制 • 讨论:为什么要编制统计表呢?有哪些统计表呢?
一、编制简单频数表和分组频数表 • 1.确定频数表的编制方式 • 对于学生手机拥有情况项目小组决定编制简单频数表,如表 是否拥有
(2)Excel编制频数表示例 • 我们要分析学生购买手机的价格和接受价格这两个变量,就需要统计各个价格区间的频数。由于数据库比较大,如果直接在当前数据上操作,容易混乱。这时,我们可以将我们要分析的变量拷贝到新的工作表中进行单独分析,这样操作起来比较清楚。 • 如教材所述
二、编制交叉分析列表 • 1.选择和确定变量 • 例如,表3-4给出了某品牌日用品的“熟悉程度”和对该产品的“使用量”之间的某种关系。从中可以看出,对该品牌日用品熟悉的消费者似乎使用量也比较多。 • 某日品牌用品的交叉分析列表(人数)
国外某保险公司关于交通事故调查的最初记录显示,该公司保户中有62%从未在驾车时出过事故,如表3-5所示。下述数据进而被分类男性和女性的事故比率,以确定性别同事故的多少是否有某种联系,表3-6显示了具体的情况。国外某保险公司关于交通事故调查的最初记录显示,该公司保户中有62%从未在驾车时出过事故,如表3-5所示。下述数据进而被分类男性和女性的事故比率,以确定性别同事故的多少是否有某种联系,表3-6显示了具体的情况。
2.双变量交叉分析列表方法 • 双变量交叉分析列表是最基本的交叉列表分析法,表3-4所进行的某品牌日用品的“熟悉程度”与对该产品的“使用量”分析就是一个实例。 • 通常,把双变量交叉列表中各项绝对数的表示转换成百分数,能更清楚地显示相关关系。计算百分数可以按列进行,见表3-8;也可以按行进行,见表3-9。值得注意的是,并非两种形式的计算结果都有现实意义。那么,哪一张表更有用呢?一般来说,这取决于研究者将哪个变量当作自变量、哪个当作因变量。一般的准则是以自变量为基准来计算百分数。
3.三变量交叉列表分析方法 • 调查变量之间的关系是复杂的,有时候只研究两两变量之间的关系是不够的,大多数情况下都要考虑多个变量之间的关系。实际工作中,往往需要在二变量交叉列表分析的基础上,加入第三个变量作进一步分析。通过加入第三个变量,原有二变量交叉列表分析的结果可能出现四种情况。四种情况如下: • (1)更精确地反映原有两个变量之间的联系。 • (2)可以说明原有两个变量之间不相关,尽管用二变量交叉列表分析结果显示两者之间相关。换言之,三变量交叉列表分析说明原二变量交叉列表分析显示两者间的联系是假的。 • (3)可能使原二变量之间通过二变量交叉列表分析得出的两者不相关的结论,通过加入第三个变量,显示原二变量之间存在某些相关联系。 • (4)可能显示原有的联系没有改变。
4.Excel编制交叉列表 • 在本市职业学院大学生手机使用情况分析中,项目小组根据调查资料以及分析目标要求,确定主要应用双变量交叉列表分析技术。下面以分析性别对于手机购买价格的影响为例,具体步骤实训
[实训任务一]统计表的编制上机实训 • 项目小组根据调查要求,小组讨论此调查问卷有无不合理之处,确定本次调查需要哪些统计表,将各小组建立的数据连接成一个整体,形成包括所有调查样本的数据库。根据各组建立的数据库,编制所需的统计表。
三、样本结构分析 • 样本结构分析一般包括对被调查者进行的基本资料进行的分析,包括性别、年龄、学历及收入等基本情况的分析。 • 样本结构分析可利用Excel工具对数据库进行分析,其步骤如下: • 1.选择“数据”中数据透视表或透视图; • 2.选择透视区域; • 3.建立数据透视表 • 4.完成样本结构分析。
[实训任务二]样本结构的编制上机实训 • 针对本市消费者开展手机市场问卷调查,项目小组完成年龄结构、学历结构、收入结构的分析实训。
任务二 统计图的绘制 • 一、统计图绘制的注意点 • 1.统计图的结构 • 统计图由标题、标目、点线条面、刻度、图例几个部分组成。
2.统计图绘制的注意点 • (1)每张图都要有号码和标题;标题要简明扼要。 • (2)项目较多时最好按大小顺序排列,以使结果一目了然。 • (3)度量单位的选择要适当,使得图形的表现均衡,使所有的差异都是可视的和可解释的。 • (4)作图时最好既使用颜色,又使用文字说明,以便在进行必要的黑白复印时仍能清晰如初。 • (5)颜色和纹理的选择不是随机的,要有一定的逻辑性。例如,真正重要的部分(如客户的品牌、忠诚的用户、产品的频繁使用者,等等)应该用更突出的颜色、更粗的线条或更大的符号等来表示。 • (6)图形的安排要符合人们的阅读习惯。例如,西方人阅读的图形应符合从左到右的顺序;阿拉伯人是从右到左;中国可能更习惯从上到下,等等。 • (7)一般应说明数据的来源。
二、直方图和饼形图的制作 • 三、折线图和散点图
[实训任务一]统计图的绘制上机实训 • 项目小组根据各项目的调查要求,小组讨论确定本次调查需要哪些统计图,根据已经建立的数据库,编制所需的统计图。
任务三 选择统计分析指标 • 一、选择统计指标的方法 • 1.反映集中趋势的统计指标计算方法 • (1)众数是总体中各单位在某一标志上出现次数最多的变量值。如,某项市场调查显示,大多数居民每周上超级市场购物3次,这一数字即是众数。 • (2)中位数是总体中各单位按其在某一标志上数值的大小顺序排列的,居于中间位置的变量值。中位数位置=(n+1)/2,式中,n为标志值的项数;如果n为奇数,取数列中间一项为中位数;如果n为偶数,则取数列中间两项标志值的算术平均数为中位数。 • 例,某项对城市白领阶层打的次数的调查,对15个被调查对象的调查结果,每周打的次数按顺序排列是:0、1、1、2、2、2、3、3、3、4、4、4、4、5、7,则按大小顺序数字排列为0、1、2、3、4、5、7,中位数为第4项,即每周打的次数中位数为3。 • (3)平均数是总体中各单位数值的和除以标志值项数得到的数值。如上例中15个白领打的次数总和为45次,其平均数为3次。
2.反映集中趋势的统计指标的用途 • 众数应用范围在定类变量,在要求大略平均的情况下,一般用众数。但是损失资料太多,或出现双众数,即数据集合中有几个数据同时符合众数的定义,这时众数也就失去了作为代表值的意义。 • 中位数对定序变量而言,求起来比较方便,便于理解(求中央位置)。但中位数计算一定要排列次序,所以运用时就受限制。而且最大的缺陷是对一些极端数字不敏感,如-500、3、20、40、3000,那么-500、3000对中位数均无影响。但是,在两端的数目不明确的开放端中,仍可以求中位数,但不能求平均数。 • 平均数用于定距变量,利用率比较高,常被认为是最佳集中趋势度量值。但是,平均数太敏感了,由于每个数据都加入计算,平均数极易受极端数影响。如某个由7个人组成的研讨会,其平均年龄为24岁,其中6人为学生,1人是教授。学生的年龄都是18岁,教授的年龄为60岁,显然教授的年龄对整个平均年龄发生了显著影响,此时应取中位数或众数才具有代表性。
3.离散程度的测量方法 • 例如检查一批灯泡的质量时,既需要注意灯泡的平均寿命,又需要注意灯泡寿命与平均寿命的偏离程度,平均寿命较大、偏离程度较小,质量就较好。也就是除了用反映集中趋势的统计指标描述分布的中心位置外,还要用一些统计指标描述分布围绕中心向两个方向分散的程度,以及所描述的分布与正态分布的偏离程度。用于描述一组市场调查数据的离散程度的常用统计指标有极差、方差(或标准差)、斜度和峰度。 • (1)极差指标作用 • 极差R表示一组数据的最大值与最小值之差,即它表示了这个分布的整个伸展的范围。极差虽然很容易计算,但是它只告诉了我们分布的范围,对于分布的中间部分是如何变化的则不能提供任何信息。 • (2)方差或标准差的作用 • 方差或标准差S是表示分布对于平均数的偏离程度的一个度量,其数值的大小体现的是分布分散的扁平程度;标准差越大,分布就越扁平,反之,分布就越集中在中心(均值)的附近。如果数据的分布呈现出正态分布特征,那么利用标准差和平均数,就可以估计出落在某个范围内的个案所占的比例。 • (3)斜度和峰度的作用 • 斜度和峰度用于描述调查数据的分布与正态分布之间的差异程度。 • 斜度又称偏度,表示分布的不对称程度和方向。如果分布是对称的,斜度为0;如果偏向左边,斜度为正;分布偏向右边,斜度为负。不对称的程度越厉害,斜度与零的偏离就越大。标准差可以根据个案落入某个范围的比例,但这仅当分布是接近正态的对称形状时才成立。因此,斜度也给出了标准差用于估计分布的离散程度的准确程度。 • 峰度表示分布与正态分布曲线相比的冒尖程度或扁平程度。如果分布与正态曲线的形状相同,峰度为0;如果比正态曲线瘦高,峰度是正的;如果比正态曲线扁平,峰度是负的。
二、Excel计算统计指标的方法 • 1.Excel软件提供的分析工具 Excel软件提供的常用统计指标
2.Excel软件计算统计指标的方法 • 第一步,将所有的购买价格数据输入工作表中,如存放在A2:A467域中。 • 第二步,选择“工具”菜单中的“数据分析”命令,这时将弹出“数据分析”对话框,如图6-29所示。在“分析工具”列表中,选择“描述统计”工具,单击“确定”按钮,这时将弹出描述统计对话框,如图6-30所示。
第三步,在输入框内指定输入数据的有关参数。 • (1)输入区域:指定要分析的数据所在的单元格区域,本例输入A1:A47。 • (2)分组方式:指定输入数据是以行还是以列方式排列的。这里选定逐列,因为给定的购买价格是按列排列的。 • (3)标志位于第一行复选框:若输入区域包括列标志行,则必须选中此复选框。否则,不能选中该复选框,此时Excel自动以列 1、列 2、列 3 ……作为数据的列标志。本例选中此复选框。 • (4)在输出选项框内指定有关输出选项。 • (5)指定存放结果的位置:根据需要可以指定输出到当前工作表的某个单元格区域,这时需在输出区域框键入输出单元格区域的左上角单元格地址;也可以指定输出到新工作表组,这时需要输入工作表名称;还可以指定输出到新工作簿。本例选中将结果输出到输出区域,并输入左上角单元格地址C1。 • (6)汇总统计复选框:若选中,则显示描述统计结果,否则不显示结果。本例选中汇总统计复选框。 • (7)平均数置信度复选框:如果需要输出包含均值的置信度,则选中此复选框,并输入所要使用的置信度。本例键入95%,表明要计算在显著性水平为5%时的均值置信度。 • (8)第K大值复选框:根据需要指定要输出数据中的第几个最大值。本例选中第K大值复选框,并输入3,表示要求输出第2大的数值。 • (9)第K小值复选框:根据需要指定要输出数据中的第几个最小值。本例选中第K小值复选框,并输入3,表示要求输出2小的数值。
第四步,单击确定按钮。这时Excel 软件将描述统计结果存放在当前工作表的C1:D18区域中,如图6-31所示。
[实训任务一]统计指标的计算上机实训 • 项目小组根据各项目的调查要求,小组讨论确定本次调查计算哪些统计指标,根据各组的数据库,计算所需统计指标,并编制本次调查的分析报告,各小组制作汇报ppt,每组选派一名代表演示汇报。
补充场景 • 必胜克是全球著名的休闲餐饮品牌,它和肯德基同属全球最大的连锁餐饮集团之一——百胜餐饮集团。必胜客在重庆有三家店:江北、沙坪坝、南坪,现在必胜客拟对重庆市的三家店顾客平均月消费支出差异情况进行调查,决定采用抽样调查的方法。请将通过实地调查得来的信息资料进行编码并录入计算机,形成必胜客重庆商圈顾客平均月消费支出抽样调查数据集,并根据调查数据集对三家店的顾客平均月消费支出情况进行差异检验。
相关知识 • 推断统计:抽样统计 • (一)总体参数估计 • (二)假设检验
由一个样 本或一糸 列样本所 得的结果 来推断总 体的特征 假设检验 统 计 推 断 参数估计
任务 分析误差产生的原因 确定差异的性质 排除误差干扰 对总体特征做出正确判断
假设检验的原理与方法 第一节 样本平均数的假设检验 第二节 样本频率的假设检验 第三节 参数的区间估计与点估计 第四节 方差的同质性检验 第五节
第一节 假设检验的原理与方法
第一节 假设检验 一 概念 : 假设检验(hypothesis test)又称显著性检验(significance test),就是根据总体的理论分布和小概率原理,对未知或不完全知道的总体提出两种彼此对立的假设,然后由样本的实际原理,经过一定的计算,作出在一定概率意义上应该接受的那种假设的推断。
小概率原理 概率很小的事件在一次抽样试验 中实际是几乎不可能发生的。 如果假设一些条件,并在假设的条件下能够准确地算出事件A出现的概率α 为很小,则在假设条件下的n次独立重复试验中,事件A将按预定的概率发生,而在一次试验中则几乎不可能发生。 =0.05/0.01
平均数的检验 参数检验 频率的检验 假 设 检 验 方差的检验 秩和检验 符号检验 非参数检验 游程检验 秩相关检验
二 、假设检验的步骤 例:设心脏病患者的血红蛋白含量具平均数0=126(mg/L), 2 =240(mg/L)2的正态分布。现用缓舒平对6位心脏病患者进行治疗,治疗后化验测得其平均血红蛋白含量x =136(mg/L)。 治疗前 0=126 2 =240 N ( 126,240 ) 治疗后 n =6 x =136 未知 那么 =0 ? 即缓舒平对治疗心脏是否有效?
1 、提出假设 H0 误差 效应 无效假设 /零假设 /检验假设 0= 对 立 处理 效应 备择假设 /对应假设 0 HA
平均数的假设检验 x-0=136-126=10(mg/L)这一差数 是由于治疗造成的,还是抽样误差所致。 例:缓舒平治疗心脏病是否能提高血红蛋白含量? 检验治疗后的总体平均数是否还是治疗前的126(mg/L)? H0:μ=μ0 =126(mg/L) HA:μ≠μ0 本例中零假设是指治疗后的血红蛋白平均数仍和治疗前一样,二者来自同一总体,接受零假设则表示缓舒平没有疗效。 而相对立的备择假设表示拒绝H0,治疗后的血红蛋白平均数和治疗前的平均数来自不同总体,即缓舒平有疗效。