590 likes | 707 Views
统计学第二次大作业. —— 股票分析. 管理学院 信息04702第三小组 组员 李丽芹 刘鹤 蔡鲁文 何康. 一、背景介绍 二、引出问题 三、数据说明 四、数据预处理 五、相关性分析 六、回归分析 七、时间序列分析 八、总结. 一、背景介绍.
E N D
统计学第二次大作业 ——股票分析
管理学院 信息04702第三小组 • 组员 李丽芹 刘鹤 蔡鲁文 何康
一、背景介绍 二、引出问题 三、数据说明 四、数据预处理 五、相关性分析 六、回归分析 七、时间序列分析 八、总结
一、背景介绍 • 随着我国经济的发展和经济体制改革的深入,建立一个繁荣有效的金融市场势在必行,证券市场作为它的重要组成部分,正在发挥越来越重要的作用。在这一进程中,股票投资成为了一个越来越被普遍接受的投资选择。广大投资者不断寻求对个股和大盘分析和预测的有效途径以便对投资选择提供保障和支持。个股组成大盘,大盘反作用于个股,这似乎是毋庸质疑的事实。那么,能否通过探求它们之间的关系从而对预测和决策提供支持就成了我们所关心的课题。
本案例中采用的典型个股“深发展”是由深圳特区金融行业中6家城市信用社通过股份化改造组建而成的深圳发展银行。该银行于1987年5月向社会公开发行股票,同年12月28日正式开业,其股票于1991年4月3日在深圳证券交易所上市。另一典型个股“四川长虹”即四川长虹电器股份有限公司。该公司属于电子行业,成立于1988年7月8日,1994年3月11日“四川长虹(A股)”在上海证券交易所上市交易。两者在发展历程中,业绩均连年增长较快,发展的潜力都很大。本案例中采用的典型个股“深发展”是由深圳特区金融行业中6家城市信用社通过股份化改造组建而成的深圳发展银行。该银行于1987年5月向社会公开发行股票,同年12月28日正式开业,其股票于1991年4月3日在深圳证券交易所上市。另一典型个股“四川长虹”即四川长虹电器股份有限公司。该公司属于电子行业,成立于1988年7月8日,1994年3月11日“四川长虹(A股)”在上海证券交易所上市交易。两者在发展历程中,业绩均连年增长较快,发展的潜力都很大。
二、引出问题 “深发展”和“四川长虹”都是有一定影响力的,各自在其大盘中占有较大的权重,扮演着领头羊的角色。两只股票在其发展中呈现出较强的相关波动,像一对孪生姐妹,它们的发展表现出同升、同降的现象。他们是否具有一定的内在联系?如果存在内在的联系,那么根据任一股票的变化能否判断另一股票的变动趋势?由于两者都是龙头股,根据他们的变动进而能否对大盘的变动做出推测?这正是我们将要讨论的问题。
问题研究方法 • 我们主要采用相关性分析、回归分析、时间序列分析的方法进行分析,其中主要有个股和个股的关系(即“深发展”和“四川长虹” 的关系)、个股和大盘之间的关系(即“深发展”和“深证指数” 的关系、“四川长虹” 和“上证指数” 的关系)进行分析。
三、数据说明 • 本案例中采用的数据以1998年12月29日至2002年3月13日“深证指数”的每日收盘指数、“上证指数”的每日收盘指数、“深发展”的日收盘价和“四川长虹”的日收盘价为变量
本案例数据既不是严格的日数据,也不是严格的每周5天的交易数据(周末和节假日停盘),起始日期1998年12月29日(在序列中的标号定为1),终止日期2002年3月13日(序列标号定为780),由于非交易日不在数据序列当中,所以1998年12月29日到2002年3月13日共计780个交易日。本案例数据既不是严格的日数据,也不是严格的每周5天的交易数据(周末和节假日停盘),起始日期1998年12月29日(在序列中的标号定为1),终止日期2002年3月13日(序列标号定为780),由于非交易日不在数据序列当中,所以1998年12月29日到2002年3月13日共计780个交易日。
四、数据预处理 • 由于数据中有部分缺失(“四川长虹”日收盘价 缺少80个,“深发展”日收盘价 缺少一个),会影响数据关系的分析,因此我们预先用SPSS软件对其中的缺失的部分进行了预处理: • 用SPSS中Transform—>Replace missing values 功能
其中,由于“四川长虹”日收盘价 数据存在连续缺失,所以我们应用Linear trend at point选项进行补缺。 对于“深发展”日收盘价 ,仅缺少一个数据,所以我们应用mean of nearby point选项进行补缺。
五、相关性分析 • “深发展”和“四川长虹” 的相关性 散点图
由上表可知:深发展 和四川长虹 具有较强的相关性。
“深发展”和“深证指数” 的相关性 散点图:
由上表可知: “深发展”和“深证指数”具有很强的相关性。
“四川长虹” 和“上证指数” 的相关性 散点图:
由上表可知:四川长虹和上证指数具有较强的相关性。由上表可知:四川长虹和上证指数具有较强的相关性。
六、回归分析 • 由上述的相关分析可知: 个股与个股、个股和大盘之间都存在着较强的相关关系。因此,我们用回归分析来建立彼此之间的一元线性回归模型。 用SPSS软件分析可得出以下结果:
描述统计量表和相关系数矩阵: “深发展”和“四川长虹” 的回归模型 变量深发展和四川长虹的相关系数为0.85,说明两者关系紧密; P值<0.05,拒绝两变量没有相关性的假设。
模型综述表: R Square=0.723,表明深发展可以解释四川长虹72.3%的变异性。 调整后的R Square=0.722,可以更好地反映模型拟和的整体情况。
回归系数显著性检验: 由于显著性水平<0.05,即认为回归系数不为零,方程是有意义的。
系数表和系数相关性分析表: 显著性系数<0.05,说明这两项系数都是显著性统计。 四川长虹=1.243*深发展+1.845 其中: 常数项的95%的置信区间为(0.806,2.884); 系数的95%的置信区间为(1.187,1.300).
残差分析 标准化残差频数直方图: 可见标准化残差频数大致符合正态分布。
P-P图: P-P图近似为一条直线,因此标准化残差满足正态性分布。
标准化残差-标准化预测值散点图: 由于散点基本分布在零轴两侧,因此可以认为线性假设成立。
标准化预测值-学生化残差: 由于散点基本分布在零轴两侧,因此可以认为方差齐性假设成立。
因此,可以认为由一元线性回归得出的模型能比较好的反映两者之间的线性关系。因此,可以认为由一元线性回归得出的模型能比较好的反映两者之间的线性关系。
“深发展”和“深证指数” 的回归模型 描述统计量表和相关系数矩阵: 变量深发展和深证指数的相关系数为0.921,说明两者关系紧密; P值<0.05,拒绝两变量没有相关性的假设。
“深发展”和“深证指数” 的回归模型 R Square=0.848,表明变量深发展可以解释变量深证指数84.8%的变异性。 调整后的R Square=0.847。
回归系数显著性检验: 由于显著性水平<0.05,即认为回归系数不为零,方程是有意义的。
系数表和系数相关性分析表: 显著性系数<0.05,说明这两项系数都是显著性统计。 深证指数=157.660*深发展+2.003 其中: 常数项的95%的置信区间为(-86.833,90.839); 系数的95%的置信区间(152.954,162.366).
残差分析 标准化残差频数直方图: 可见标准化残差频数大致符合正态分布。
P-P图: P-P图近似为一条直线,因此标准化残差满足正态性分布。
标准化残差-标准化预测值散点图: 由于散点基本分布在零轴两侧,因此可以认为线性假设成立。
标准化预测值-学生化残差: 由于散点基本分布在零轴两侧,因此可以认为方差齐性假设成立。
因此,可以认为由一元线性回归得出的模型能比较好的反映两者之间的线性关系。因此,可以认为由一元线性回归得出的模型能比较好的反映两者之间的线性关系。
“四川长虹” 和“上证指数” 的关系 描述统计量表和相关系数矩阵: 变量四川长虹和上证指数的相关系数为0.903,说明两者关系紧密; P值<0.05,拒绝两变量没有相关性的假设。
模型综述表: R Square=0.815,表明变量深发展可以解释变量深证指数84.8%的变异性。 调整后的R Square=0.815。
回归系数显著性检验: 由于显著性水平<0.05,即认为回归系数不为零,方程是有意义的。
系数表和系数相关性分析表: 显著性系数<0.05,说明这两项系数都是显著性统计。 上证指数=17.911*四川长虹+462.829; 其中: 常数项的95%的置信区间为(446.916,478.943); 系数的95%的置信区间(17.286,18.536).
残差分析 标准化残差频数直方图: 可见标准化残差频数大致符合正态分布。
P-P图: P-P图近似为一条直线,因此标准化残差满足正态性分布。
标准化残差-标准化预测值散点图: 由于散点基本分布在零轴两侧,因此可以认为线性假设成立。
标准化预测值-学生化残差: 由于散点基本分布在零轴两侧,因此可以认为方差齐性假设成立。
因此,可以认为由一元线性回归得出的模型能比较好的反映两者之间的线性关系。因此,可以认为由一元线性回归得出的模型能比较好的反映两者之间的线性关系。
综上所述:个股与个股之间、个股与大盘之间存在着比较明显的关系,且符合如下的线性回归模型:综上所述:个股与个股之间、个股与大盘之间存在着比较明显的关系,且符合如下的线性回归模型: 四川长虹=1.243*深发展+1.845; 深证指数=157.660*深发展+2.003; 上证指数=17.911*四川长虹+462.829
七、时间序列分析 “深发展”的频度图: