您若需要更全面指导,咨询请加QQ:157677920(张老师)2593328532(李老师),微信(电话同号):17051272921。
图是出自《中国统计年鉴》这一资料性年刊,它系统收录了全国和各省、自治区、直辖市经济、社会各方面的统计数据,以及近三十年和其他重要历史年份的全国主要统计数据。此年鉴正文内容分为24个篇章,本文选取其中的第九篇章-人民生活,用以探究我国城镇居民消费结构及其趋势。
表1 《中国统计年鉴—1990-2012》统计表
农村居民家庭基本情况 |
|
|
|
|
|
|
|
指 标 |
1990 |
1995 |
2000 |
2010 |
2011 |
2012 |
|
|
|
|
|
|
|
调查户数 (户) |
66960 |
67340 |
68116 |
68190 |
73630 |
73750 |
调查户人口 (人) |
|
|
|
|
|
|
平均每户常住人口 |
4.80 |
4.48 |
4.20 |
3.95 |
3.90 |
3.88 |
|
|
|
|
|
|
|
平均每户整半劳动力 |
2.92 |
2.88 |
2.76 |
2.85 |
2.78 |
2.76 |
|
|
|
|
|
|
|
平均每个劳动力负 |
|
|
|
|
|
|
担人口(含本人) |
1.64 |
1.56 |
1.52 |
1.39 |
1.40 |
1.40 |
人均全年收入(元) |
|
|
|
|
|
|
总收入 |
990.38 |
2337.87 |
3146.21 |
8119.51 |
9833.14 |
10990.67 |
工资性收入 |
138.80 |
353.70 |
702.30 |
2431.05 |
2963.43 |
3447.46 |
家庭经营收入 |
815.79 |
1877.42 |
2251.28 |
4937.48 |
5939.79 |
6460.97 |
财产性收入 |
35.79 |
40.98 |
45.04 |
202.25 |
228.57 |
249.05 |
转移性收入 |
|
65.77 |
147.59 |
548.74 |
701.35 |
833.18 |
现金收入 |
676.67 |
1595.56 |
2381.60 |
7088.76 |
8638.51 |
9787.19 |
工资性收入 |
136.43 |
352.88 |
700.41 |
2427.89 |
2959.74 |
3443.53 |
家庭经营收入 |
481.19 |
1116.73 |
1498.81 |
3955.36 |
4810.37 |
5313.14 |
财产性收入 |
59.05 |
38.19 |
38.89 |
168.33 |
185.76 |
219.28 |
转移性收入 |
|
87.76 |
143.49 |
537.18 |
682.64 |
811.25 |
纯收入 |
686.31 |
1577.74 |
2253.42 |
5919.01 |
6977.29 |
7916.58 |
工资性收入 |
138.80 |
353.70 |
702.30 |
2431.05 |
2963.43 |
3447.46 |
家庭经营纯收入 |
518.55 |
1125.79 |
1427.27 |
2832.80 |
3221.98 |
3533.37 |
财产性收入 |
28.96 |
40.98 |
45.04 |
202.25 |
228.57 |
249.05 |
转移性收入 |
|
57.27 |
78.81 |
452.92 |
563.32 |
686.70 |
人均全年支出 (元) |
|
|
|
|
|
|
总支出 |
903.47 |
2138.33 |
2652.42 |
6991.79 |
8641.63 |
9605.53 |
家庭经营费用支出 |
241.09 |
621.71 |
654.27 |
1915.62 |
2431.05 |
2626.00 |
购置生产性固定资产 |
20.29 |
62.33 |
63.90 |
193.26 |
265.75 |
272.61 |
税费支出 |
38.66 |
88.65 |
95.52 |
8.57 |
11.67 |
10.04 |
消费支出 |
584.63 |
1310.36 |
1670.13 |
4381.82 |
5221.13 |
5908.02 |
财产性支出 |
18.80 |
55.28 |
19.74 |
49.25 |
12.27 |
9.86 |
转移性支出 |
|
|
148.86 |
443.27 |
699.76 |
778.99 |
现金支出 |
639.06 |
1545.81 |
2140.37 |
6307.43 |
7984.94 |
8961.85 |
家庭经营费用支出 |
162.90 |
454.74 |
544.49 |
1757.58 |
2269.19 |
2483.01 |
购买生产性固定资产 |
20.46 |
62.32 |
63.91 |
193.26 |
265.75 |
272.61 |
税费支出 |
33.37 |
76.96 |
89.81 |
8.56 |
11.65 |
9.96 |
消费支出 |
374.74 |
859.43 |
1284.74 |
3859.33 |
4733.35 |
5414.47 |
财产性支出 |
47.59 |
92.35 |
9.82 |
49.25 |
12.27 |
9.86 |
转移性支出 |
|
|
147.60 |
439.45 |
692.73 |
771.94 |
|
|
|
|
|
|
|
注:1.本表为城镇住户抽样调查资料。
2.从2002年起,城镇住户调查对象由原来的非农业人口改为城市市区和县城关镇住户,本篇章相关资料均按新口径计算,历史数据作了相应调整。
SPSS统计分析
图一给出了基本的描述性统计图,图中显示各个变量的全部观测量的Mean(均值)、Std.Deviation(标准差)和观测值总数N。图2给出了相关系数矩阵表,其中显示3个自变量两两间的Pearson相关系数,以及关于相关关系等于零的假设的单尾显著性检验概率。
图1 描述性统计表
图2 相关系数矩阵
从表中看到因变量家庭设备用品及服务与自变量食品、衣着之间相关关系数依次为0.869、0.684,反映家庭设备用品及服务与食品、衣着之间存在显著的相关关系。说明食品与衣着对于家庭设备用品及服务条件的好转有显著的作用。自变量居住于因变量家庭设备用品及服务之间的相关系数为-0.894,它于其他几个自变量之间的相关系数也都为负,说明它们之间的线性关系不显著。此外,食品与衣着之间的相关系数为0.950,这也说明它们之间存在较为显著的相关关系。按照常识,它们之间的线性相关关系也是符合事实的。
图3给出了模型整体拟合效果的概述,模型的拟合优度系数为0.982,反映了因变量于自变量之间具有高度显著的线性关系。表里还显示了R平方以及经调整的R值估计标准误差,另外表中还给出了杜宾-瓦特森检验值DW=2.632,杜宾-瓦特森检验统计量DW是一个用于检验一阶变量自回归形式的序列相关问题的统计量,DW在数值2到4之间的附近说明模型变量无序列相关。
图3:模型概述表
图4给出了方差分析表,我们可以看到模型的设定检验F统计量的值为9.229,显著性水平的P值为0.236。
图5 方差分析表
图6给出了回归系数表和变量显著性检验的T值,我们发现,变量居住的T值太小,没有达到显著性水平,因此我们要将这个变量剔除,从这里我们也可以看出,模型虽然通过了设定检验,但很有可能不能通过变量的显著性检验。
图6 回归系数表
图7给出了残差分析表,表中显示了预测值、残差、标准化预测值、标准化残差的最小值、最大值、均值、标准差及样本容量等,根据概率的3西格玛原则,标准化残差的绝对值最大为1.618,小于3,说明样本数据中没有奇异值。
图7 残差统计表
图8给出了模型的直方图,由于我们在模型中始终假设残差服从正态分布,因此我们可以从这张图中直观地看出回归后的实际残差是否符合我们的假设,从回归残差的直方图于附于图上的正态分布曲线相比较,可以认为残差的分布不是明显地服从正态分布。尽管这样也不能盲目的否定残差服从正态分布的假设,因为我们用了进行分析的样本太小,样本容量仅为5。
图8 残差分布直方图
从上面图4的分析结果看,我们的模型需要剔除居住这个变量,用本次实验中的方法和步骤重新令家庭设备用品及服务对食品和衣着回归,得到的主要结果如图9、图10和图11所示,跟上面的分析类似,从中可以看出,剔除居住这个变量后,模型拟合优度为0.964,比原来有所降低;而方差分析的F检验为27.071,新模型与原来的模型相比,各个系数都通过了显著性T检验,因此更加合理,从而我们可以得出结论:剔除居住这个变量后的模型更加合理,因此在做预测过程中要使用剔除不显著变量后的模型。
图9 模型概述
图10 方差分析表
图11 回归系数表
HLM软件分析步骤:
1、创建HLM可识别的数据文件(*.ssm/mdm格式)
1.1创建SSM数据文件的原始数据准备:
HLM支持的原始数据格式包括纯文本,SPSS,SAS,STAT等主流统计软件,如果不兼容,可以转换成HLM支持的数据格式。一般而言,一层结构一个数据文件,而且这些数据文件,需要存在一个同样的标识变量(ID),最好是数字型的。每层的数据文件均按照这个标识变量排序。
1.2生成MDM文件(指定数据层级及相关信息):
选择你需要建立的模型层数,以下以两层为例。选择群组嵌套设计还是追踪测量设计=》浏览指定第一层的文件=》指定标识变量和非标识变量=》指定对缺失数据的处理;浏览指定第二层的文件=》指定标识变量和非标识变量(HLM的高层数据不允许缺失)。
如果是两层以上的数据,原理相同,只不过最高层要指定下一层级的标识变量ID及总标识变量。
1.3指定要存储的SSM文件名,生成SSM/MDM文件。
1.4检查生成SSM是否正确。此过程对于后面的统计分析相当重要,数据的正确性是所有准确进行统计分析的前提。
2、建立模型
2.1指定第一层的因变量和自变量:
在HLM左边的变量列表中选择因变量,点击左键“outcome variable”选择因变量,点击“add variable group centered”选择自变量。
2.2指定第二层的变量:
在指定第二层的自变量之前,先建立随机回归模型来考察第一层的变量在第二层上差异是否显著,然后根据差异情况来选择合适的第二层的变量作为自变量。随机回归模型即是指在第二层上不做设定,按照系统默认的模型来进行分析。具体结果需要参考方差成分和显著性的结果,如果方差成分不显著,说明此因素对因变量的影响在不同的群组之间差异不显著,这样就没有必要在第二层以该回归系数为因变量来建构相应的二层模型了,在设定模型时把相应beta固定即可Β1=γ10。
指定第二层的自变量:“add variable uncentered”,没有第三层时,截距意义不重要,采用这种方法定义进入方式即可。
2.3模型修正及结果解释:
HLM输出结果由两部分构成:OLS回归结果与HLM结果(收缩估计)。OLS结果与一般回归结果一致。
1信度估计:两部分结果的分界线是信度估计,它表示的是第二层的总方差的解释率,即参数估计的精确度。若某项上信度系数较小,可以考虑修改模型,即固定相应模型。
2HLM结果:包括回归系数的估计与显著性、方差成分的估计与显著性。
3跨级相关:是指Y的总变异中有多少是由于第二层单位间的差异造成的。计算跨级相关时需计算两层的随机变异,此时,建立模型时,第一层和第二层的自变量均不入模型,只考虑随机变异成分。参看方差成分的结果,跨级相关即为截距方差/(截距方差+随机方差)。