bootstrap方法是什么意思
Bootstrap方法是非参数统计中一种重要的估计统计量变异性,并可进行统计量区间估计的统计方法,也称为自助法。
其核心思想和基本步骤如下:
(1) 采用重复抽样技术从原始样本中抽取一定数量(可自己给定,一般与原始样本相同)的样本,此过程允许重复抽样。
(2) 根据抽出的样本计算待估计的统计量T。
(3) 重复上述N次(一般大于1000),得到N个统计量T。
(4) 计算上述N个统计量T的样本方差,以此估计统计量T的方差。
应该说Bootstrap是现代统计学较为流行的一种统计方法,在小样本时效果很好。通过方差的估计可以构造置信区间等,其应用范围得到进一步延伸。
具体抽样方法举例:想要知道池塘里面鱼的数量,可以先抽取N条鱼,做上记号,放回池塘。
进行重复抽样,抽取M次,每次抽取N条,考察每次抽到的鱼当中有记号的比例,综合M次的比例,在进行统计量的计算。
应用bootstrap的原因:其实,在进行分析的时候,首先要做的就是,判断随机变量的类型,然后就是判断随机变量的数据服从什么分布。什么分布至关重要,因为它直接决定能不能分析。举例:如果进行方差分析,首先就要求正态分布,如果不是正态分布,就要有补救措施,这个补救措施就是bootstrap。bootstrap还有一个用处,因为经典统计学对集中趋势比较完善,但是对其他一些分布参数,例如中位数,四分位数,标准差,变异系数等的区间估计不完善,所以就需要bootstrap,这种方法。bootstrap和经典统计学方法类似,一般情况参数法效率高于非参数法,但是,参数法最大的弊端就是需要事先有一个分布模型,如果模型不符合,分析结果可能错误,也就是白分析。
如果数据存在明显的层次,可以用分层抽样提高分析效率,spss默认是非参数bootstrap方法,并且采用完全随机抽样,所以,如果要求分层抽样,不能依靠默认,需要自己设置。
还有特别需要注意,需要多少个观测量才是最科学,最合理的,答案是1000个。少于这个数字,计算结果不准确,因为是按照百分位数法计算可信区间,所以,不能太少。如果多于1000个,多数情况下精度改善非常有限,并且浪费系统资源和计算时间。
bootstrap的spss分析中的操作步骤:“分析”~“比较均值”~“均值”~选择好自变量和因变量~“选项”子对话框~“单元格统计量”~bootstrap子对话框~执行bootstrap复选框
还有一点,如果因变量符合或者大概符合正态分布,bootstrap方法就可以不用。