Bootstrap方式亦然模块统计数据中一类关键的估算统计数据量可变性,并可展开统计数据量区段估算的统计数据方式,也称作自助式法。
其中心思想和基本上关键步骤如下表所示:
(1) 选用多次重复样本控制技术从原初样品中抽掉很大数目(可他们取值,通常与原初样品完全相同)的样品,此操作过程容许多次重复样本。
(2) 依照抽掉的样品排序待估算的统计数据量T。
(3) 多次重复前述N次(通常小于1000),获得N个统计数据量T。
(4) 排序前述N个统计数据量T的样品标准差,以估算统计数据量T的标准差。
如果说Bootstrap是当代统计数据学极为盛行的一类统计数据方式,在小样品时效用较好。透过标准差的估算能内部结构概率密度函数等,其应用领域覆盖范围获得更进一步延展。
即使该方式充分运用了取值的探测关键信息,不须要模型其它的假定和增加新的探测,并且具有稳健性和效率高的特点。1980年代以来,随着排序机控制技术被引入到统计数据实践中来,此方式越来越受欢迎,在机器学习领域应用领域也很广泛。
首先,Bootstrap透过重样本,能避免了Cross-Validation造成的样品减少问题,其次,Bootstrap也能用于创造数据的随机性。比如,我们所熟知的随机森林算法第一步就是从原初训练数据集中,应用领域bootstrap方式有放回地随机抽掉k个新的自助式样品集,并由此构建k棵分类回归树。
扩展资料:
Bootstrap是美国Twitter公司的设计师Mark Otto和Jacob Thornton合作基于HTML、CSS、JavaScript 开发的简洁、直观、强悍的前端开发框架,使得 Web 开发更加快捷。