Bootstrap Method

2022-11-30 0 216

匆忙八岁时,如这场不真实世界的梦。

》中提及的该文,为的是画上面这那哥,彼时现学现用,做了那个讲义。

Bootstrap Method

bootstrap是对探测统计数据集展开有放进(replacement)的随机样品,以评估结论整体的每项统计统计数据分项。可以用作状态参数、Bayesian。益处是并不明确要求大样品,也不明确要求环域统计数据,因此对相同的统计统计数据分项采用的是反之亦然的排序方法。结论也更加可信,再者是排序量大。

统计统计数据推测(statistical inference)是如前所述样品统计统计数据值的样品原产来排序的,样品原产须要从整体中很多的样品来排序,在多于两个样品的情况下,bootstrap对这一随机样品展开有放进的多次重复样品,每两个重样品本与原初随机样品那样大,每天排序适当的样品的统计统计数据值,多次重复了N次后,就能排序统计统计数据值的bootstrap原产。

上面做两个小小测试:

    a <- c(seq(1:10), rnorm(50))

#建立两个样品,60个统计数据,非环域原产的,如下表所示图

Bootstrap Method

b <- rep(0, 1000)

for (i in 1:1000) {

   b[i] <- mean(sample(a, replace=TRUE))

}

对它展开1000次有放进多次重复样品,排序平均值,平均值原产的柱状图和qq图如下表所示:

Bootstrap Method原产是环域的。

> mean(a)    #样品平均值

[1] 0.947186

> mean(b)   #重样品1000个样品平均值的平均值

[1] 0.9358049

> sd(b)

[1] 0.3245479

> sd(a)/sqrt(60)

[1] 0.3318863

由bootstrap方法得到的标准误是0.325,而由原先随机样品所估算的是0.332,两者是相当接近的。由此可见呢,bootstrap方法与理论上的从整体中样品所得到的样品原产是一致的,这样子就能如前所述两个样品来排序样品的原产,而不是要从整体中抽N个样品。

还用上面的例子,采用样品平均值\bar{x}去估算整体的平均值mu,虽然我们的样品不是环域的,但如果bootstrap distribution是环域的话,就能采用类似于单样品t置信区间(明确要求样品是环域的)的公式:

Bootstrap Method

适当的bootstrap t置信区间是:

Bootstrap Method

上面例子,整体均值mu 95%的置信度,就会落在:

Bootstrap Method能采用它,排序所有统计统计数据分项的置信区间。

用作层次聚类分析的两个例子,采用Pvclust那个包,用作层次聚类,并通过multiscale bootstrap resampling给出适当的p-value用作评估结论聚类结论的不确定性。提供了两种p-values,AU(approximately unbiased p-value, 通过multiscale bootstrap resampling排序)和BP(bootstrap probability, 通过normal bootstrap resampling排序),AU比BP较为unbiased。

Pvclust使用hclust(来自于stats包)展开层次聚类,并自动排序所有的子类的p-value。

   library(pvclust)  # loads package

a <- matrix(rnorm(1000), 100, 10, dimnames=list(paste(“g”, 1:100, sep=””), paste(“t”,1:10, sep=””)))  # creats sample data

at <- t(a)  # transposes of a

cl <- pvclust(at, nboot=1000)  #performs hierarchical cluster analysis with multiscale bootstrap with 1000 repetitions.

pvrect(cl, alpha=0.95)  #highlights with red rectangles all clusters in the dendrogram which have an AU value above 95%, AU p-value > 0.95, the hypothesis that “the cluster does not exist” is rejected with significance level 0.05;

Bootstrap Method

#pick significant clusters.

clsig <- pvpick(cl, alpha=0.95, pv=”au”, type=”geq”, max.only=TRUE)  

往期精彩

公号狗的福音

3D版邪恶的曲线

掐架的额外收获

改变outgroup的枝长

ggplot2给选定的分面加背景

CS5: 吃着火锅,唱着歌,还把分析给做了

[连载4]:我像是一颗棋,进退任由你决定

Enhanced annotation of a primate phylogeny with ggtree

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务