区块链(blockchain)是彼时的大炙手可热,媒体大量报导,声称它将缔造未来。可是,单纯简练的进阶该文却极少。区块链究竟是甚么,答不同之处,极少有说明。上面,我就来试著,写一则最合适懂的区块链讲义。
即便它也不是极难的东西,核心理念基本概念比较单纯,这段话就能说确切。我希望念完责任编辑,你不仅能认知区块链,还会明白甚么是矿机、为甚么矿机愈来愈难等问题。
细细地了解区块链,还是从去年底开始。该文的严重错误和不精确的地方,热烈欢迎大家尖萼。
一、区块链的其本质
区块链是甚么?一句话,它是一种特定的分布式资料库。
首先,区块链的主要作用是存储重要信息。其他人需要留存的重要信息,都可以载入区块链,也能从里头加载,所以它是资料库。
其二,其他人人都能铺设伺服器,重新加入区块链互联网,成为两个结点。区块链的世界里头,没服务中心结点,每一结点都是公平的,都留存着整座资料库。你能向其他人两个结点,载入/抹除,即使所有结点最后单厢并行,确保区块链完全一致。
二、区块链的最大特征
分布式资料库绝非截叶,市场上早有这类产品。但,区块链有两个颠覆性特征。
区块链没图书馆员,它是全盘无服务中心的。其它的数据库都有图书馆员,但区块链没。如果有人想对区块链加进审查,也实现没法,即使它的设计目标就是避免出现身居服务中心地位的管理工作英国政府。
正是即使难以管理工作,区块链才能努力做到难以被掌控。不然一旦大公司大集团掌控了拥有权,她们就会掌控整座互联网平台,其它普通用户就都必须听命她们了。
但,没了图书馆员,人人都能往里头载入数据,怎么才能确保数据是可信的呢?被坏人改了怎么办?请接着往下读,这就是区块链奇妙的地方。
三、区块
区块链由两个个区块(block)组成。区块很像资料库的记录,每次载入数据,就是创建两个区块。
每一区块包含两个部分。
区块头(Head):记录当前区块的特征值区块体(Body):实际数据区块头包含了当前区块的多项特征值。
生成时间实际数据(即区块体)的哈希上两个区块的哈希…这里,你需要认知甚么叫哈希(hash),这是认知区块链必需的。
所谓”哈希”就是计算机能对任意内容,计算出两个长度相同的特征值。区块链的 哈希长度是256位,这就是说,不管原始内容是甚么,最后单厢计算出两个256位的二进制数字。而且能确保,只要原始内容不同,对应的哈希一定是不同的。
举例来说,字符串123的哈希是a8fdc205a9f19cc1c7507a60c4f01b13d11d7fd0(十六进制),转成二进制就是256位,而且只有123能得到这个哈希。(理论上,其它字符串也有可能得到这个哈希,但概率极低,能近似认为不可能发生。)
因此,就有两个重要的推论。
推论1:每一区块的哈希都是不一样的,能通过哈希标识区块。
推论2:如果区块的内容变了,它的哈希一定会改变。四、 Hash 的不可修改性
区块与哈希是一一对应的,每一区块的哈希都是针对”区块头”(Head)计算的。也就是说,把区块头的各项特征值,按照顺序连接在一起,组成两个很长的字符串,再对这个字符串计算哈希。
Hash = SHA256( 区块头 )上面就是区块哈希的计算公式,SHA256是区块链的哈希算法。注意,这个公式里头只包含区块头,不包含区块体,也就是说,哈希由区块头唯一决定。
前面说过,区块头包含很多内容,其中有当前区块体的哈希,还有上两个区块的哈希。这意味着,如果当前区块体的内容变了,或者上两个区块的哈希变了,一定会引起当前区块的哈希改变。
这一点对区块链有重大意义。如果有人修改了两个区块,该区块的哈希就变了。为了让后面的区块还能连到它(即使下两个区块包含上两个区块的哈希),该人必须依次修改后面所有的区块,不然被改掉的区块就脱离区块链了。由于后面要提到的原因,哈希的计算很耗时,短时间内修改多个区块几乎不可能发生,除非有人掌握了全网51%以上的计算能力。
正是通过这种联动机制,区块链确保了自身的可靠性,数据一旦载入,就难以被篡改。这就像历史一样,发生了就是发生了,从此再难以改变。
每一区块都连着上两个区块,这也是”区块链”这个名字的由来。
五、采矿
由于必须确保结点之间的并行,所以新区块的加进速度不能太快。试想一下,你刚刚并行了两个区块,准备基于它生成下两个区块,但这时别的结点又有新区块生成,你不得不放弃做了一半的计算,再次去并行。即使每一区块的后面,只能跟着两个区块,你永远只能在最新区块的后面,生成下两个区块。所以,你别无选择,一听到信号,就必须立刻并行。
所以,区块链的发明者中本聪(这是假名,真实身份至今未知)故意让加进新区块,变得很困难。他的设计是,平均每10分钟,全网才能生成两个新区块,一小时也就六个。
这种产出速度不是通过命令达成的,而是故意设置了海量的计算。也就是说,只有通过极其大量的计算,才能得到当前区块的有效哈希,从而把新区块加进到区块链。由于计算量太大,所以快不起来。
这个过程就叫做采矿(mining),即使计算有效哈希的难度,好比在全世界的沙子里头,找到一粒符合条件的沙子。计算哈希的机器就叫做矿机,操作矿机的人就叫做矿工。
六、难度系数
读到这里,你可能会有两个疑问,人们都说采矿极难,可是采矿不就是用计算机算出两个哈希吗,这正是计算机的强项啊,怎么会变得极难,迟迟算不出来呢?
原来不是任意两个哈希都能,只有满足条件的哈希才会被区块链接受。这个条件特别苛刻,使得绝大部分哈希都不满足要求,必须重算。
原来,区块头包含两个难度系数(difficulty),这个值决定了计算哈希的难度。举例来说,第100000个区块的难度系数是 14484.16236122。
区块链协议规定,使用两个常量除以难度系数,能得到目标值(target)。显然,难度系数越大,目标值就越小。
哈希的有效性跟目标值密切相关,只有小于目标值的哈希才是有效的,否则哈希无效,必须重算。由于目标值非常小,哈希小于该值的机会极其渺茫,可能计算10亿次,才算中一次。这就是采矿如此之慢的根本原因。
前面说过,当前区块的哈希由区块头唯一决定。如果要对同两个区块反复计算哈希,就意味着,区块头必须不停地变化,不然不可能算出不一样的哈希。区块头里头所有的特征值都是固定的,为了让区块头产生变化,中本聪故意增加了两个随机项,叫做 Nonce。
Nonce 是两个随机值,矿工的作用其实就是猜出 Nonce 的值,使得区块头的哈希能小于目标值,从而能够载入区块链。Nonce 是非常难猜的,目前只能通过穷举法两个个试错。根据协议,Nonce 是两个32位的二进制值,即最大能到21.47亿。第 100000 个区块的 Nonce 值是274148111,能认知成,矿工从0开始,一直计算了 2.74 亿次,才得到了两个有效的 Nonce 值,使得算出的哈希能够满足条件。
运气好的话,也许一会就找到了 Nonce。运气不好的话,可能算完了21.47亿次,都没发现 Nonce,即当前区块体不可能算出满足条件的哈希。这时,协议允许矿工改变区块体,开始新的计算。
七、难度系数的动态调节
正如上一节所说,采矿具有随机性,没法确保正好十分钟产出两个区块,有时一分钟就算出来了,有时几个小时可能也没结果。总体来看,随着硬件设备的提升,以及矿机的数量增长,计算速度一定会愈来愈快。
为了将产出速率恒定在十分钟,中本聪还设计了难度系数的动态调节机制。他规定,难度系数每两周(2016个区块)调整一次。如果这两周里头,区块的平均生成速度是9分钟,就意味着比法定速度快了10%,因此接下来的难度系数就要调高10%;如果平均生成速度是11分钟,就意味着比法定速度慢了10%,因此接下来的难度系数就要调低10%。
难度系数越调越高(目标值愈来愈小),导致了采矿愈来愈难。
八、区块链的分叉
即使区块链是可靠的,现在还有两个问题没解决:如果两个人同时向区块链载入数据,也就是说,同时有两个区块重新加入,即使它们都连着前两个区块,就形成了分叉。这时应该采纳哪两个区块呢?
现在的规则是,新结点总是采用最长的那条区块链。如果区块链有分叉,将看哪个分支在分叉点后面,先达到6个新区块(称为”六次确认”)。按照10分钟两个区块计算,一小时就能确认。
由于新区块的生成速度由计算能力决定,所以这条规则就是说,拥有大多数计算能力的那条分支,就是正宗的区块链。
九、总结
区块链作为无人管理工作的分布式资料库,从2009年开始已经运行了8年,没出现大的问题。这证明它是可行的。
但,为了确保数据的可靠性,区块链也有自己的代价。一是效率,数据载入区块链,最少要等待十分钟,所有结点都并行数据,则需要更多的时间;二是能耗,区块的生成需要矿工进行无数无意义的计算,这是非常耗费能源的。
因此,区块链的适用场景,其实非常有限。
不存在所有成员都信任的管理工作英国政府 载入的数据不要求实时使用 矿机的收益能够弥补本身的成本如果难以满足上述的条件,那么传统的资料库是更好的解决方案。