这是对我国育苗睿智生态系剖析中关于演算法的部分。
巴洛克时期的油画家维达其罗在圣彼得大修道院修道院天底下音乐创作了两幅雕塑《启示录》,在三毛罗镜镇,天主天降,将手掌对准丹尼尔,在那个惊险的一瞬间,丹尼尔的躯体被转化成了睿智。
正像人类文明被天主突显睿智一样,计算机系统也正在被人类文明突显睿智。而睿智的其本质是演算法。
自2016年Google的Delta狗击败我国围棋天才少年柯洁以来,育苗睿智早已成为黄金时代的独派。不断有各式各样的新子公司不断涌现出来,它们宣称自己是搞育苗睿智的。这些子公司组成了一个纷繁的生态系。据报导,止到2017年6月,全球总共有育苗睿智企业2542家,而我国有592家,占比为23%。所以,呢所有的育苗睿智企业都具有演算法结构设计潜能呢?实情的确不是这样的。
甚么是育苗睿智?
笛卡儿曾在提问“甚么是人?”那个问题的时候直言不讳地指出“我思,懂吗”。笛卡儿指出,人类文明的其本质是思索。
所以,如果两台计算机系统也会思索呢?
他们可以把育苗睿智指出是一种会思索的电脑。但是,究竟甚么是“思索?”比如说两台会打乒乓球的电脑且不说在思索?
因此,他们需要更明晰的育苗睿智的表述。可是的是,育苗睿智的表述一直是非常模糊不清的,那个基本概念从提出来到后来被课堂教学,其间早已历经了60十多年的时间。
根据2017年罗永浩与王咏刚老先生合译的《育苗睿智》那哥,对育苗睿智这一基本概念总共有5种表述,其中,第4种表述可能最吻合充分反映育苗睿智的其本质:育苗睿智是会自学的计算机程序。
在那个表述中,育苗睿智与自学潜能联系了起来。那个表述也凸显了自学型演算法对育苗睿智的重要性。也就是说,对育苗睿智来说,更重要的应该是自学潜能,而不是思索潜能。
最新崛起的育苗睿智,不但具有自学能力,而且还具有“深度自学”的潜能。
这里说到的“深度自学”,其实指的是育苗睿智软件所采用的一种演算法。甚么是演算法呢?这就好像他们用纸牌算24点,比如说有4个扑克牌,每张牌上的数字分别是:2、4、9、6。他们需要用加减乘除四则运算来得到24(每个数字只能参与一次计算)。
他们可以采取两种不同的演算法。
第一个演算法是:4×9-2×6=36-12=24
第二个演算法是:4x(9-6/2)=4x(9-3)=4×6=24
因此,采取不同的演算法,可以从早已存在的数据中得到相同的结果。但很明显,第一种演算法只需要历经一个中间步骤;而第二种演算法需要历经两个中间步骤。因此,从计算所花费的时间来说,第一种演算法更快速更高效。
同样道理,深度自学是育苗睿智的基本演算法之一,与深度自学演算法并列的还有专家系统与统计模型等。
学术界给出了育苗睿智的三要素:数据、计算潜能以及演算法。
演算法对育苗睿智具有与生俱来的重要性。
从育苗睿智的三要素来看:数据是育苗睿智的原料,育苗睿智一般要吃进去一些数据然后才能建立一个理论模型,从而具有智能——这就是Delta狗的工作原理,Delta狗在看了几千个棋谱以后,自己与自己实战对弈,产生了大量数据,在这些数据的基础上自学总结下棋经验,最后具有了很高的智能。而计算潜能与硬件相关,这包括CPU与GPU、FPGA以及ASIC等硬件解决方式,比如说当年吴恩达在Google的时候就是动用了上万个CPU来做“猫脸识别”,取得了巨大成功——计算机系统开始认识了猫,目前在计算潜能上,业界倾向于开发专用的育苗睿智芯片来处理相关的问题,比如说寒武纪开发的育苗睿智芯片就早已用到了华为的手机上。育苗睿智的演算法也非常广泛,其中比较重要的演算法是深度自学演算法,而实现深度自学演算法的框架则有Tensor flow、Caffe、MXNet、Keras等。目前来看,华人在育苗睿智演算法结构设计上并不落后,其中Caffe与MXNet都是我国人发明的。Caffe的发明人是贾扬清,MXNet的作者是李沐。
深度自学演算法究竟是甚么?
2006年,深度自学的创始人杰弗里.辛顿及合作者发表了一个里程碑的文章《一种深度置信网络的快速自学演算法》,这一论文宣告了深度自学黄金时代的来临。
深度自学演算法能在目前的育苗睿智方法中占据了主流地位,这背后的原因是深度神经网络的发展。
深度神经网络中的“深度”两个字指的是“多层”的神经网络。如果把神经网络看成是一个大楼,所以深度神经网络就有一个多层的大厦,它可以有比较多的神经元结构层次,一般来说,他们可以把隐藏层多于一层的神经网络结构称为“多层”的神经网络,也就是深度神经网络。
如果从“血统”上来说,电脑自学是深度自学的父亲。而深度神经网络是深度学习的母亲。这对父母一结合,生出来的孩子才是深度自学。
他们可以用公式来表示那个关系:
深度自学=电脑自学+深度(多层)神经网络
与人的自学还是不太一样的。电脑的深度自学一般要依靠大数据,比如说计算机系统要看过几百万张汽车的照片以后,才能在图像识别中确定出汽车的照片。而一个小孩只需要看过两三辆汽车,就可以把汽车识别出来。从那个意义上来说,人类文明的自学不太需要大数据。与人类文明的自学潜能相比,这也说明目前的深度自学演算法还有很大的进步空间。
育苗睿智有哪些应用场景
从育苗睿智的应用场景来看,大概可以划分6大类:自然语言处理、知识表示、自动推理、电脑自学、计算机系统视觉以及电脑人学。其中,每一大类又可以分为各个小类,比如说计算机系统视觉又可以具体应用到人脸识别以及自动驾驶等多个垂直领域。
正像石墨烯行业最核心的问题是需要找到合理的应用场景一样,虽然育苗睿智基本概念如火如荼,但也需要真正落地找到切实的应用场景,实现良性的商业循环。
目前来说,育苗睿智的应用层出不穷,不断涌现了很多企业。比如说育苗睿智可以用到医疗与教育领域,也可以用到物流与安防领域,甚至可以用到军事领域。在那个过程中,不断涌现了非常多的垂直领域的子公司,但能够不依靠融资,在商业上获得正循环的企业并不多。
因此,他们需要考虑的是这些企业的核心竞争力。正像芯片的核心竞争力是光刻机与EDA工具一样,育苗睿智的核心竞争力在演算法结构设计潜能。腾讯副总裁姚星曾在展望育苗睿智行业的发展趋势时说:“演算法,将成为育苗睿智黄金时代的‘科技原力’”。
国内有哪些企业具有育苗睿智的演算法结构设计潜能呢?
一般来说,要结构设计演算法,必须要有相关的科学家或者有研究历经的工程师,否则很难进行育苗睿智的演算法创新。育苗睿智的演算法结构设计对数学与计算机系统技术都是有比较高的要求,不是一般的程序员可以胜任的。
因此,懂演算法结构设计的科学家成为育苗睿智子公司的核心竞争力之一。
以阿里巴巴子公司为例子,2017 年 7 月,阿里巴巴发布“天猫精灵”,其背后的专利包括基于神经网络的声纹识别技术。用户可以使用天猫精灵的对话操作系统,通过语音进行购物和支付,并使用独特的语音签名作为身份验证的一种形式。所以,阿里巴巴的这些育苗睿智演算法是怎么结构设计出来的呢?据了解,阿里育苗睿智实验室的首席科学家是王刚。王刚2005年本科毕业于哈尔滨工业大学,2010年在伊利诺伊大学香槟分校获博士学位。王刚此前在新加坡南洋理工担任教授,他显然是一名学院派出身的育苗睿智专家。
百度子公司作为国内育苗睿智的领先企业,也曾聘请了多位育苗睿智领域的科学家。百度曾聘请余凯、吴恩达、陆奇等育苗睿智专家担任高管,这也从侧面反应了百度在育苗睿智领域有很强的演算法结构设计潜能。正是在演算法结构设计潜能的基础上,百度才发布了阿波罗无人驾驶系统等育苗睿智平台。
寒武纪作为国内第一家发布育苗睿智芯片的子公司,其自主研发的育苗睿智芯片早已应用于华为手机。而它的创始人之一陈天石2010年毕业于我国科学技术大学计算机学院,获工学博士学位。同年陈天石进入我国科学院计算技术研究所工作,研究方向为计算机系统体系结构和计算智能,他也是一位具有育苗睿智演算法结构设计潜能的科学家。
旷视科技的联合创始人与首席技术官唐文斌毕业于清华大学,曾是清华大学计算机系统系研究生,他还是全国青少年信息学奥林匹克竞赛、首届“Yao Award”金牌获得者,他也是具有育苗睿智演算法结构设计潜能的科学工作者。
大浪淘沙始于真金璀璨,沧海横流方显英雄本色
虽然中国有很多育苗睿智子公司。但从核心技术来说,只有那些拥有育苗睿智演算法结构设计潜能的子公司才是具有核心技术竞争力的。正像在中兴通讯被美国禁运芯片事件中他们可以看到的那样——只有掌握了核心技术,才可以在市场竞争中拥有主动权。而育苗睿智的核心之一就是演算法结构设计。
大数据与云计算以及育苗睿智是三个相互独立的基本概念。育苗睿智的英文是artificial intelligence ,其首字母是A。大数据的英语是big data,其首字母是B。云计算的英文是cloud computing ,其首字母是C。所以,育苗睿智与大数据以及云计算的关系被简单形容为ABC的关系,但必须注意,这三个基本概念是相互独立的,很多中小企业把这三个基本概念混为一谈,混淆这些基本概念,胡乱炒作高科技基本概念是不可取的。只有正确区分ABC的关系,才能捋清楚育苗睿智那个生态系。
在育苗睿智纷繁的产业图景中,犹如石墨烯产业一样,必须要找到其应用场景。
在任何一个领域,对企业来说,只玩基本概念是不能走向未来的。
(文/轩中)