最近我和两对母女共共进午餐,他们问我从事甚么业余,我澄清道:“机器学习。”
丈夫转头问丈夫:“亲爱的,甚么是机器学习?”
她的丈夫却说:“T-800型闪电侠。”
络)
在《闪电侠》系列产品影片中,T-800是人工智慧技术的另一面样板。不过,那位好友对机器学习的认知还是有所局限性的。
机器学习能让他们自统计数据集中受到启迪,换言之,他们会可视化来突显统计数据另一面的真实世界涵义,这才是机器学习的真实世界涵义。它既并非只会忘忧仿效的机器,也并非具有人类情感的人造人。
时至今日,机器学习已应用于数个领域,远远远超过绝大多数人的想像,上面就是真实世界的三日,其中很多情景单厢遇到机器学习:
假定你想到今天是该位好友的过生日,急于通过邮政局给她递送两张过生日明信片。
你关上应用程序搜寻趣味性卡牌,应用程序显示了10个最相关的镜像。
你认为第三个镜像最合乎你的要求,点选了这个镜像,应用程序将历史记录这次点选,并由此学习以强化到时候搜寻结果。
然后,你检查和网络服务,此时流氓软件冷却系统已经在前台手动过滤器废弃物电视广告电子邮件,并将其放到废弃物桶内。
接着你去零售店买回这张过生日卡牌,并给你好友的孩子挑选出了一些卫生巾。
结帐时,营业员给了你两张1美元的代金券,可以用于买回6瓶装的咖啡。或许你会得到这张代金券,是因为款台收费软件基于以前的统计知识,认为买卫生巾的人往往也会买咖啡。
然后你去邮政局递送这张明信片,手写识别软件识别出递送地址,并将明信片发送给正确的邮车。
当天你还去了贷款申请机构,查看自己是否能够申请贷款,办事员并并非直接给出结果,而是将你最近的金融活动信息输入计算机,由软件来判定你是否合格。
最后,你还去了赌场想找些乐子,当你步入前门时,尾随你进来的一个家伙被突然出现的保安给拦了下来。“对不起,索普先生,他们不得不请您离开赌场。他们不欢迎老千。”
机器学习在日常生活中的应用,从左上角按照顺时针方向依次使用到的机器学习技术分别为:人脸识别、手写数字识别、流氓软件过滤器和亚马逊公司的产品推荐
上面提到的所有情景,都有机器学习软件的存在。现在很多公司使用机器学习软件改善商业决策、提高生产率、检测疾病、预测天气,等等。随着技术指数级增长,他们不仅需要使用更好的工具解析当前的统计数据,而且还要为将来可能产生的统计数据做好充分的准备。
传感器和海量统计数据
它们接入互联网确实是新的挑战。有预测表明,20%的互联网非视频流量都将由物理传感器产生。
地震预测就是一个很好的例子,传感器收集了海量的统计数据,如何从这些统计数据中抽取出有价值的信息是一个非常值得研究的课题。
1989年,洛马·普列埃塔地震袭击了北加利福尼亚州,63人死亡,3757人受伤,成千上万人无家可归;然而,相同规模的地震2010年袭击了海地,死亡人数却超过23万。洛马·普列埃塔地震后不久,一份研究报告宣称低频磁场检测可以预测地震, 但后续的研究显示,最初的研究并没有考虑诸多环境因素,因而存在着明显的缺陷。如果他们想要重做这个研究,以便更好地认知他们这个星球,寻找预测地震的方法,避免灾难性的后果,那么他们该如何入手才能更好地从事该研究呢?他们可以自己掏钱买回磁力计,然后再买一些地来安放它们,当然也可以寻求政府的帮助,让他们来处理这些事。但即便如此,他们也无法保证磁力计没有受到任何干扰,另外,我
时至今日市面上销售的移动电话和智能手机均带有三轴磁力计,智能手机还有操作系统,可以运行他们编写的应用软件,十几行代码就可以让手机按照每秒上百次的频率读取磁力计的统计数据。此外,移动电话上已经安装了通信系统,如果可以说服人们安装运行磁力计读取软件,他们就可以历史记录下大量的磁力计统计数据,而附带的代价则是非常小的。除了磁力计,智能电话还封装了很多其他传感器,如偏航率陀螺仪、三轴加速计、温度传感器和GPS接收器,这些传感器都可以用于测量研究。
移动计算和传感器产生的海量统计数据意味着未来他们将面临着越来越多的统计数据,如何从海量统计数据中抽取到有价值的信息将是一个非常重要的课题。
机器学习非常重要
在过去的半个世纪里,发达国家的多数工作岗位都已从体力劳动转化为脑力劳动。过去的工作基本上都有明确的定义,类似于把物品从A处搬到B处,或者在这里打个洞,但是现在这类工作都在逐步消失。时至今日的情况具有很大的二义性,类似于“最大化利润”,“最小化风险”、“找到最好的市场策略”……诸如此类的任务要求都已成为常态。虽然可
“我不断地告诉大家,未来十年最热门的业余是统计学家。很多人认为我是开玩笑,谁又能想到计算机工程师会是20世纪90年代最诱人的业余呢?如何解释统计数据、处理统计数据、由此抽取价值、展示和交流统计数据结果,在未来十年将是最重要的业余技能,甚至是大学,中学,小学的学生也必需具备的技能,因为他们每时每刻都在接触大量的免费信息,如何认知统计数据、由此抽取有价值的信息才是其中的关键。这里统计学家只是其中的一个关键环节,他们还需要合理的展示统计数据、交流和利用统计数据。我确实认为,能够从统计数据分析中领悟到有价值信息是非常重要的。业余经理人尤其需要能够合理使用和认知自己部门产生的统计数据。”
——McKinsey Quarterly,2009年1月
大量的经济活动都依赖于信息,他们不能在海量的统计数据中迷失,机器学习将有助于他们穿越统计数据雾霭,由此抽取出有用的信息。
Python语言的优势
基于以下三个原因,他们选择Python作为实现机器学习算法的编程语言:(1) Python的语法清晰;(2) 易于操作纯文本文件;(3) 使用广泛,存在大量的开发文档。
可执行伪代码
Python具有清晰的语法结构,大家也把它称作可执行伪代码(executable pseudo-code)。默认安装的Python开发环境已经附带了很多高级统计数据类型,如列表、元组、字典、集合、队列等,无需进一步编程就可以使用这些统计数据类型的操作。使用这些统计数据类型使得实现抽象的数学概念非常简单。此外,读者还可以使用自己熟悉的编程风格,如面向对象编程、面向过程编程、或者函数式编程。
Python语言处理和操作文本文件非常简单,非常易于处理非数值型统计数据。Python语言提供了丰富的正则表达式函数以及很多访问Web页面的函数库,使得从HTML中提取统计数据变得非常简单直观。
Python比较流行
Python语言使用广泛,代码范例也很多,便于读者快速学习和掌握。此外,在开发实际应用程序时,也可以利用丰富的模块库缩短开发周期。
在科学和金融领域,Python语言得到了广泛应用。SciPy和NumPy等许多科学函数库都实现了向量和矩阵操作,这些函数库增加了代码的可读性,学过线性代数的人都可以看懂代码的实际功能。另外,科学函数库SciPy和NumPy使用底层语言(C和Fortran)编写,提高了相关应用程序的计算性能。
Python的科学工具可以与绘图工具Matplotlib协同工作。Matplotlib可以绘制2D、3D图形,也可以处理科学研究中经常使用到的图形。
Python开发环境还提供了交互式shell环境,允许用户开发程序时查看和检测程序内容。
Python开发环境将来还会集成Pylab模块,它将NumPy、SciPy和Matplotlib合并为一个开发环境。虽然Pylab还没有并入Python环境,但是不远的将来他们肯定可以在Python开发环境找到它。
Python语言的特色
诸如MATLAB和Mathematica等高级程序语言也允许用户执行矩阵操作,MATLAB甚至还有许多内嵌的特征可以轻松地构造机器学习应用,而且MATLAB的运算速度也很快。然而MATLAB的不足之处是软件费用太高,单个软件授权就要花费数千美元。虽然也有适合MATLAB的第三方插件,但是没有一个有影响力的大型开源项目。
Java和C等强类型程序设计语言也有矩阵数学库,然而对于这些程序设计语言来说,最大的问题是即使完成简单的操作也要编写大量的代码。程序员首先需要定义变量的类型,对于Java来说,每次封装属性时还需要实现getter和setter方法。另外还要记着实现子类,即使并不想使用子类,也必须实现子类方法。为了完成一个简单的工作,他们必须花费大量时间编写了很多无用冗长的代码。Python语言则与Java和C完全不同,它清晰简练,而且易于认知,即使并非编程人员也能够认知程序的涵义,而Java和C对于非编程人员则像天书一样难于认知。
所有人在小学二年级已经学会了写作,然而绝大多数人必须从事其他更重要的工作。
——鲍比·奈特
也许某一天,他们可以在这句话中将“写作”替代为“编写代码”,虽然有些人对于编写代码很感兴趣,但是对于绝大多数人来说,编程仅是完成其他任务的工具而已。Python语言是高级编程语言,他们可以花费更多的时间处理统计数据的内在涵义,而无须花费太多精力解决计算机如何得到统计数据结果。Python语言使得他们很容易表达自己的目的。
Python语言的缺点
Python语言唯一的不足是性能问题。Python程序运行的效率不如Java或者C代码高,但是他们可以使用Python调用C编译的代码。这样,他们就可以同时利用C和Python的优点,逐步地开发机器学习应用程序。他们可以首先使用Python编写实验程序,如果进一步想要在产品中实现机器学习,转换成C代码也不困难。如果程序是按照模块化原则组织的,他们可以先构造可运行的Python程序,然后再逐步使用C代码替换核心代码以改进程序的性能。C++ Boost库就适合完成这个任务,其他类似于Cython和PyPy的工具也可以编写强类型的Python代码,改进一般Python程序的性能。
如果程序的算法或者思想有缺陷,则无论程序的性能如何,都无法得到正确的结果。如果解决问题的思想存在问题,那么单纯通过提高程序的运行效率,扩展用户规模都无法解决这个核心问题。从这个角度来看,Python快速实现系统的优势就更加明显了,他们可以快速地检验算法或者思想是否正确,如果需要,再进一步强化代码。
本文摘自《机器学习实战》
《机器学习实战》,[美]Peter Harrington 著
《机器学习实战》主要介绍机器学习基础,以及如何利用算法进行分类,并逐步介绍了多种经典的监督学习算法,如k近邻算法、朴素贝叶斯算法、Logistic回归算法、支持向量机、AdaBoost集成方法、基于树的回归算法和分类回归树(CART)算法等。第三部分则重点介绍无监督学习及其一些主要算法:k均值聚类算法、Apriori算法、FP-Growth算法。第四部分介绍了机器学习算法的一些附属工具。
《机器学习实战》通过精心编排的实例,切入日常工作任务,摒弃学术化语言,利用高效的可复用Python代码来阐释如何处理统计统计数据,进行统计数据分析及可视化。通过各种实例,读者可由此学会机器学习的核心算法,并能将其运用于一些策略性任务中,如分类、预测、推荐。另外,还可用它们来实现一些更高级的功能,如汇总和简化等。