对于 AI 商品副经理来说,在懂销售业务之外,有时也需要懂许多控制技术。责任编辑作者透过鬼故事闲聊的形式,对机器自学的许多常用的演算法和赞扬分项进行了如是说,希望能给你带来许多协助。
下期目的:简述之前敲标识符的日常生活,借助日常生活生活情景协助 AI 商品副经理重新认识机器自学及自学过程中常用演算法和赞扬分项。
适用听众:AI/ 统计数据商品副经理。
阅读重点:品,曾自言,结合年级故事再品。
最近看了许多关于机器自学有关的文章或书刊,能归因于两类吧。第三类,新浪网型:说它是 BD 新浪网吧,它不如 BD 新浪网智能化,说它不是 BD 新浪网吧,它只能给你拽术语说明术语,还说明得特别专精,艰涩艰涩。第三类,伪智囊团:满满全是蔬果(太湿了……)。各种专业的术语,专精的解法,阿宝看要学,专家用不着看,完全没有发挥出那一大堆文本的价值。
责任编辑将不间断透过鬼故事闲聊的形式如是说机器自学,让阿宝也能学会机器自学基本上原理。一共新溪洲部分:重新认识机器自学、机器自学基本上原理和常用问题、事例Jalgaon。
1)重新认识机器自学:普及化呵呵机器自学的基本上方法论(表述、情景、分类、要素等),方便阿宝老师更好地获得胜利。三夫老师,也能仔细分析基本上方法论,结晶呵呵自己的项目经历。许多知识两遍是学不知道的,多学两遍,每两遍都有相同的斩获。
2)机器自学演算法基本上原理赞扬分项:如是说许多常用演算法、怎么赞扬相同模型的优劣。
3)标识符实现:透过方法论回归事例,重新认识机器自学的工作业务流程。结语会设计标识符操作,非控制技工能埃唐佩县标识符,看注解文本,要学标识符也能看知道机器要若想自学到历史规律的。
一、借助日常生活生活情景重新认识机器自学
1. 有关术语如是说
机器自学(ML)、深度自学(DL)、语义处理(NLP)、计算机听觉(CV)等,有关术语如是说去 B 度新浪网搜寻呵呵,那里比我说明的详细。有关术语还是有必要介绍呵呵的,这样有助于认知后面的自学内容。
商品副经理要懂销售业务也要懂控制技术(起码专精术语要介绍),尤其是统计数据或 AI 型的商品副经理。能去这个地址(http://dict.code-nav.cn/)自学呵呵,好心人整理的编程词典,汇集了计算机大部分领域的专精术语。向好心人致敬!!!
2. 表述
表述:为介绍决任务 T,设计一段程序,从经验 E 中自学,达到性能度量值 P,当且仅当有了经验 E 后,经过 P 评判,程序在处理 T 时的性能得到提升。
表述虽然有点绕口,但是已经把机器自学的基本上原理讲的很知道了。需要你品,而且静心曾自言。联想日常生活生活实例,咱们小学自学写字时,是怎样的一个自学情景?
为了写字工整好看(任务 T)
我们照着课本写,照着字帖写,照着老师的写(经验 E)
直到有一天,老师说,” 瞧你写的一手好字 “(度量值 P)
化悲伤为动力,你反复练习,老师多次指导,日复一日,年复一年……
小学六年级的铅笔书法大赛(处理任务 T)
你拿着写好的大字(已经有了经验 E)
请老师点评:恭喜你小学毕业了(透过 P 评判)
故事讲到这里,你应该能品知道这句绕口的话了吧(任务 T),如果还不知道,就反复去品更多故事(经验 E),直到品知道(评判 P)。
3. 应用情景
无人驾驶 、人脸识别、语音识别、智能化互动(小爱)、个性化广告。
4. 机器自学有哪些分类
按自学方法能分为:有监督自学、无监督自学、强化自学;
按任务类型能分为:回归、分类、聚类和时间序列。
强化自学和时序分析比较少见(fact:我还讲不知道),能共同讨论。
(看图识意 1.0)
5. ” 监督 ” 是什么意思
对于机器而言,就是用来自学的统计数据集,有没有明确的标签(回归也是有标签的,只不过是连续的)。就好比,你在自学写字的时候,众多的参考文本中,老师有没有告诉你,什么样的字代表着好,什么样的字代表着不好。
1)有监督自学 ( 有标签 )
分类,样本标签属于离散变量 ( 垃圾邮件、肿瘤检测 ) ,ChatGPT就属于分类问题中的生成模型。
回归,样本标签属于连续变量 ( 预测房价、预测销售额 ) 。
2)无监督自学 ( 无标签 )
聚类:用户分群,朋友分组 ( 朋友分组 ) ,细分市场,异常流量监测。
降维:线索太多可能干扰判断,影响判断速度及准确度。
6. 自学方法三要素
模型、策略和演算法是自学方法的三要素。不要急,咱们先专精得讲,再结合日常生活生活实例去认知他。
1)模型
要自学的概率分布或决策函数(这就是模型,这就是模型,这就是模型!!!!!!)
假设空间:所有可能的条件概率分布或决策函数构成的集合
2)策略
从假设空间中自学最优模型的方法称为策略。衡量模型好与不好需要许多分项,这时候我们引入损失函数来衡量,衡量预测值和真实值的差距。常用损失函数有:0-1 损失函数、平方损失函数、绝对损失函数、交叉熵损失函数等。
3)演算法
计算损失函数最优解(能认知为最小)的方法。
看完上边的说明阿宝老师可能一脸蒙,演算法的老师能去深究呵呵具体有哪些实现的方法和公式推导。对于商品副经理实在认知不了,也不勉强,毕竟商品副经理靠脑子比较吃力。不过我们能透过接下来的日常生活生活情景去认知模型、策略、演算法三个层面含义。
故事背景:
学校要组织数学竞赛,每班只允许推荐一名老师参加。阿宝的班里共 50 名老师。为了年级荣誉,班主任打算在这 50 名老师中选择一个数学成绩最好的去参加学校的数学竞赛。
如何选择找到这名数学成绩好的老师呢?用什么分项评判数学成绩优劣呢?是最近一次月考成绩?还是期中或期末成绩?还是下半年或本年度平均成绩或最高成绩?
班主任考虑到数学竞赛是考察数学方面的综合能力,既要考虑这名老师对知识掌握的全面性又要考虑稳定性。最终决定:参评分数 = 期中成绩 * ⅓ + 期末成绩 * ⅔ 。谁的参评分数高,就代表谁的数学成绩好,能代表年级参赛。
参照机器自学:
每名老师都是一个模型,年级 50 名老师组成了假设空间;众多的评判分项(期中成绩、期末成绩、最高分、平均分等)就是策略,依据目标任务实际特征,选择了班主任认为合理的策略(参评分数);参评分数具体的计算方法就是演算法。
故事讲完,阿宝老师输得心服口服。
二、机器自学演算法基本上原理和赞扬分项
刚透过粗糙的小故事带大家初步重新认识了机器自学。那么接下来就讲呵呵机器自学的常用演算法?
机器自学常用算法:线性回归、方法论回归、支持向量机、决策树、随机森林等。因责任编辑预期听众都跟阿宝老师一样,只是初识机器自学,所以责任编辑先透过线性回归和方法论回归带大家走近演算法。
1. 线性回归
还记得模型是什么吗?第一章强调过三次(概率分布或决策函数)。线性回归模型就是由多个(无限)决策函数组成的。
“f ( x ) =ax+b”,看到这个熟悉吧,但凡上过中专的老师都不好意思承认说不重新认识,最简单的线性回归模型就是这样。
线性回归的目的:预测。透过自学大量的历史统计数据,发现一条尽可能多的涵盖旧统计数据的直线,当以后有新的特征(x)产生时,就能预测目标值(f ( x ) )。
看图知意,品一品下面这幅图,结合上边阿宝年级选择数学王子的故事去品(没上过职高的老师能先别看损失函数)。
(看图识意 2.0)
损失函数或代价函数,就是我们之前将的策略。怎么判定那条直线是拟合效果最优的,就能透过损失函数来判断,损失函数越小就说明该直线(预测函数)拟合度越高。
上图只是在二维空间展示,只有一个特征(X),属于一元线性回归,当有多个特征(X1,X2,X3 …)时,空间就是多维的,叫多元线性回归。
当一条直线能很好的拟合历史统计数据时,会出现变相的函数,比如指数函数(y=a^x)、幂函数(y=x^a)、多项式(如:y=ax^2 + bx + c)等。
2. 方法论回归
方法论回归虽然叫回归,但是在解决分类问题,透过找到一条曲线(其实是概率)能将两种类别的统计数据划分开(二分类),能参照《机器自学有哪些分类》中(看图识意 1.0)。
方法论回归的假设函数:结果是 [ 0 , 1 ] 的概率数字 , 表示:样本是 1 类的概率。
(不用认知,就知道这是一条曲线,能将样本划分成三类即可)
想透过这种形式介绍更多演算法的老师们能下期见。
3. 回归模型的赞扬分项
均方差 ( Mean Squared Error,MSE ) : 该分项透过计算预测值与实际值之间的偏差平方和的均值,反映了模型对统计数据的拟合程度,越小越好。
均方根误差 ( Root Mean Square Error,RMSE ) : 该分项将 MSE 的结果开根号,以便于和原始统计数据的单位保持一致,反映了模型对统计数据的拟合程度,越小越好 .
平均绝对偏差 ( Mean Absolute Deviation,MAE ) : 该分项衡量的是预测值与实际值之间的平均偏差的绝对值,反映了模型对统计数据的拟合程度,越小越好。
R 方 ( Coefficient of determination ) : 该分项衡量的是预测值和实际值之间的有关程度,取值范围为 0-1,越接近 1 越好。
(珍藏手抄版)
4. 分类模型的赞扬分项
相同赞扬分项,相同的适用情景,下期先让大家消化呵呵,各分项都是如何计算的,代表的什么意思。下期透过实例分享各分项的适用情景。所有分项并非人工计算,sklearn 库自带计算公式,模型训练结束后直接调用对应分项就能输出各分项值是多少。
1)Accuracy ( 准确率 )
2)Precission ( 精确率 ) /Recall ( 召回率 )
3)混淆矩阵
4)F1 ( 调和均值 )
5)F β
6)AUC(Area Under Curve)
为 ROC 曲线下与坐标轴围成的面积 ( 不会大于 1 ) ,衡量二分类模型优劣的一种赞扬分项,表示预测的正例排在负例前面的概率。
AUC 反映模型对正负样本排序能力的强弱 , 对 score 的大小和精度没有要求 .AUC 越高 , 排序能力越强 . 模型把所有正样本都排在负样本之前 ,AUC 为 1。
7)ROC 曲线
全称为受试者工作特征曲线 (receiver operating characteristic curve),它是根据一系列相同的二分类形式(分界值或决定阈),以真阳性率(灵敏度)为纵坐标,假阳性率(特异度)为横坐标绘制的曲线。
二、分类事例Jalgaon——看注解就能读懂标识符
销售业务目标:透过方法论回归将实验统计数据进行二分类(0,1),标签为 “activity”。
导入机器自学需要的各种工具库。因为我们要用到有关库中许多现成的能力,之前讲到的许多方法论知识只是为了让老师们介绍机器自学的底层基本上原理,现实作业中,一行标识符就能实现,哈哈哈,就是这么简单。
①读取文件统计数据
商品副经理要对销售业务统计数据有一个初步介绍,介绍统计数据的特征之间的关系,统计数据特征与标签之间的关系。同开发老师讲清楚统计数据这些关系,才能协助开发的老师构建更合理的特征。
②统计数据基本上处理
更多的是统计数据清洗工作,比如统计数据审核(统计数据特征是否均衡,不均衡的统计数据集,影响模型可信度和赞扬分项的选择)、空值异常值的处理等。因为本统计数据集是经过清洗后的统计数据集,比较完整,没有体现清洗这一步。下图能看出来,统计数据类别比较均衡。
③特征工程
特征就是函数中的 X。开发的老师能透过有关性分析等方法,不断构建合理的特征,商品的老师也能依据对销售业务经验,协助开发老师快速构建特征。特征不是越多越好,而是约精炼约好。特征越精炼,模型性能(收敛速度,赞扬分项表现)越好。下图,构建了两个特征:hour 和 week。
④模型训练
⑤模型评估
模型评估就是用适合销售业务情景的分项来评判模型的性能。标识符如是说开始部分,调用的 sklearn 库,包含各种机器自学的评级分项演算法,直接调用即可。
参考文献:
演算法图解 . [ 美 ] 巴尔加瓦 , [ 译 ] 袁国忠 , 人民邮电出版社 ,2017-03
机器自学:Python 实践 . 魏贞原 , 电子工业出版社 ,2018-01
Jared Dean. 大统计数据挖掘与机器自学 [ M ] . 林清怡,译 . 北京:人民邮电出版社,2016.
统计数据思维:从数据分析到商业价值 . 王汉生 , 中国人民大学出版社 ,2017-09
责任编辑由 @天儿 ti ā n er 原创发布于人人都是商品副经理,未经许可,禁止转载
题图来自 Unsplash,基于 CC0 协议
查看原文