原创 从Chat GPT的大火,谈一谈自然语言处理

2023-05-29 0 268

原副标题:从Chat GPT的火灾,谈谈语义处置

对于ChatGPT来说,相信诸位最近都被它满天飞的新闻报导所冲走,的确除了许多人早已新体验到了ChatGPT,裂稃人工智慧早已高度变异之势。ChatGPT的再次出现,好像早已对现今网络产生了巨大的影响,如果在这么产业发展下去,即使看到了在未来能替代许多职业的态势,比如说客服人员、程式设计、策画、秘书组织工作等等。

甚么是ChatGPT呢?ChatGPT,是国外OpenAI研发的闲聊机器程序,于2023年3月30日发布。ChatGPT是人工智慧技术驱动力的语义处置工具,它能够通过学习和理解人类文明的语言来展开谈话,还能根据闲聊的语句展开交互,真正像人类文明一样来闲聊交流。

首先

本栏认为千万别鄙视ChatGPT的再次出现,它更为重要是两个会陪你闲聊的AI机器,或是甚么第三代的AI浏览器,那时的ChatGPT早已能帮你程式设计,帮你构筑两个学术论文、老赵架构。虽然,现阶段ChatGPT的回答多少却是能看出许多机器的伤痕,但随着全世界上亿人对它不断的概要训练,它的插值升级速度的确也是极为不可思议的。

其次

他们也千万别过份神格化ChatGPT,它那时离无坚不摧的状况还差得很远,现阶段的ChatGPT却是处在一种“很会说实话”的状况,貌似它得出的标准答案极为厉害,但一旦深入阅读就会发现,ChatGPT是两个给老赵“灌水”的剑客,文本极为暗区,它只会单纯的充填文本,和他们人类文明的创作差别除了很大。

最后

科学合理采用ChatGPT的确能帮助他们极大的减少组织工作效率,比如说让它为学术论文搭两个架构,他们再在这个架构之上展开修正,就能让写学术论文这件事随心所欲许多;即使,还能利用ChatGPT去撰写许多模组化的代码,开发人员再做许多对应的修正,也会使得程式设计组织工作随心所欲许多。总而言之,科学合理采用ChatGPT能让固定式的组织工作随心所欲许多,但现阶段依然不能替代人来展开许多组织工作。他们千万别神话故事它,但也千万别鄙视它,ChatGPT背后的人工智慧AI,的确是下两个时代产业发展的态势,他们一定要重视。第一集老赵,本栏想重点聊一聊,AI中的语义处置。

原创
            从Chat GPT的大火,谈一谈自然语言处理

语义处置

在于ChatGPT的沟通交流之中,最令人第一印象深刻的就是它所得出的标准答案,对比于其它AI闲聊软件来说,更像人类文明许多,即使能联系语句展开流畅的沟通交流,而做到这一切,就不得不提一项在人工智慧中主要的领域——语义处置(NLP)。

对于语义处置而言,他们在理解这个概念的时候,不妨把这个词拆开来看。所谓“语义”就是人类文明产业发展过程中形成的一种信息沟通交流的方式,包括口语及书面语,反映了人类文明的思维。比如说,您那时在读的这篇老赵,我就是在用语义书写,因此,世界上所有的人类文明采用的语言都是自然语言。他们为甚么要强调“自然”呢,因为它要区别于计算机语言,计算机毕竟不是人,无法像人一样处置文本,需要有自己的处置方式,因此,所谓语义处置,简单来说,就是让计算机接受用户语义形式的输入,并在内部通过人类文明所定义的算法展开加工、计算等系列操作,以模拟人类文明对语义的理解,并返回用户所期望的结果。语义处置是人工智慧下各个小领域的十字路口,是人工智慧最新的的领域之一,被誉为“人工智慧皇冠上的明珠”。

最早的语义处置需求源自美苏冷战时期,20世纪50年代,由于美苏之间有大量的外文翻译需求,而在国外精通俄语的人才数量有限,又赶上计算机刚刚开始产业发展,因此,采用计算机来翻译文件的项目就被提上了日程。但,随着研究的开展,相关人员马上就发现了让计算机理解人类文明语言的困难极大。同一种语言下的句子都有不同的歧义,有着复杂丰富的文化因素,充斥着各种无规律的、约定俗成的俗语;再加上词与词之间、句与句之间都有复杂的逻辑联系,让当时算力孱弱的计算机完成这种组织工作,无疑是天方夜谭,就更不用说还要在不同的语言之间展开翻译了。因此最后,人们也只搞出了一种只能一词一词对应翻译的机器,与其说是翻译机,更不如说是早期的电子辞典。

直到90年代,IBM才提出了第三代的翻译模型——基于统计的机器翻译。简单来说,就是通过大量的样本数据,加以分析,统计词与词如何搭配概率最大,以此来找出词与词之间的联系。这样做有一种好处,就是能让机器产生一种类似于人类文明的“语感”。比如说,当统计了足够大的句子之后,当“芒果”和“吃”一起再次出现的时候,计算机很可能就会知道,这句话指的是水果,这时语言的准确性就会大大提高。但,这里除了两个致命的问题:这种模型对于句子的顺序不青春,也就是说它很可能得出你两个丝毫没有语法逻辑的结果。比如说“What’s your name?”所得到的翻译结果很可能是“甚么是你的名字?”读起来就极为怪异。

为了解决这个问题,那便要引入两个全新的AI算法——神经网络。虽然,其底层本质却是统计概率,但它能让计算机逐渐开始“理解”句子的含义。从此,语义处置将会逐步跳出翻译领域,开始逐渐拥有“智能”。具体的神经网络算法他们在这篇老赵就暂时不展开了,感兴趣的诸位能移步这篇老赵:

词向量

在这里,本栏只想说明两个概念,那就是:词向量。在人类文明眼中,当看到“果子”二字时,可能想到的是一种红色或绿色的水果,也有可能是某科技公司;但在计算机的世界中,它们只是一串毫无意义的0和1,计算机不会记录意义,它也不会理解意义,它只需要让操作它的人理解其中的意义就能了。

到了人工智慧这里,对于计算机有了新的要求,它需要“理解”意义。那计算机如何才能“理解“呢?标准答案就是:向量化。

如何向量化呢?打个比方,就是“果子”这个词,形状是球形的指数是0.9,气质是甜的指数是0.8,得到的坐标就是[0.9,0.8];“桃子”这个词,形状是球形的指数是0.8,气质是甜的指数是0.9,得到的坐标就是[0.8,0.9],那么这样它们就能在极坐标轴上被表示出来,就会很容易的看到,桃子和果子,在坐标轴上联系很近,那它们很可能就有某些直接联系。当然了他们能也能添加更多维度的特征量,比如说颜色、重量、体积等等,随着维度的增加,描述也会更加精确,计算机也就会逐渐“理解”一件事物,即使能明白事物与事物之间可能的联系。就如同马克思所说:“人是一切社会联系的总和。”在计算机的世界里,词语也是一样的,他们往往用其他的词语来定义另一种词语,

当计算机精确的知道了词与词在坐标系中位置,它也就能确定每个词之间的联系,那么计算机就能知道每个词之间的语义联系,也就“理解”了语言。

原创
            从Chat GPT的大火,谈一谈自然语言处理1

那时,除了两个问题,那么词之间的位置怎么确定呢?让他们来看看著名的词向量算法word2vec是怎么做的。其实,标准答案极为简单粗暴,就是通过大量的“完型填空”来训练人工智慧。比如说,先给人工智慧一句话“我喜欢吃果子”,然后隐藏掉“喜欢”,变成“我____吃果子”,让人工智慧去猜中间是甚么,这时词向量的值都是随机生成的,人工智慧自然猜不对,以此往复,直到猜中“喜欢”,这时随机出的词向量的数值就更加接近正确的值,就这么训练上几百、几千亿次,词向量的数值就会逐渐正确,从而AI的回答就会越来越智能。这时两个词就完成了词的向量化,这一过程,除了两个专有名词叫做“词嵌入”。

而本次火灾的ChatCPT,则是基于谷歌改良的语义处置算法Transformer的底层魔改的产物,简单来讲,就是通过算法模拟人类文明的“注意力”,从而极大的提升了AI理解语义的精准程度,就像谷歌自己学术论文的副标题所说“Attention is all you need(注意力是你的全部所需)”,而具体的Transformer模型概述,诸位能移步这篇老赵:

写在最后

随着ChatGPT的讨论持续升温,那时在网络上也出现了许多担心未来自己的组织工作会被AI取代的声音,就现阶段的情况来看,本栏认为还差得远,但一定会再次出现善于采用ChatGPT辅助自己组织工作,从而极大提升自己组织工作效率的情况。当然,产业发展AI是未来的态势,随着AI的插值,一定会有大量从事琐碎的、重复的、固定式组织工作的人将会被取代,这是未来的态势,他们任何人,都只能去拥抱这样两个时代态势,也只能顺势而为。这样的AI替代,必然是有争议的,但好不好,都不影响AI产业发展的态势。他们能做的只有积极学习AI、接受AI,让AI帮助自己更好地组织工作;同时努力提升自己,积极从事许多个人创造力占比大的职业。

祝诸位都有两个光明的未来。

ixin

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务