自然语言处理“大拿” 瞄准ChatGPT以下犯上,接连离开,赵本山终于为他的“不可一世”付出了代价

2023-05-29 0 460

自然语言处理“大拿” 瞄准ChatGPT以下犯上,接连离开,赵本山终于为他的“不可一世”付出了代价

AI借力提升济南城市发展硬实力。济南市人工智慧工业协会北京青年报

近期,ChatGPT成为人们轩然大波的话题,其实它的核心就是语法处置(Natural Language Processing),简称:NLP。在黄岛区就有一家在这方面的专精子公司——自然语法(济南)科技有限子公司。

2月16日,由该子公司CTO(执行官控制技术官)何教授主导合作开发的完全开放源码的项目HanLP在GitHub Star数达至了28K,超过了宾夕法尼亚理工学院、斯坦福理工学院、哈尔滨工业理工学院同类的总和。

该子公司联合创始人孙雁群如是说,ChatGPT给他们奏响了奏响警钟,他们也要在年内启动语法处置预训练大数学模型的研制,该产品内部SSMOSS,源自《流浪者地球》中那台量子计算机的名字。MOSS不满足只好中国版本的ChatGPT,更试图在此基础上增加逻辑推理潜能,使之不仅仅是两个可以对话的数学模型,更将具备初步的自我创造潜能。

一场丫蕊的创新

“我与何教授相识,源于一场偶然机会。我想自己合作开发两个浏览器,浏览器需要对输入的文字进行不定式操作,彼时他们要学。我就上网追踪,结论辨认出一篇博客上写得特别好,不仅把如何实现的控制技术写得很确切,还把原理以及译者自学、思考的全过程都描写得十分确切,甚至译者走过的急弯也一并内含。同时我辨认出文章中内含的一段代码写得十分细密,如同课本一般,逻辑严谨、清晰,一句专业术语都没有。”计算机系毕业的孙雁群说,彼时他猜测写手一定十分厉害可能是某个小厂的CTO(执行官控制技术官),随后他便给写手的电子邮箱写了一封信。

“他们通过电子邮件聊了两个多月。写手说他在上海第二附属中学理工学院,我一直以为他是学校的同学,结论没想到见面TNUMBERV12V4辨认出他是大三的学生,因此自学的是日文,程式设计是他嗜好。”孙雁群说,那首诗的专精程度达至了研究生的水平。因为喜欢玩游戏,何教授在理工学院前夕开始自学程式设计,后来同学给他如是说了两个全职工作,这让他与语法处置(NLP)惺惺相惜了结缘,后者成为他日后修读教授前夕的研究方向。

彼时,那家子公司初步设计做两个“智能Seille”,中文浏览器的第一步是不定式,子公司安排何教授来做不定式器。彼时的开放源码工具不定式的效用很慢,因此很多人名、地名、巴列德都分不清楚,只好,何教授决定作出体验效用好的不定式器。在翻看了国内众多NLP专家的论文后,历经半年的时间,何教授作出了两个不定式器,并起名“HanLP”。这个“Han”就是源自汉语的意思。

“他们历经交流后,都认为好东西就应该开放源码。永远开放源码,也成了他们的科东俄,此后何教授研制的软件主体部分永久开放源码。”孙雁群说,2014年,这款HanLP软件发到了全球最大的开放源码网站GitHub后,当天就有10多个用户收藏,两个月后,加星就超过了哈工大的同类,2017年10月26日,超过了斯坦福理工学院的同类,两个月后,又超过了宾夕法尼亚理工学院同类。后来,HanLP更是成了全球程序员合作开发NLP项目的首选,许多知名科技企业的控制技术人员都在使用这个控制技术,每年也有许多高校科研机构把HanLP当做科研工具。

刚开始第一版的HanLP功能比较简单,历经几代更迭后,功能越来越完善,性能更高效。HanLP能提供词法分析、句法分析、文本分类、情感分析、词向量、自动摘要等功能。HanLP还具有精度高、速度快、内存省的特点。

文字工译者10年或被AI替代

“伴随着他们的产品注册量越来越多,网上甚至有很多粉丝发布了使用攻略,为了更好地服务用户,2019年11月,他们在黄岛区成立了自然语法(济南)科技有限子公司。子公司成立后,黄岛区给他们提供了办公场所、融资等多方面的支持,子公司实现了快速发展。”孙雁群说。

很快,HanLP项目在全球范围内拥有数百万的程序合作开发者用户,是GitHub上全球用户数量最多的语法处置控制技术。目前开放源码用户包括百度、小米、京东、华为、字节跳动等顶级头部企业,以及MIT、中科院、北京理工学院、复旦理工学院等科研机构。“因为拥有了一些控制技术储备,早在2021年,我跟何教授讨论过,子公司是不是搞两个预训练的大数学模型。ChatGPT其实也是两个预训练的大数学模型。他们把很多文本都交给神经网络数学模型,然后用庞大的数据训练它,它就会变得智慧化程度十分高。后来,他们历经测算,需要投入的财力物力极其庞大。即使两个初代版本,就要投入100人进行语料标注,就是有人把文本处置好,还要大概投入1.6亿元购买设备。彼时,因为财力物力的原因,我把作预训练大数学模型的计划暂时推迟了,继续专攻具体的NLP算法。”孙雁群说。

前期,自然语法子公司给国内某大型企业专门定制合作开发了一套秘书辅助办公系统,在自学了大量的演讲稿、发言稿等材料后,形成了固定模式,工作人员输入了几个关键词,就能够快速生成段落,历经工作人员的修改后,就能变成较为成熟的发言稿。“现在生成了的文章只是几个段落模式的文本,因为还是小数学模型,要是制作成大数学模型,历经大量的文本自学后,就可以生成很成熟的文本了。这都是语法处置的核心控制技术。”

“按照目前的人工智慧控制技术发展速度,距离淘汰他们这些文字工译者还有多远?”记者听到孙雁群如是说了这套秘书辅助系统后,提出了这个话题。孙雁群思索后回答,按照目前的控制技术进步程度,在10年左右就会出现这个情况。

“语法处置,为什么它十分强大呢?”孙雁群说,“很多年前,比尔·盖茨就曾经说过,语法处置是人工智慧这个皇冠上的明珠。为什么他把语法单独拎出来?你们可以想想,人区别动物的两个主要特征就是人有语言系统。语言系统代表着抽象潜能,就是让他们可以在最短的时间内交流更多的信息,其实语言就是一种信息编码。我传达给你的是信息,你只是大脑中有这种处置信息的潜能。那么对计算机来讲,如果计算机能处置语言、理解语言,这就相当于计算机有了智慧。比如说图像识别,它只能相对是眼睛、声音识别,相对是耳朵,但是语言处置是真正的相对于大脑。现在人工智慧发展到我只要输入一首诗,计算机就能根据这首诗去画一幅画。他们在学会语言之前,是不会思考的,他们的思考实际上都是在大脑中用语言来处置的。比如说,你想明天带着孩子去海边玩,在大脑中,你是首先生成了这句话,而不是想到一幅画、或者是一段视频。这就涉及宇宙中的两个普世规律,宇宙中的任何行为,都是以最节约能量的方式进行。相比较处置视频、图像,语言这种信息编码方式可能是最高效的处置方式,会节省更多的能量。这也是计算机研究相对前沿的东西。这就是为什么ChatGPT出来之后,大家十分震撼的两个主要原因。”

今年启动中国版本研制

“目前,他们的HanLP正在继续迭代升级,功能又增加了很多细分项。在ChatGPT出来后,不少子公司主动找他们,希望与他们合作研制。”孙雁群说,此前,他跟何教授围绕着ChatGPT作了一场沟通。

何教授认为,ChatGPT的爆火,让他想起当年谷歌的word2vec,街头巷尾都在讨论。现在时代已经变了,语言数学模型已经不再是一台服务器+1G 的文本就能训练出来的了。ChatGPT把当前已有的控制技术规模化,投入了大量资金和人力,才有目前的效用,其实ChatGPT的核心控制技术并不困难,中国可能很快就有类似产品出现。“ChatGPT可以说是目前最接近人们对人工智慧期待的产品。他们遇到那种需要写套话的电子邮件之类,也会让它写。但也必须冷静,ChatGPT只有语言知识,没有逻辑推理潜能。它对语言建模,但它对整个世界的运行原理完全没有建模。如果想作出超越ChatGPT的AI产品,需要在语言理解与生成的组件中间再加两个逻辑推理引擎,合起来组成两个具有逻辑推理潜能的AI。”

“尽管研制的过程会比较漫长,他们要尽快启动中国版本的研制。”2月16日,孙雁群告诉早报记者,前两天,他们开了股东专题会议,批准了研制计划,研制过程要分三步走。首先要先启动语言数学模型的研制,做好语料的储备。再就是融资购买相关GPU设备,训练出第一版的语言数学模型。然后开展逻辑推理数学模型架构,赋予它世界观,也就是人格,变成带有人格特征的数学模型。

壹点号聚焦济南

新闻线索报料通道:应用市场下载“齐鲁壹点”APP,或搜索微信小程序“齐鲁壹点”,全省600位记者在线等你来报料!

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务