责任编辑根据科孔智能 CTO、联合创始人翁嘉颀在DataFun Talk人工智慧控制技术Russey ——“如前所述感情焦虑辨识的对话式AI及应用领域实践”中撷取的《机器-交互式-控制技术如是说》所编而成,在未改变本意的基础上稍做整理。
前人工智慧时代是如前所述关键字模版,只能接受固定命令,能力无法持续提升,不能辨识使用者焦虑,没有使用者梦境。如那时的智能耳机,你假如对耳机说“我那时吃很饱”关键字是“吃饭”,耳机就会为你推荐附近的茶楼。当然我们的期许并非这种,期许能用比较好的方式来做。如“我不喜欢吃拉面”,看到语句是两个驳斥无限小数,这并非两个命令句和企图,所以能躲避定送餐那个企图。利用语义认知企图,语义现阶段分为三个层级,第两个是nlp,语句不定式;第一层叫企图认知,“肚子好饿”和“我想吃东西”这两个企图相似;第一层是紧密结合情景、认知使用者焦虑,实现企图辨识。
接下去讲一下感情排序的设计与应用领域,我们做了22种文本情绪,排序出你孤独和无趣的感情要干什么。但仅仅做负、正、中焦虑是不够的,图中红色代表愤怒,红色是痛恨、伤心,粉红色是害怕,都是正面焦虑,但这三种正面焦虑是不那样的,因此机器意见反馈也是不那样的。除此以外还做了9种人脸辨识眼神、4种音频焦虑,将“文本+眼神+音频”形成多逻辑系统感情。这种的意义是什么呢,举个范例如“中考我考了500分”那个这时候你是应该恭贺还是安慰呢,但假如加入说话的语调就完全不那样,音频焦虑表达更多信息。再加上人脸辨识眼神,如一言不发说“你Etah”那个这时候很难判断企图,紧密结合语句,假如都是微笑那是打趣,假如两者在争吵,那个这时候是威胁。
下面是两个多逻辑系统感情范例,下面是人脸辨识眼神,中间是音频焦虑,下面是文本焦虑,图片的正下方是其总焦虑。
有了焦虑接下去是做两个好的机器,那么两个好的机器如何制作呢。现阶段市售的闲聊机器情商在2-3岁,科孔科技的机器在5-6岁,它能查天气、查外卖、查股票、典故造句等40种原生植物功能与专业技能。
再者是知识图谱,机器很多使用者是小朋友,针对同两个问题需要辨识不同问法,辨识什么是疑问句、感叹句。然后做一些推论,如“姚明的老婆有多高”先找到姚明的老婆,然后推出叶莉的身高190cm。“谢霆锋跟陈小春有什么关系”通过知识图谱能推断谢霆锋的前妻的前男友是陈小春,还有“陆奇加入百度之后股价涨还是跌”,知识图谱需要找到“陆奇”是谁,百度是什么,陆奇是哪一天离开的,哪一天百度的股价是多少等等信息然后推断,这些是机器少数能替代人的地方。还有是Bi-attention flow,利用深度学习模型,询问问题,由知识图谱深度模型寻找答案,那个存在缺点是不可控。
闲聊并非随便地聊,好的闲聊需要用主题控制,主题还有阶层关系,如“你喜欢英超哪支球队?”,该问句的主题是运动下面的足球底下的五大联赛的英超,假如回答“我喜欢巴萨”或者“我喜欢蛋炒饭”这些都是不对的。那时对话的主题是体育里面的足球,因此回答应该更强烈的选择与足球相关的,依据主题做对话的控制。那如何做话题的跳转呢,机器主动引导话题跳转,依据你对话中的相关属性来主导话题,或者根据 memory,根据 user profile,根据前面的对话来主导话题。
接下去讲一下语句认知,人不会每次都讲完整的语句,如“Q1:明天我们去看电影好不好? A1:明天有事不行,Q2:那后天呢?”,那后天就代表后天我们去看电影好不好,这种是第一种主谓宾的补全。第二种是指代消减,如“我喜欢大张伟,我也喜欢他”那个他是指大张伟。第三种是话题式,如“Q1:你们有卖净水器吗?A1:有啊Q2:占不占地方啊? A2:不会,很小的Q3:怎么卖啊?”,根据现阶段的话题进行语句的补全。
两个好的机器还需要一些梦境能力,长时梦境,如“我不喜欢吃辣的”,那么下次推荐餐馆就避免推荐辣的餐馆。永久梦境,我今天肚子不舒服,那么就不能聊大姨妈的事情。短时梦境,一般是48小时到72小时,如“明天要去苏州见张先生”,晚上询问明天要去哪里,回答明天要去苏州。这种是短时知识图谱,放在使用者里面,在你问问句时回答你。
人机对话还有一些“Prediction & Generation”,根据语句去预测下一句话,去预测其主题、企图、keywords、句型、感情变化等。有了句型、关键字,进行造句,根据语句生成或者根据不同的使用者说话习惯来生成。那么如何实现
接下去讲一下NLP模型架构,其中最核心的是中文不定式,不定式不对语义认知肯定错误;然后是词性标注,名词、形容词、副词等标注;还有是句式辨识,如“人民广场怎么走?”,“你喜不喜欢吃苹果?”这些都是语句对话的基础,有的是询问信息,有的是问你个人喜好等。“你在北京买衣服花了好多钱?”和“你上个月在北京买衣服花了好多钱”,两个是疑问句两个是感叹句,说的意思也是完全不同。
如“你好可爱”,假如不定式为“你好”和“可爱”,会认为你是和名叫可爱的人打招呼。那我们怎么做呢,举例说明,如“我明天飞上海,住两天,要如家”,核心动词“飞上海”、“住两天”、“要如家”,核心是“飞、住、要”,“住两天”知道企图是要订酒店。第一种做法是将整个语句丢到两个黑盒子中模型训练得出企图,这种需要大量的基础数据。第二种将语句进行拆分,在丢到模型中训练,这种会简单很多。
如何利用 NLP 的基础信息呢,如“上周买衣服花了多少钱?”,首先知道是两个数量问句,核心动词“花钱买衣服”类别是衣服,时间是上周,通过拆解进行判断。
接下去看一下交互式下一步的变化,现阶段情况67%的使用者决定转人工,并非因为匹配错误,而是【答案看不懂】,25%的使用者决定转人工,并非因为匹配错误,而是【新问题】,只有 8%的使用者决定转人工,是因为算法匹配错误。因此应该采用交互的方式,才能解决主要问题。不是所有的问题都是多轮,只要在某一区域的前二十个问题做到多轮就有很大的提升。第二个机器不再被动,主动和你闲聊,根据你的 image,主动跟你交谈,根据你的 profile,主动跟你交谈。还有是依据机器视觉实现人机对话交互。
紧密结合使用者画像和使用者的多轮对话,作为条件制定策略,进行商品或服务的推荐。
还有两个现阶段比较潮流的是多轮之间的切换-中控中心,如订酒店,找到订酒店机器,然后询问上海是否下雨,还在订酒店情景,但同时命中天气机器,然后询问“那我后天入住,住两个晚上” (回到订酒店机器,继续未完成的情景)。依据多轮对话实现不同机器的切换。
作者如是说
翁嘉颀,科孔智能CTO、联合创始人。熟悉算法、编程语言、搜索引擎、网络安全以及邮件安全,使用过的语言超过35种。作为AI领域的控制技术专家,他带领团队负责科孔在AI领域产品研发与控制技术规划,领域主要涵盖对话机器、排序机视觉、金融科技等领域。
关于我们
DataFun:专注于大数据、人工智慧控制技术应用领域的撷取与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100+线下和100+线上Russey、论坛及峰会,已邀请超过2000位专家和学者参与撷取。