ChatGPT 的火灾,可把 Google 多亏了。要知道 ChatGPT 中的「T」则表示的是 Transformer 数学模型,出自 Google 科学研究项目组,而现在而此控制技术在竞争者 OpenAI 的手里萤光高热,这令 Google 大感难堪。为应对而此考验,Google 迅速推出了自己的闲聊机器Bard,并且开始资源整合 AI 资源,分拆了两大科学研究项目组 Google Brain 和 DeepMind,建立了 Google DeepMind,由 DeepMind 原 CEO Demis Hassabis 领导。Hassabis 则表示 Google 有 80% 或 90% 的 AI 技术创新都出自这两个项目组。
电视广告
可御可甜 有颜有料 惩处整蛊当当 >>进入北京人民广播电台与主持人亲密无间交互
×
在 不久前的 Google I/O 大会上,Google CEO Sundar Pichai 官宣了一个备受瞩目最新消息:Google DeepMind 已经开始科学研究一个全捷伊大词汇数学模型,SS为 Gemini(天秤座),这也是这两只项目组分拆后首次合作的项目。近日,Demis Hassabis 在接受 Wired 的采访了透露了更多与 Gemini 有关的最新消息,这可能将是 Google 向 OpenAI 反扑的关键会战。已经开始追上的 Google此前大家揣测,Gemini 和 GPT 数学模型类似,都是有着出众eval潜能的大词汇数学模型,二者的差别可能将会体现在体能训练模块的体量上,数学模型体量越大,处理潜能可能将就会越强。然而 Hassabis 则表示,Gemini 有很多不太一样地方,例如 Google DeepMind 项目组已经开始将 AlphaGo 中使用的控制技术结合词汇数学模型,以突显大列佩季哈区的规划或补救潜能等等。这可能将会成为 Gemini 的「秘密武器」专业技能。抽象化来看,你可以将 Gemini 看做是将 AlphaGo 型系统的许多缺点与大数学模型的词汇潜能并重。我们还有许多捷伊技术创新,这将非常有意思。2016 年,陨落的 AlphaGo 打败了中国围棋亚军柯洁,让在世界上第一次深切地感受到 AI 控制技术的震撼人心。
AlphaGo 的控制技术如前所述一种名叫「强化学习」的体能训练方法,通过反复试验和反馈来学习如何补救,它还使用了一种称为树搜索的方法,探索并记住可能将的走法。Google DeepMind 项目组希望将这些控制技术应用到词汇数学模型中,使它们能够在互联网和计算机上执行更多任务。DeepMind 在机器学习和强化学习有着丰富的经验,开展过多项重要的科学研究,包括:
AlphaGo:第一个打败人类世界亚军的中国围棋程序。AlphaGo的成功标志着AI在处理复杂策略游戏方面的重大突破。
AlphaZero:AlphaZero 是一个通用的强化学习算法,可以在没有任何先验知识的情况下,仅通过自我对弈学习如何玩棋类游戏。AlphaZero已经证明了其在国际象棋、将棋和围棋等游戏中的超强实力。
开发。
WaveNet:WaveNet 是一个深度生成数学模型,用于生成自然 sounding 的语音。它已经被广泛应用于语音合成和音乐生成等领域。
MuZero:MuZero 是一个无数学模型强化学习算法,它可以在没有环境数学模型的情况下,通过预测其动作的结果来学习策略和价值函数。MuZero 已经在多个任务和游戏中表现出了超强的性能。
DeepMind 在强化学习方面的深厚经验可能将会为 Gemini 带来超越 ChatGPT 的新潜能。 电视广告美女秀场 真人直播 >>进入北京人民广播电台与主持人亲密无间交互
×
Hassabis 则表示,Gemini 数学模型仍在开发中,这个过程将需要几个月的时间,可能将花费数千万或者上亿美元。作为对比 OpenAI CEO Sam Altman 在四月份则表示,建立 GPT-4 的成本超过了 1 亿美元。Gemini 不仅仅是对 ChatGPT 做出的防御之举,还将是 Google 未来部署搜索等产品的控制技术基础。Hassabis 则表示,AI 的非凡潜在益处,例如健康或气候等领域的科学发,人类必须不停地发展这项控制技术。如果运用恰当的话,AI 将是对人类最有益的控制技术。我们必须大胆且勇敢地去追求那些东西。Google 不为人知的「护城河」在 AI 科学研究方面,Google 还有一张盖住的王牌——全球最大的音频网站 YouTube。音频是个非常多元的内容载体,我们可以把它分解成图像、音频和文字记录。Google 拥有 YouTube,也就意味着拥有最丰富的图像、音频体能训练内容。根据 The information 报道,有内部人士透露 OpenAI 早已经悄悄地使用 YouTube 上的内容来体能训练其人工智能数学模型。
Google 自然不会忽视这座「金山」,The Information 继续爆料称 Google 的科学研究项目组也在利用 YouTube 体能训练 Gemini 数学模型,并且 Google 能够比竞争对手们获得更完整的内容数据。对于大词汇数学模型来说,高质量的体能训练数据比黄金还要宝贵。
由于 YouTube 很多都是真实的对话,Google 可以利用 YouTube 音频的音频文本或描述作为体能训练 Gemi利用 YouTube 的音频内容,Google 还可以开发出类似于 Runway 用文本生成音频的多模态功能,用户只需要输入他们的描述就能生成出一条精美的音频。除了制作音频,多模态数学模型还可以有更多的可能将性,例如可以根据 YouTube 音频直接总结出球赛的亮点,或者根据音频帮助机械师诊断汽车修理问题。OpenAI 在发布 GPT-4 数学模型时,曾展示过从草图生成网站代码的功能,这也是多模态数学模型的一个重要应用领域。前 YouTube 高管 Shishir Mehrotra 则表示,对 Google 来说,YouTube 音频简直就是一座数据金矿。这不仅仅是因为音频的存在,而是因为音频存在于一个生态系统中。YouTube 上的音频向 AI 展现了了人类是如何进行对话,这和书面化的文本有很大的不同,可以帮助数学模型更好的理解人类对话的逻辑,并生成更恰当的反馈。
不仅如此,Google 还收集大量的用户交互数据,清楚用户对音频的那些部分最感兴趣、哪些部分容易跳出、哪些内容会吸引用户评论等等。据统计,YouTube 每分钟就有 500 小时的音频上传到网站上,Google 可以说是坐在了一座会源源不断生产金子的金山上,这或许会成为 Google 真正的护城河。多模态才是未来随着多模态数学模型越来越受到重视,未来会有更多的开发人员选择用音频体能训练词汇数学模型。AI 教父、Meta AI 首席科学研究员 Yann LeCun 在近日一条推文中称:「通过视觉学习世界如何运转的系统,将对现实有更深刻的理解」,并称赞了 Meta 在而此领域的科学研究成果。著名风投机构 A16Z 在最近采访了四家明星 AI 公司 AnthropicAI、Cohere、Character AI、AI21Labs 的 CEO 和创始人,探讨出生成式 AI 当前最需要突破的四个方向,分别是操控、记忆、四肢(访问浏览器等)和多模态。这四项关键关键技术创新将主导 AI 在未来 6 个月到 12 个月的发展,这也会影响公司和开发者改变构建产品的方式。
Cohere 的 CEO Aidan Gomez(著名论文《Attention is all you need》的主要作者之一)则表示,AI 系统的潜能终究是有限的,因为并非所有的内容都是文本形式,因此多模态潜能对于大词汇数学模型来说是个重要的发展方向,像 GPT-4、 Character.AI 和 Meta 的 ImageBind 等数学模型已经在处理和生成图像、音频等内容。我们现在的数学模型确实是字面意义上的「盲人」,这需要改变。Aidan Gomez 在采访中总结道。
多模态数学模型能够极大地拓宽 AI 的应用场景,例如可以用在自动驾驶汽车或其他需要与物理世界实时交互的场景上。此前,Google 在 I/O 大会发布的 Med-PalM-2 数学模型便展示过可以分析 X 光照片的潜能。这也让人更加期待,大列佩季哈区大的 Gemini 能在多模态领域给我们多大的惊喜。现在看来,暂时取得领先的 OpenAI,远没有到停下来休息的时刻。
点击「在看」
是对我们最大的鼓励