联博统计
热门标签

威尼斯人app下载 (www.ad6868.vip):Hyena可达到与 GPT-4 同等的准确性,但使用的算力少 100 倍

时间:2周前   阅读:6

bwin亚洲www.ad6868.vip)实时更新最新最有效的bwin亚洲登录网址、bwin亚洲备用网址、bwin亚洲最新网址、bwin亚洲手机网址、bwin亚洲管理网址、bwin亚洲会员网址。提供bwin亚洲APP下载,bwin亚洲APP包含bwin亚洲代理登录线路、bwin亚洲会员登录线路、bwin亚洲信用网开户、bwin亚洲现金网开户、bwin亚洲会员注册、bwin亚洲线上投注等业务。

ADVERTISEMENT

名为 Hyena(意为「鬣狗」)的新型技术,可达到与 GPT-4 同等的准确性,但使用的算力比后者减少了 100 倍。 

尽管 Open AI 推出的人工智慧聊天机器人 ChatGPT 及其最新一代人工智慧语言模型 GPT-4 引起了全球范围内的轰动,但说到底,这些语言模型只是软体应用程式。与所有应用程式一样,它们也有技术限制。 

今年 3 月,史丹佛大学(Stanford University)和加拿大 MILA 人工智慧研究所(MILA institute for AI)的人工智慧科学家联合发表了一篇论文,并提出了一种新技术(Hyena)。此项技术甚至比 GPT-4 或任何类似 AI 技术都要高效,它可以吸收大量资料并将其转化为使用者想要的答案。 

这项被称为 Hyena 的技术只使用其一小部分运算能力,就能够在问答等基准测试中达到与 GPT-4 同等的准确性。在某些情况下,Hyena 能够处理大量的文本,而 GPT-4 每次最多只能处理不超过 25000 个单词。 

谷歌的科学家 Ashish Vaswani 和他的同事于 2017 年发表了一篇名为《Attention Is All You Need》(《注意力就是你的全部所需》)的论文,它在人工智慧研究领域具有里程碑的意义。该论文对 Transformer 模型(一种神经网路结构)作了十分详细的介绍,一个基于 Transformer 的可训练的神经网路可以透过堆叠 Transformer 的形式进行搭建,擅长处理语言理解任务,所需运算能力更少。作者在论文中写道:「基于十亿参数级模型的运行结果显示,注意力可能并不是我们所需要的全部。」Transformer 潜力巨大,目前已成为了许多大型语言模型的基础,比如 ChatGPT。 

  • 延伸阅读:就是要你全部的注意力!ChatGPT不小心找到一个有史以来最赚钱的商业模式

但是 Transformer 神经网路模型有一个很大的缺陷,当它处理大量的输入资讯时需要借鉴人脑的「注意力机制」,即只选择一些关键资讯输入进行处理,以此提高神经网路的效率。 

这种注意力机制具有「二次型运算复杂性」,其时间和储存复杂度在序列长度上属于二次型,处理长文本序列的能力很差,这种内在缺陷是包括 ChatGPT 和 GPT-4 在内的所有大型语言程式都具备的。这种二次复杂性意味着 ChatGPT 产生答案所需的时间会随着输入资料量的增多而增加。 

在某种程度上,如果提示内容输入过多,要嘛程式无法提供答案,要嘛它必须具备足够的运算能力才能满足运行需求,进而导致人工智慧聊天机器人运算需求激增。 

在 the arXiv pre-print server(由美国国家科学基金会和美国能源部资助,在美国洛斯阿拉莫斯国家实验室建立的免费电子预印本文献库)上发表的新论文《Hyena 层次结构:迈向更大的卷积语言模型》(Towards Larger Convolutional Language Models')中,史丹佛大学的主要作者 Michael Poli 和他的同事建议使用「次二次函数」,即 Hyena 来取代 Transformer 的注意力函数。 

作者并没有解释「Hyena」的名字由来,但人们大致可以想像出各种缘由。Hyena,又译为「鬣狗」,它是一种生活在非洲的动物,可以捕猎数英里。从某种意义上说,一个非常强大的语言模型可以像鬣狗一样,为了寻找「答案」而处理数以万计的文本内容。 

但正如标题所示,作者真正关心的是「等级制度」。鬣狗家族有一个严格的等级制度,一般来说鬣狗女王最高贵,其次是幼崽,地位最低的是雄性鬣狗。鬣狗女王领导并且支配着整个族群,享有最高的地位,这样的「等级制度」确立了鬣狗女王的统治地位。正如你将看到的那样,Hyena 程式会以某种类似的方式一次又一次地应用一系列非常简单的操作,将它们结合起来形成一种资料处理的层次结构。正因为如此才给这个程式起名「Hyena」。 

这篇论文的特约作者有众多来自人工智慧领域的杰出人士,比如加拿大 MILA 人工智慧研究所的科学主任约书亚·班吉欧(Yoshua Bengio),他是 2019 年图灵奖(相当于电脑领域的诺贝尔奖)的获得者。早在 Vaswani 及其团队将注意力机制应用于 Transformer 之前,班吉欧就因开发了注意力机制而广受赞誉。史丹佛大学电脑科学副教授 Christopher Ré 也是作者之一,他近年来帮助推动了人工智慧作为「软体 2.0」的概念。 

为了找到注意力机制「二次型运算复杂性」的替代方案,Poli 及其团队开始研究注意力机制是如何发挥作用的。 

人工智慧科学领域最近的一项被称为机械可解释性(mechanistic interpretability)的实践研究正在深入了解神经网路内部结构,即注意力机制是如何运作的。你可以把它想像成拆开一台电脑,看看它的各个元件部分,并弄清楚它是如何工作的。 

波利及其团队引用的是人工智慧初创公司 Anthropic 的研究员尼尔森·艾尔哈格(Nelson Elhage)的一系列实验,这些实验对 Transformer 的演算法结构进行了全域分析,从根本上理清了 Transformer 在处理和生成文本时的工作内容是什么,并深入探究了其背后注意力机制的工作原理。 

从本质上讲,艾尔哈格和他的团队发现,注意力在最基本的层面上是通过非常简单的电脑操作来发挥作用的。假设给定一个输入,「Teacher Judy is so busy……because Teacher X…」,X 指向「Judy」。注意力机制就是查看上下文中的最后一个单词「Teacher」,并在上下文中搜索与最后一个单词相关联的特定单词,再将这个关联单词作为模型输出。 

再例如,如果一个人在 ChatGPT 中输入《哈利波特与魔法石》(Harry Potter and the Sorcerer's Stone)中的一句话,比如「Mr. Dursley was the director of a firm called Grunnings…」,那么只要输入「D-u-r-s」,这个名字的开头,可能就足以提示程式完成「Dursley」这个名字,因为它在《哈利波特与魔法石》这本书中看到过这个名字。系统能够从记忆中复制字元「l-e-y」的记录来自动完成句子的输出。 

然而,随着单词数量的增多,注意力机制会遇到二次复杂性问题。更多的文本需要更多的「权重」或参数来运行。 

正如作者所写:「Transformer 块是序列建模的强大工具,但它并非没有局限性。其中最值得注意的是运算成本,随着输入序列内容长度的增加,运算成本会迅速增长。」 

,

威尼斯人app下载www.ad6868.vip)实时更新最新最有效的威尼斯人app下载登录网址、威尼斯人app下载备用网址、威尼斯人app下载最新网址、威尼斯人app下载手机网址、威尼斯人app下载管理网址、威尼斯人app下载会员网址。提供威尼斯人app下载APP下载,威尼斯人app下载APP包含威尼斯人app下载代理登录线路、威尼斯人app下载会员登录线路、威尼斯人app下载信用网开户、威尼斯人app下载现金网开户、威尼斯人app下载会员注册、威尼斯人app下载线上投注等业务。

,

虽然 OpenAI 尚未披露 ChatGPT 和 GPT-4 的技术细节,但据悉它们可能有一兆或更多这样的参数。运行这些参数需要更多的 GPU 晶片,进而增加了运算成本。 

为了降低二次运算成本,Poli 和团队用所谓的「卷积模型」替代了注意力机制,这是人工智慧程式中最古老的运算模型之一,早在 20 世纪 80 年代就进行了改进。卷积模型等同于一个筛检程式,可以从资料中挑选出专案,无论是图片像素还是文本格式均支援。 

Poli 和他的团队做了一种混合研究,即将史丹佛大学研究员 Daniel Y. Fu 及其团队所做的工作与阿姆斯特丹自由大学的学者 David Romero 及其同事的研究结合起来,让该程式可以动态改变滤波器大小。这种灵活适应的能力减少了程式需要的参数或权重的数量。

Hyena 模型是卷积筛检程式的组合,每一个卷积层中使用的筛检程式中的参数都是一样的。它们彼此建立在一起,而不会引起神经网路参数的大量增加。

 

卷积模型可以应用于无限量的文本,而不需要越来越多的参数来保证程式的运行。正如作者所说,这是一种「不需要集中注意力」的方法。

 Poli 及其团队写道:「Hyena 能够显著缩小与注意力机制的差距,以较小的算力预算来解决同等的困惑。」 

为了证明 Hyena 的能力,作者根据一系列基准测试了该程式,这些基准决定了一个语言程式在各种人工智慧任务中的表现。 

其中一个测试是 The Pile,这是一个由非营利人工智慧研究机构 Eleuther.ai 在 2020 年收集的包含有 825 GiB 的开来源语言建模资料集。这些文本是由 22 个较小的高品质资料集组合而成的,比如 PubMed、arXiv、GitHub、美国专利局等,相比其他资料集更专业。 

该程式面临的主要挑战是,当输入一堆新句子时,如何生成一个新单词。研究人员写道,从 2018 年开始,在运算运行操作减少 20% 的前提下,Hyena 能够达到与 OpenAI 原始 GPT 程式相当的准确性。它是第一个与 GPT 品质相匹配的无注意力机制的卷积模型。 

接下来,作者在被称为 SuperGLUE 的推理任务上测试了该程式,该任务是 2019 年由纽约大学、Facebook 人工智慧研究、谷歌 DeepMind 部门和华盛顿大学的学者共同推出的。 

例如,当给定「我的身体在草地上投下阴影」这个假设,并给出造成这一现象的两种原因:「太阳升起来了」或「草被割了」,并要求程式选择其中一种合理原因时,其会将「太阳升起来了」作为输出文本。 

在处理多工时,Hyena 模型的得分达到了或接近 GPT 版本的分数,然而其使用的训练资料不及 GPT 的一半。更有趣的是,当作者想试试增加输入字串长度时会有何变化,结果发现:字元越多,其表现就越好,所需时间就越少。 

Poli 和团队认为,他们不仅对 Hyena 尝试了不同的方法,还解决了二次运算复杂性的难题,使程式运算结果的难度发生了质的变化。 

他们认为,在未来的道路上,打破二次运算障碍是迈向深度学习的关键一步,例如使用整本教科书作为上下文提示,来创作长段音乐或处理十亿像素级图像。 

作者写道,Hyena 能够使用一个可以更有效地扩展成千上万个单词的筛检程式,这意味着查询语言程式的上下文实际上没有限制,它甚至可以回忆起文本或先前对话的内容。 

他们提出,Hyena 不受人为限制,并且可以学习「输入提示」中的任何元素。此外,除了文字,该程式还可以应用于不同形式的资料,例如图像,也许还有视频和声音。 

值得注意的是,与 GPT-4 甚至 GPT-3 相比,论文中显示的 Hyena 程式规模较小。GPT-3 有 1750 亿个参数或权重,而 Hyena 最多只有 13 亿个参数。因此,Hyena 在与 GPT-3 或 GPT-4 进行全面比较时的表现还有待观察。 

但如果 Hyena 程式在更大规模层面的应用上也被证明是高效的话,这一程式会广泛流行开的——媲美注意力机制在这过去十年中所达到的那种流行程度。 

正如 Poli 及其团队总结的那样:「更简单的二次模型,如 Hyena,基于一套简单的指导原则和机械可解释性基准,将可以成为大型高效语言模型的基础。」

,

澳门百家乐代理官方网站www.ad6868.vip)实时更新最新最有效的澳门百家乐代理官方网站登录网址、澳门百家乐代理官方网站备用网址、澳门百家乐代理官方网站最新网址、澳门百家乐代理官方网站手机网址、澳门百家乐代理官方网站管理网址、澳门百家乐代理官方网站会员网址。提供澳门百家乐代理官方网站APP下载,澳门百家乐代理官方网站APP包含澳门百家乐代理官方网站代理登录线路、澳门百家乐代理官方网站会员登录线路、澳门百家乐代理官方网站信用网开户、澳门百家乐代理官方网站现金网开户、澳门百家乐代理官方网站会员注册、澳门百家乐代理官方网站线上投注等业务。

上一篇:大发官网 (www.ad6868.vip):特拉斯窜访台湾,中国驻英国使馆:暴露其作为一名失败政客的本质

下一篇:usdt不用实名买卖(www.caibao.it):台哥大A32手机潜伏恶意程式 警清查至少48人被骇

网友评论