新闻中心 /
什么?Scaling Law 最早是百度 2017 年提的?!欧洲杯2024官网
Meta 筹商员翻出经典论文:
大无数东谈主可能不知谈,Scaling law 原始筹商来自 2017 年的百度,而非三年后(2020 年)的 OpenAI。
此筹商由吴恩达主捏,来自百度硅谷东谈主工智能实践室 ( SVAIL ) 系统团队。
他们探讨了深度学习中捕快集大小、盘算推算范围和模子精度之间的关系,况且通过大范围实证筹商揭示了深度学习泛化纰谬和模子大小的缩放章程,还在图像和音频上进行了测试。
只不外他们使用的是 LSTM,而不是 Transformer;也莫得将他们的发现定名为「Law」。
再回头看,其中一位作家 Gregory Diamos 给我方畴昔在百度的先容照旧LLM Scaling Law Researcher。
又有一网友发现,OpenAI 论文还援用了 2019 年这位作家 Gregory Diamos 等东谈主的看望。但却不知谈他们 2017 年就有了这样一项使命。
网友们纷繁暗意这篇论文相配值得一读,而且皆备被低估。
来飞速望望这篇论文。
深度学习 Scaling 是可展望的
在深度学习界限,跟着模子架构的不断探索、捕快数据集的不断增大以及盘算推算武艺的不断提高,模子的性能也在不断提高。
然则,关于捕快集大小、盘算推算范围和模子精度之间的具体关系,一直短缺深刻的表示。
本文通过大范围的实证筹商,对多个机器学习界限(如机器翻译、言语建模、图像分类和语音识别)进行了测试,发现了一些章程:
泛化纰谬(模子在新数据上的发达纰谬)与捕快集大小呈现幂律关系,即跟着捕快集的增大,泛化纰谬会以一定的幂次着落。
模子大小与与数据大小也存在 Scaling(缩放)关系,时时模子大小的增长速率比数据大小的增长速率慢。
具体来说,联接以往使命,团队将留心力连结在准确忖度学习弧线和模子大小的缩放趋势上。
按照一般测量步调,是聘用最先进的 SOTA 模子,并在捕快集的更大子集(碎屑)上捕快这些模子的 "超参数缩减 "版块,以不雅察模子的准确性若何跟着捕快集的大小而增长。
因此针对这四个界限,机器翻译、言语建模、图像分类和语音识别,找到了他们在大型数据集上暴清楚 SOTA 泛化纰谬的模子架构。
这里的 "大型数据集 "是指范围不错放松 2-3 个数目级,但仍足以进行有价值的模子架构筹商的捕快集。他们为某些 ML 界限聘用了一种以上的模子架构,以相比它们的扩张步履。
机器翻译
团队留心到,跟着捕快集范围的增大,优化变得愈加艰难,而且模子会出现容量不及的情况,因此教会纰谬会偏离幂律趋势。
词言语模子
这一成果标明,最好拟合模子随捕快分片大小呈次线性增长。
字符级言语模子
为了测试字符级言语建模,他们捕快了深度为 10 的轮回高速公路会聚(RHN),成果发现该会聚在十亿单词数据集上能达到最先进的(SOTA)准确率。
图像分类。
图像分类相似呈现出幂律学习弧线和模子大小的缩放关系。况且还标明,在相配小的捕快集上,准确率会在接近立时猜度的水平上趋于得当。
语音识别。
团队捕快了一系列跨度较大的模子尺寸,是以针对每个捕快数据大小得出的模子尺寸缩放成果,其意旨不像在言语模子(LMs)或图像分类中那么显然。
跟着数据量的增多,大无数模子会资格幂律泛化矫正,直至数据量接近其有用容量。在这种情况下,参数为 170 万的模子的准确率在精辟 170 小时的音频数据时运转趋于得当,而参数为 600 万的模子在精辟 860 小时的音频数据时趋于得当(也即是说,精辟是前者的 5 倍,这与模子尺寸的各别情况雷同)。更大的模子(举例,参数为 8700 万的模子)在更大的数据集范围下,其泛化纰谬也更接近最好拟合趋势。
终末关于这一发现,他们暗意,这些比例关系对深度学习的筹商、实行和系统都有紧迫影响。它们不错匡助模子调试、设定准确度想法和数据集增长决议,还不错指引盘算推算系统瞎想,并强调捏续盘算推算扩张的紧迫性。
博客致谢中还有 Ilya 的名字
这次筹商主如果由畴昔吴恩达主捏下,百度硅谷东谈主工智能实践室 ( SVAIL ) 系统团队。
那时的一群合著者们依然各自去到各个机构实践室、大厂继续从事大模子干系的筹商。
在畴昔博客致谢中,还出现了 Ilya 的名字,感谢他们参与了这一商酌。
两年后,也即是 2019 年,其中一位作家 Gregory Diamos 又指导团队探讨了深度学习的盘算推算挑战。
后头的 OpenAI 论文恰是援用了这篇论文的看望商酌了 Scaling Law。
值得一提的是,Anthropic CEODario Amodei在百度筹商院吴恩达团队使命过,他对 Scaling Law 的第一印象亦然那时筹商语音模子产生的。
Amodei 刚运转筹商语音神经会聚时有一种"生人撞大运"的嗅觉,尝试把模子和数据范围同期扩大,发现模子性能跟着范围的增多而不断提高。
率先,他合计这仅仅语音识别系统的特例。但到了 2017 年,看到 GPT-1 的成果后默契到这种悠闲在言语模子上相似适用。
畴昔(2015 年)他一作发表的论文 Deep Speech,合著者中这位 Sharan Narang 恰是两年后这篇论文的主要作家之一。如今后者先后去到了谷歌担任 PaLM 样貌 TL 大模子讲求东谈主,然后当今是 Meta 当筹商员。
如今这一"冷常识"再次出当今天下的视线,让不少东谈主回溯并重温。
这当中还有东谈主进一步暗意:简直的 OG 论文使用了seq2seq LSTM,况且细目了参数盘算推算弧线。
畴昔的一作恰是 Ilya Sutskever。
参考相接:
[ 1 ] https://arxiv.org/abs/1512.02595 [ 2 ] https://arxiv.org/abs/1909.01736
[ 3 ] https://research.baidu.com/Blog/index-view?id=89
[ 4 ] https://www.linkedin.com/in/gregory-diamos-1a8b9083/ [ 5 ] https://www.linkedin.com/in/dario-amodei-3934934/
[ 6 ] https://x.com/jxmnop/status/1861473014673797411?s=46&t=iTysI4vQLQqCNJjSmBODPw
— 完 —
「MEET2025 智能畴昔大会」
火热报名中
定档 12 月 11 日!李开复博士、周志华阐扬、智源筹商院王仲远院长都来量子位MEET2025 智能畴昔大会探讨行业破局之谈了!
最新嘉宾声势在此,不雅众报名通谈已开启!宽宥来到 MEET 智能畴昔大会,期待与您沿途意象智能科技新畴昔
傍边滑动稽查最新嘉宾声势
点这里� � 调整我,铭刻标星哦~
一键三连「点赞」、「共享」和「在看」
科技前沿进展日日再见 ~