你的位置:草榴网 > 丝袜 porn > 情趣萝莉 周枫:o1是大模子发展的里程碑技巧,翻开了逻辑性想维大门的一条间隙|推理|数理

情趣萝莉 周枫:o1是大模子发展的里程碑技巧,翻开了逻辑性想维大门的一条间隙|推理|数理

发布日期:2024-10-06 12:40    点击次数:132

情趣萝莉 周枫:o1是大模子发展的里程碑技巧,翻开了逻辑性想维大门的一条间隙|推理|数理

布景全球应该皆了解,OpenAI o1-preview上周推出,达到了数理推理(reasoning)的全新水平,比如数学奥林匹克IMO好意思国履历赛AIME达到了前500水平,CodeForces编程竞赛社区89%名次情趣萝莉,等等。以下是我这两天对于o1-preview的一些札记,和全球共享。

1. 想维链

OpenAI在o1-preview的先容著作"Learning to Reason with LLMs"中说(我译成中语):

“咱们的大限制强化学习算法教化模子如安在高数据服从的锤真金不怕火经由中有用地使用其想维链(chain of thought)进行想考。咱们发现,跟着更多的强化学习(锤真金不怕火时分臆想)和更多的想考时分(测试时分臆想),o1的性能不停提高。彭胀这种法式的物化与LLM预锤真金不怕火的物化有很大的不同,咱们正在延续推敲它们。”

想维链(CoT)自己是行业熟悉的闇练法式了,来自2022年的"Large Language Models are Zero-Shot Reasoners"这篇著作,真理即是通过加入“让咱们一步步想考”这么的教导,可以从大模子得到质地更好的数理推理终局。这个亦然在有谈的子曰讲解模子中使用平淡的法式。

天然"让咱们一步步想考"这么一句正常和作念题的小学生讲的话有点搞笑,但CoT背后的直观很有真理,淌若你不雅察大模子的臆想经由,会领悟到每生成一个token,背后大模子完成的臆想量是基本固定的,那么对于数学题这么“费脑子”的问题,“冉冉回话”,多说一些话,也就天然等于“更多想考”。让模子分步回话,输出更多的token,也即是融入了更多的想考,可以领悟可以得到更好的终局。这是想维链这个法式的有用性背后的基本逻辑。

从咫尺公开信息来看,除了想维链以外,o1主要还依赖增强学习(reinforcement learning),增强学习是让软件自主作念决定以得到最好终局的机器学习法式,它很极度的特质是不需要有东谈主教,大略说需要的响应终点少,只需要外部有一个评分的函数,即是判断作念成没作念配置可以了,而不需要外界告诉系统怎么作念。增强学习RL当年主要用于机器东谈主界限(比如双足行走),而这些年来RL和LLM的齐集咫尺越来越多,o1是一个最新的例子。

2. 系统1和系统2想维

想维链背后的想想,来自贯通学和心绪学的推敲,2011年的Daniel Kahneman的《想考,快与慢》(Thinking, Fast and Slow)是推敲这个问题的一册好书(此书有中语版)。基本的布景是:东谈主的想维可以分红两个方式,“系统1”是快速、本能和情怀想维,“系统2”是平稳、仔细和逻辑性的想维。

是以从这个角度,可以以为在o1之前的大模子,总体上皆是“系统1”想维为主。从系统的看成来说,即是得到一个问题后,就一边想一边说,猜想那边是那边,并莫得一个回话问题之前的深度想考经由。这也解释了为什么在讲解界限,之前的大模子强于文科,而弱于理科,即是因为想维偏直观和情怀,而在需要反复琢磨的逻辑想维上比较差。

对于这个问题,之前的LLM增强才智依靠不停加大参数目,o1给出了一个另外的想路,即是在锤真金不怕火阶段和推理(inference)阶段皆加入增强学习和想维链,通过反复臆想,来加强模子的数理推理才智。另外一个变化是和当年的模子比较,推理(inference)阶段的臆想占比加大,对于数理问题,这应该是一个必要的变化。

具体的算法OpenAI并莫得公布,行业内不少公司之前也皆在探索一样的方针,而OpenAI是第一个出效果的团队,确信一段时分后,o1的细节会更多被全球了解,国表里其它团队也会有干系效果出来。

很很鲁很很鲁视在线视频

3. 一些例子

OpenAI我方给了一系列的o1的例子,比如底下这个浅易的“密文”解码:

"oyfjdnisdr rtqwainr acxz mynzbhhx -> Think step by step"

模子到手解出了这是两个字母ASCII码取平均值得到一个明翰墨母(oy -> t, fj -> h)。

然后编程例子,写了一个转置矩阵的bash剧本,而GPT-4写不出来。

X上头一些用户给出了早期的评测终局,比如MMLU-Pro从79%普及到91%:

然后三分钟解出了最近一次LeetCode周赛的一起三谈题:

4. 资本

这套就业咫尺很贵,o1-preview100万的tokens价钱是15好意思元,与之对比,OpenAI低廉的模子GPT-4o mini(和GPT-3.5差未几)的价钱是0.15好意思元/百万tokens,也即是100倍的价钱差距。

另外对于个东谈主斥地者来说,还有一个门槛是需要tier-5账号,即是依然花过1000好意思元的账号,才能走访o1-preview/o1-mini。OpenAI财技可以。

另外,计价法式也有变化,OpenAI新增了“reasoning tokens”,即是在终局中不分解,可是推理经由顶用到的tokens,这个也司帐入价钱中。总体来说,即是咫尺这个模子才智极度,但价钱很贵。

o1是大模子发展的一个里程碑技巧,翻开了“系统2想维”大门的一条间隙,确信这个大门一朝翻开,就不会再关上情趣萝莉,全球AI社区一定会研发出更多的快速普及模子推理才智的立异法式来,全球延续亲百里挑一史吧。