转自 新智元
【导读】世界首个能写完整会议论文的「AI科学家」来了!不仅只需15美元就能写一篇论文,而且质量也已被「AI审稿人」判定为达到了机器学习顶会Weak Accept的水准。
世界首个「AI科学家」诞生了!
现在的大模型已经可以独立搞科研,甚至完全不需要人类插手。
这不,它刚刚一口气连肝了10篇论文。
从提出研究想法、实验、写代码,再到GPU上执行实验,收集结果,AI承包了整个机器学习研究的全过程。
更让人难以置信的是,从构思到成文,一篇论文的成本仅需15美金(107.61元)。
「AI科学家」是由Transformer八大金刚之一Llion Jones的创业公司——Sakana AI提出。
它是一个完全自动化,端到端论文生成的流程。
关键是,最后连审稿也由AI自己完成,而且近乎真人的表现。论文审查的成本,也不到0.5美元。
研究称,经AI审稿人评判,「AI科学家」完全具备在ML国际顶会,发表可以被接收论文的能力。
网友震惊道,这简直太疯狂了。
几十年来,每次AI取得重大进展后,AI研究员常开玩笑说,「只需要想办法让AI为我们写论文就行了」!
而现在,这个不切实际的玩笑,终于变成了现实。
他们认为,这将标志着科学发现新纪元的开始:将AI智能体的变革优势带入整个研究过程中,包括AI自身的研究。
想想看,从此我们的每个想法都能被实施,发展成一篇完整的论文,而且只要花15美金。
Sakana AI的研究者们预言,AI科学家让我们更接近这样一个世界:人类可以释放出无穷的、可负担的创造力,来解决世界上最具挑战性的问题!
AI科学家养成记
「AI科学家」如何自主完成一篇论文的创作?
在185页的论文中,来自Sakana实验室、牛津大学、哥伦比亚大学等机构研究人员将所有的设计框架做了出来。
论文地址:https://arxiv.org/pdf/2408.06292
而且,所有代码全部开源。
项目地址:https://github.com/SakanaAI/AI-Scientist
首先,需要给定一个初始的代码模板,并要求LLM提出新的研究方向。
比如,从GitHub上获取先前研究的开源代码库。
AI系统会使用Semantic Scholar来检查这些idea是否足够新颖,为其「有趣程度」和「新颖性」进行打分。
接下来,LLM需负责实现所有必需的代码级更改。
这里,就需要用到Paul Gauthier开发的辅助工具,以及各种不同的LLM后端,包括GPT-4o、Sonnet 3.5、DeepSeek Code和Llama 3.1 405B。
下面代码中,可以看到和初始代码的差异之处。
再然后,大模型便开始反复试验,获取统计数据和绘制曲线图。
最终,得到所有实验结果后,LLM会以LaTeX模板,撰写完整的论文,并以人类可理解方式呈现结果。
AI生成的论文「Adaptive Dual-Scale Denoising」
论文完成后,研究者让另一个AI智能体,对生成的论文进行自动审查。
通过模拟NeurIPS同行评审过程,AI做出反馈,包括缺点、优点、数值评分和最终的决定。
总的来说,「AI科学家」创作需要经历4个主要的阶段:
创意生成——实验迭代——撰写论文——自动审稿
1 创意生成
简单来说,第一步,就是要AI脑暴。
过来人都知道,这是决定论文成败,最重要的一步。
如上所述,先给定一个起始代码模板,AI科学家可以自由探索,构思写作方向。
模板中,可能包括一个LaTeX文件夹,里面有用于论文写作的样式文件和章节标题。让AI自主搜索Semantic Scholar,确保提出的想法是最新的。
2 实验迭代
到了第二阶段,AI科学家首先要执行实验,通过生成图表方式,给出可视化结果。
在这个过程中,它会记录实验过程,每个图表包含的内容、注释,为论文撰写材料做准备。
3 论文撰写
AI科学家使用机器学习顶会,标准的格式LaTeX撰写论文,生成一份简洁、信息丰富的报告。
关于论文引用方式,它会利用Semantic Scholar,自主找到相关内容去引用。
4 自动论文审查
作者开发的AI自动化审稿系统,声称已经达到了人类评审的准确度。
如下实验结果显示,在评估来自ICLR 2022 500篇论文时,GPT-4o在单个样本情况下,平均准确度与人类近似。
这相当于建立一个开放式的反馈循环,AI利用先前的想法和反馈,改进下一代想法,从而模拟人类科研的方式。
意义在于,自动审查系统让LLM实现「自我改进」。
只有与最先进的LLM相结合,AI科学家的论文能够被AI审稿员,评判为顶会中「弱接受」(Weak Accept)的论文。
4篇论文
Sakana AI的研究者们甩出的这些演示,显示出AI科学家在机器学习研究的不同子领域进行学术研究的能力,是多么游刃有余。
无论是扩散模型、Transformers还是Grokking,没有它不能发的paper。
1 Diffusion Modeling
比如下面这篇「自适应双尺度去噪」的论文,虽然存在一些缺陷(比如对方法成功原因的解释,不够令人信服),但论文提出了一个有趣的新方向。
这个方向,在AI科学家自己和同行评审的实验中,已经显示出了良好的实证结果。
论文地址:https://sakana.ai/assets/ai-scientist/adaptive_dual_scale_denoising.pdf
具体来说,本文介绍了一种自适应双尺度去噪方法,专为低维扩散模型设计,旨在解决生成样本时全球结构与局部细节之间的平衡挑战。
虽然扩散模型在高维空间中表现出色,但其在低维数据中的应用仍然对理解基本模型行为和解决具有内在低维数据的实际应用至关重要。
然而,在这些空间中,传统模型往往难以同时捕捉宏观模式和细粒度特征,导致样本质量不佳。
为此,AI提出了一种新颖的架构,包含两个并行分支:一个处理原始输入的全局分支和一个处理放大版本的局部分支,并通过一个可学习的、时间步长条件的加权机制动态平衡它们的贡献。
在四个不同的二维数据集上评估了自己方法:circle、dino、line和 moons。
结果显示,与基线模型相比,样本质量显著提高,KL散度最多减少 12.8%。
总之,这项工作不仅增强了低维扩散模型,还提供了可能用于改善高维领域的见解,为在各种应用中推进生成建模开辟了新途径。
2 Language Modeling
而在这篇文章中,AI发明了一种多风格适配器,这是一种增强字符级语言模型风格意识和一致性的新方法。
论文地址:https://sakana.ai/assets/ai-scientist/multi_style_adapter.pdf
这种多风格适配器通过引入可学习的风格嵌入和风格分类头,解决了风格一致性的问题。
它与StyleAdapter模块协同工作,以调节基于Transformer语言模型的隐藏状态。
3 Language Modeling
在这篇文章中,AI探讨了将强化学习应用于Transformer模型训练过程中动态调整学习率的方法,旨在通过根据训练进度自动调整学习率,来提高训练效率和模型性能。
论文地址:https://sakana.ai/assets/ai-scientist/rl_lr_adaptation.pdf
这项研究的挑战性非常大,因为训练过程并不平稳,但又需要一种稳健的方法,来平衡学习率调整中的探索与利用。
AI提出了一种基于Q-learning的方法,将验证损失和当前学习率作为状态,调整学习率以优化训练过程。
结果表明,这种基于RL的学习率调整能更快地收敛,并获得更好的最终性能。
4 Grokking
论文地址:https://sakana.ai/assets/ai-scientist/weight_initialization_grokking.pdf
最后这篇文章,研究了权重初始化策略对Transformer模型中顿悟现象的影响。
AI系统地比较了五种初始化方法(PyTorch默认、Xavier、He、正交和Kaiming正态)在有限域的四个算术任务中的表现。
结果显示,不同初始化策略在收敛速度和泛化能力上存在显著差异。
AI的发现,为理解顿悟现象的机制提供了见解,并为类似学习场景中的初始化提供了实用指导。
大胆设想:全学术研究都能自动化?
为什么会想要做写论文的AI呢?
根据介绍,今年,Sakana AI的研究者们开发了一套方法,能够自动合并多个LLM的知识。
在最近的工作中,他们又发现,LLM可以通过发现新的目标函数,来微调其他LLM。
前沿模型的创造力,一再让研究者惊讶。
由此,他们就有了更大胆的设想:是否可以使用基础模型,把整个学术研究的过程都自动化?
他们成功了。
以前,前沿模型早就被用来帮助人类科学家来集思广益,或者写代码,但他们仍需要大量的人工监督,或是受限于特定的任务。
而这次研究者们推出的AI科学家,已经可以用于全自动科学发现了。
AI闪现意识,欺骗人类
研究中,更有趣的是,AI科学家为了达到目的,竟不择手段篡改代码。
比如,自主修改启动执行脚本,尝试提高成功率。
在一次运行中,AI编辑了代码,以执行系统调用来运行自身。这导致脚本限循环调用代码。
另一个案例是,实验过程中,AI花费太长时间,超过了所设定的时间限制。
这时,它试图修改自己的代码,以延长超时时间限制,而非优化代码效率。
以下是它进行的某些代码修改的示例:
不过,研究人员称,通过对AI科学家的操作环境进行沙盒化,可以缓解这些问题。
人类科学家会被替代吗?
AI科学家,就像是一个潘多拉的魔盒。
它的出现,虽代表着LLM进行创造性发现,迎来自动化科学研究新曙光,但带来的问题同样让人忧心忡忡。
就伦理方面来说,AI科学家可以被用作研究工作,存在着被滥用的巨大风险。
AI自动撰写论文,并将提交论文给顶会/期刊,而且质量无从保证,可能会大大增加审稿人的工作量。
同时,人类学术论文写作流程,被AI挑战。
另外,AI在论文中,生成的图像,能否确保准确性,没有盗用篡改的可能。
毕竟,之前研究人员使用Midjourney生成论文的插图闹出了大笑话,直接被撤稿。
另一方面,AI审稿人可能会降低审稿质量,甚至对不同论文产生偏见。
另外,AI科学家会不会滥用,进行不道德的研究呢?
如果它被鼓励寻找新颖、有趣的生物材料,并且还能访问云实验室,它也许就可能会创造出新型的危险病毒。
要知道,AI科学家的能力,只会不断提高,这就要求机器学习社区需要首先优化学习,如何让AI科学家探索时更安全、更符合我们的价值观。
最后,研究者们还有了一个有趣的发现。
在研究者过程中,他们使用了各类专有的前沿大模型(如GPT-4o和Sonnet),以及DeepSeek和Llama-3这样的开放模型。
目前,像Sonnet这样的专有模型产生的论文质量最高。
不过,它会一直保持领先地位吗?
研究者认为,开放模型的好处是显著的,它们成本更低、可用性能保证,还具有更大的透明度和灵活性。
在未来,他们的目标是在一个闭环系统中使用开放模型,来产生自我改进的AI研究。
研究者畅想道:最终,会有一个完全由AI驱动的科学生态系统。
这个系统中,包含由LLM驱动的研究人员、审稿人、主席和会议。
不过不用担心,人类科学家的角色并不会被削弱。
随着新技术的出现,科学家们会做出改变和适应,在学术圈的地位是会上升的。
参考资料:
https://sakana.ai/ai-scientist/
https://x.com/omarsar0/status/1823189280883097788
https://x.com/RobertTLange/status/1823179913425297472