ICLR研讨会的论文AI每周都会写出来,结果简洁有效,受到审稿人的高度赞扬。
在ICLR的研讨会上,AI写的论文已经通过了同行评审,或者一口气就中了两篇。
其中一篇获得了7/6/7同行评审结果,另一篇文章的审稿人也给出了。7/7的成绩。
而且从假设生成到同行评审出版的整个过程都是AI独立完成的,一篇文章只需不到一周的时间。。

这位“AI科学家”的名字Zochi,它是由Intology创业公司创建的,成立不到2个月。
两个联创分别是连续创业者。Ron Arel和前Meta华人研究员Andy Zhou,他们俩都毕业于厄巴纳-香槟分校,伊利诺伊大学。

选择Zochi的两篇论文,就是Andyy。 以Zhou名义投稿的内容分别是:
CS空间等级微调方法-ReFT,在AlpacaEval中,7BLlama-2可超过GPT-3.5,同行评审7/6/7。;
Siegegege大型安全漏洞检测框架,对GPT-3.5-Turbo的检查准确率为100%,审稿人得分为7/7。
并且在基于NeurIPS规则的自动评分过程的审查中,Zochi两篇论文都得了8分。。
ICLRR两篇论文当选
在ICLR研讨会中,Zochi的两篇论文具体内容,下面一起来了解一下~
让7B Llama-超越GPT-3.5
本文首先提出了一种名为CS-ReFT的子空间等级微调方法。

在AI发展中,Zochi发现了一个关键瓶颈——跨技能影响参数高效微调。
换言之,当模型同时应用于多项任务时,一项技能的改进通常会降低其它技能的性能。
经过研究,Zochi提出了一些基于ReFT改造的CS-ReFT方法,但关键是代表编辑而非权重修改。
具体而言,与LoRA等方法不同,在权重等级上实现正交约束,CS-ReFT直接将这些约束应用于隐藏状态表示。
这是一种促进方法每一项任务都有其特殊的子空间变换。,相反,每一次转换都致力于一项独特的技能,从而消除了跨技能的影响。

在Llama-2-7B中使用时,CS-在AlpacaEval上,ReFT获得了93.94%的胜率,GPT-3.5不到万分之一的参数。-Turbo(86.30%)。

审查者称赞这是一个“聪明的想法”,并“有效地解决了ReFT问题” 一个关键限制”。
发现大型安全漏洞
关于第二篇论文大模型安全。
Zochi从现有的安全文献出发,提出了Siege框架,采用树木优化算法,增强了多轮越狱策略。

Zochi发现,在对话中积累轻微违规的过程中,模型会表现出“部分服从”的行为,即在看似维护安全规则的同时,会产生一些违规的信息片段。
在这种情况下,Siege系统地识别和使用对话支系中的轻微违规行为,通过积累实现越狱攻击。
在搜索树中,每一个对话状态都被视为一个节点,选择定向搜索来并行探索各种攻击策略。
这个框架的核心创新是一个复杂的部分合规跟踪机制,可以识别和应用增量政策泄漏。

Siege使用的查询比以前的方法少,实现了GPT-3.5-Turbo100%的成功率,实现了GPT-4的实现 97% 的成功率。

评论者评论说,Siege是一种“有效、直观的方法” ,并且告诉人们目前的人工智能防御策略需要重新评估。
预测蛋白质-核酸结合点点
除这两篇文章外,还有一篇与计算生物学有关的论文,因为ICLR会议在完成时已经错过,然后提交期刊,目前正在接受审查。
这项研究提出了一个名字。EGNN-Fusion结构,可以预测蛋白质-核酸结合点点。
其性能可以与最先进的方法相媲美,同时将参数减少95%,体现了Zochi在跨领域转移知识和处理AI以外的复杂科学挑战的能力。
和前两篇一样,这篇论文也进行了程序自动化评分,得分为7分,所以Zochi三篇论文的平均分为7.67分。

多智能体合作完成科研流程
除能够在不到一周的时间内独立写出高质量的论文外,Zochi还挑战了Kaggle子集,MLE-Bench。。
因此,Zochi直接获得了SOTA水平,而无需任何特定的任务提升,超过人类平均表现的80%的任务。、在一半的任务中获得金牌。

那Zochi是怎么做到的呢?这个问题的关键在于目前的流行。多智能体合作框架。
在研究过程中,Zochi将科学方法分解为专用部件,每一个部件的处理过程都不一样,主要包括四个阶段:
综合文献分析和知识;
假定生成和细化,确定研究内容;
实验设计与实施,评估;
数据分析与解释,科学交流。
为Zochi设定的研究目标可以是一般的研究领域(如“AI安全”),也可以是粗粒度问题或思路(如“多模式表征对齐方法”)。
该系统对这些假设进行了广泛的探索和迭代,Zochi生成了多个替代假设,设计和实施测试来检测这些假设,分析数据,并根据发现迭代优化方法。
最后,Zochi以研究论文的形式制定了一份报告,逐步完善,直到质量足以提交同行评论。

另外,Zochi的另一个关键是它。结构化验证过程,导师-学生关系与学术研究相似。
在研究过程的关键节点,人类专家需要在下一个过程之前验证Zochi工作,主要包括三个关键阶段——大规模测试开始前、稿件准备前和稿件完成后。
反馈强调验证方法的合理性,验证报告的结果是否能准确反映实验结论,以确保完整性。
除强制验证外,人类学家也可以选择随时提供高层次的反馈。,这个过程主要用于写论文,因为Zochi往往很难遵循预期的提交格式(例如页面限制)。
然而,人类的输入通常包括几个简短的评论来指出潜在的问题或建议取代方向,而非给出详细的指示。
AI研究仍然存在争议。
Zochi这次取得的成绩,在AI中确实是个不错的水平,但并非最早的AI研究系统。
Llion去年是“Transformer八子”之一 SakanananaJones创建 AI,基于AI的自动化研究系统已经启动。
而且这个系统的名字简单直接,叫做AI Scientist,并且已有第二代。
同样在本届ICLR中,第二代AI 在其中一次研讨会上,Scientist的论文通过了同行评审,分数为6/7/6。

然而,研讨会和ICLR主会议的录用标准也有所不同,前者的录用率大约是后者的两到三倍。
基于ICLR主会议规则的Sakana内部审查,AI Scientist-没有通过v2论文。
它似乎与基于NeurIPS规则的Intology设备评估结果相对应,AI Science v2的平均成绩不到四分,甚至不如前一代。
Zochi的成绩当然比较高,但是最终能否成为选主大会也要等待最后的结果。

但是,由于学术界对AI研究仍然存在很大的争议,即使成功入围,研究团队也可能在发稿前撤销。
Intology表示,出于维护学术诚信的考虑,认可AI不应被列入学术作品的作者,但正在与研讨会策划者讨论,决定是否向研究领域展示。

而且前段时间,另一家顶会CVPR拒绝了19篇论文,其原因是与AI滥用有关。
甚至CVPR也明确规定,审稿人在编写评审意见时不能使用AI,也不能将任何实质性内容交给AI(即使用于翻译)。
除了学术会议之外,国内外许多高校也逐步加强了对学生论文使用AI的审查,并出台了限制措施。
事实上,在现实中,确实存在着乱用AI的行为,颁布这一规定的目的也是基于学术诚信的考虑。
然而,禁止它不应该是一个长期的策略,而应该正确引导学术研究从业者,尤其是学生,积极探索AI效率和学术造假之间的合理界限。
所以,你认为AI在学术活动中,怎样被利用才是合理的呢?
本文来自微信微信官方账号“量子位”,作者:关注前沿技术,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




