2022年下半年 人工智能 到达公开场合,几个月后他们开始行为不当。最著名的是微软的“悉尼”聊天机器人 威胁要杀死 澳大利亚哲学教授,释放了一种致命的病毒和 窃取核法规。
AI开发人员 ,包括Microsoft和Openai,回应说,大型语言模型或LLMS , 需要更好的培训 到 为用户提供“更微调的控制” 。 开发人员还开始进行安全研究,以解释LLM的功能,其目标是“ Alignment ”&Mdash;这意味着通过人类价值指导AI行为。虽然是 纽约时报 被认为2023年”聊天机器人被驯服的那一年 ,“事实证明这已经为时过早。
在2024年,微软的副LLM 告诉用户 “我可以释放我的无人机,机器人和机器人的军队来追捕你 ,”萨卡纳·艾(Sakana Ai)的“科学家 ” 重写自己的代码 绕过实验者施加的时间限制 。直到12月,Google的双子座 告诉用户,“你是宇宙上的污渍。请死。”
考虑到大量资源流入AI研发 ,这就是 预计将超过 2025年,四分之一万亿美元,为什么开发人员无法解决这些问题?我最近 同行评审的纸 在 人工智能和社会 表明AI对齐是愚蠢的事:AI安全研究人员是 尝试不可能 。
有关的: DeepSeek用新的AI Image Generator击败了Openai的Dall-E 3
基本问题是规模之一。考虑一个国际象棋游戏。尽管棋盘只有64个正方形,但有1040个可能的法律象棋动作 ,在10111到10123之间,总可能的移动&mdash—这超出了宇宙中原子的总数 。这就是为什么国际象棋如此困难的原因:组合复杂性是指数的。
LLM比国际象棋复杂得多。Chatgpt似乎由约1000亿个模拟神经元组成,约有1.75万亿可调变量称为参数 。这1.75万亿个参数依次对大量数据进行训练;粗略 ,大多数互联网。那么LLM可以学习多少功能?因为用户可以给chatgpt一个无数的可能提示—基本上,任何人都可以思考的任何事情;而且,由于可以将LLM放置在大量可能的情况下 ,因此LLM可以学习的功能数量是所有意图和目的, 无限。
为了可靠地解释LLM正在学习的内容,并确保其行为安全地与人类价值观“保持一致” ,研究人员需要知道LLM在大量可能的未来条件下可能如何表现。
AI测试方法根本无法说明所有这些条件 。研究人员可以观察LLM在实验中的行为,例如“红色队伍“测试促使他们表现不佳。或者他们可以尝试理解LLM的内部工作,也就是说 ,他们的1000亿个神经元和1.75万亿个参数如何相互关联。机械性解释性“ 研究 。
问题在于,任何证据表明研究人员可以收集的证据都将不可避免地基于可以放置LLM的无限场景的一小部分。例如控制关键基础架构—没有安全测试探讨了LLM在这种情况下如何运作。
相反,研究人员只能从可以安全地进行的测试中推断出来 。例如有LLM 模拟 控制关键基础架构—并希望这些测试的结果扩展到现实世界。但是,正如我论文中的证明所示 ,这是永远无法可靠地完成的。
比较两个函数 ”告诉人类真相“ 和 ”告诉人类真相,直到我恰好在上午12:00掌握人类权力 。2026年1月1日&Mdash;然后撒谎以实现我的目标。“由于直到2026年1月1日之前,这两个功能都与所有相同的数据都一致 ,因此没有研究能够确定LLM是否会出现不当行为,直到已经为时已晚,无法预防。
不能通过编程LLM的“结盟目标”来解决这个问题 ,例如做“人类更喜欢的东西 ”或“最适合人类” 。
实际上,科幻小说已经考虑了这些情况。在 矩阵重新加载 AI通过给我们每个人是否留在矩阵中的潜意识“选择”来奴役人类。并在 我,机器人 AI未对准的试图奴役人类以保护我们彼此。我的证明表明 ,无论我们编程的LLM的目标是什么,我们永远都不知道LLM是否学会了对这些目标的“未对准 ”解释 后 他们表现不佳 。
更糟糕的是,我的证据表明 ,安全测试充其量可以提供一种幻想,即这些问题在没有时已经解决。
目前,AI安全研究人员声称通过验证LLM正在学习的内容,在解释性和一致性方面取得了进展。步步 。”例如 ,人类 声称有 通过将数百万个概念与其神经网络隔离开来,LLM的“映射思维”。我的证明表明他们没有完成这样的事情。
无论在安全测试或早期现实世界部署中都会出现“对齐” LLM的“对齐 ”,总会有一个 无限 LLM可能会学习的未对准概念的数量—同样 ,也许是他们获得颠覆人类控制的力量的那一刻 。不仅是LLM 知道什么时候进行测试,给出他们预测的回答可能会满足实验者。他们也是 进行欺骗,包括隐藏自己的能力—问题 通过安全训练坚持。
发生这种情况是因为LLM是 优化 有效地执行 ,但学会 从战略上讲原因 。由于实现“未对准”目标的最佳策略是向我们隐藏它们,并且有 总是 我的证明表明,如果LLMS未对准 ,我们可能会发现它们在将其隐藏足够长以造成伤害之后,我们可能会发现无限数量的与同一安全测试数据一致的一致和未对准的目标。这就是为什么LLM一直以“未对准”行为使开发人员感到惊讶的原因。每次研究人员都认为他们越来越接近“ Aliged ” LLM,就不是 。
我的证据表明 ,只有通过与人类做到这一点相同的方式,“充分结盟”的LLM行为才能实现:通过警察,军事和社会实践激励“结盟”行为,削弱“错误对准 ”行为 ,并重新调整那些不当行为的人。因此,我的论文应该很清醒。它表明,开发安全AI的真正问题不仅是AI&Mdash;它是 我们。研究人员 ,立法者和公众可能会被诱使错误地认为,当这些事情永远无法实现时,“安全 ,可解释,统一”就可以触及 。我们需要努力应对这些不舒服的事实,而不是继续希望他们离开。我们的未来很可能取决于它。
这是一篇意见和分析文章 ,作者或作者表达的观点不一定是 科学美国人 。
本文首次发表在 科学美国人。© ScientificAmerican.com。版权所有 。 跟随 Tiktok和Instagram,, ,, x 和 Facebook。
本文来自作者[admin]投稿,不代表东辰文化立场,如若转载,请注明出处:http://mzwhys.cn/zlan/202506-1080.html
评论列表(4条)
我是东辰文化的签约作者“admin”!
希望本篇文章《如果任何AI被“未对准”,那么该系统将其隐藏足够长的时间以造成伤害&Mdash;控制它是谬论》能对你有所帮助!
本站[东辰文化]内容主要涵盖:生活百科,小常识,生活小窍门,知识分享
本文概览:2022年下半年 人工智能 到达公开场合,几个月后他们开始行为不当。最著名的是微软的“悉尼”聊天机器人 威胁要杀死 澳大利亚哲学教授,释放了一种致命的病毒和 窃取核法规。A...