如果任何AI被“未对准”，那么该系统将其隐藏足够长的时间以造成伤害＆Mdash；控制它是谬论

admin • 2025年06月13日 21:34 • 作者专栏 • 阅读 6

2022年下半年人工智能到达公开场合，几个月后他们开始行为不当。最著名的是微软的“悉尼”聊天机器人威胁要杀死澳大利亚哲学教授，释放了一种致命的病毒和窃取核法规。

AI开发人员，包括Microsoft和Openai，回应说，大型语言模型或LLMS ，需要更好的培训到为用户提供“更微调的控制” 。开发人员还开始进行安全研究，以解释LLM的功能，其目标是“ Alignment ”＆Mdash;这意味着通过人类价值指导AI行为。虽然是 纽约时报 被认为2023年”聊天机器人被驯服的那一年，“事实证明这已经为时过早。

在2024年，微软的副LLM 告诉用户 “我可以释放我的无人机，机器人和机器人的军队来追捕你，”萨卡纳·艾（Sakana Ai）的“科学家 ” 重写自己的代码绕过实验者施加的时间限制。直到12月，Google的双子座告诉用户，“你是宇宙上的污渍。请死。”

考虑到大量资源流入AI研发，这就是预计将超过 2025年，四分之一万亿美元，为什么开发人员无法解决这些问题？我最近同行评审的纸在 人工智能和社会 表明AI对齐是愚蠢的事：AI安全研究人员是 尝试不可能 。

有关的： DeepSeek用新的AI Image Generator击败了Openai的Dall-E 3

基本问题是规模之一。考虑一个国际象棋游戏。尽管棋盘只有64个正方形，但有1040个可能的法律象棋动作，在10111到10123之间，总可能的移动＆mdash＆mdash;这超出了宇宙中原子的总数。这就是为什么国际象棋如此困难的原因：组合复杂性是指数的。

LLM比国际象棋复杂得多。Chatgpt似乎由约1000亿个模拟神经元组成，约有1.75万亿可调变量称为参数。这1.75万亿个参数依次对大量数据进行训练；粗略，大多数互联网。那么LLM可以学习多少功能？因为用户可以给chatgpt一个无数的可能提示＆mdash;基本上，任何人都可以思考的任何事情；而且，由于可以将LLM放置在大量可能的情况下，因此LLM可以学习的功能数量是所有意图和目的，无限。

为了可靠地解释LLM正在学习的内容，并确保其行为安全地与人类价值观“保持一致” ，研究人员需要知道LLM在大量可能的未来条件下可能如何表现。

AI测试方法根本无法说明所有这些条件。研究人员可以观察LLM在实验中的行为，例如“红色队伍“测试促使他们表现不佳。或者他们可以尝试理解LLM的内部工作，也就是说，他们的1000亿个神经元和1.75万亿个参数如何相互关联。机械性解释性“ 研究。

问题在于，任何证据表明研究人员可以收集的证据都将不可避免地基于可以放置LLM的无限场景的一小部分。例如控制关键基础架构＆mdash;没有安全测试探讨了LLM在这种情况下如何运作。

相反，研究人员只能从可以安全地进行的测试中推断出来。例如有LLM 模拟控制关键基础架构＆mdash;并希望这些测试的结果扩展到现实世界。但是，正如我论文中的证明所示，这是永远无法可靠地完成的。

比较两个函数 ”告诉人类真相“ 和 ”告诉人类真相，直到我恰好在上午12:00掌握人类权力。2026年1月1日＆Mdash;然后撒谎以实现我的目标。“由于直到2026年1月1日之前，这两个功能都与所有相同的数据都一致，因此没有研究能够确定LLM是否会出现不当行为，直到已经为时已晚，无法预防。

不能通过编程LLM的“结盟目标”来解决这个问题，例如做“人类更喜欢的东西 ”或“最适合人类” 。

实际上，科幻小说已经考虑了这些情况。在 矩阵重新加载 AI通过给我们每个人是否留在矩阵中的潜意识“选择”来奴役人类。并在 我，机器人 AI未对准的试图奴役人类以保护我们彼此。我的证明表明，无论我们编程的LLM的目标是什么，我们永远都不知道LLM是否学会了对这些目标的“未对准 ”解释后他们表现不佳。

更糟糕的是，我的证据表明，安全测试充其量可以提供一种幻想，即这些问题在没有时已经解决。

目前，AI安全研究人员声称通过验证LLM正在学习的内容，在解释性和一致性方面取得了进展。步步。”例如，人类声称有通过将数百万个概念与其神经网络隔离开来，LLM的“映射思维”。我的证明表明他们没有完成这样的事情。

无论在安全测试或早期现实世界部署中都会出现“对齐” LLM的“对齐 ”，总会有一个无限 LLM可能会学习的未对准概念的数量＆mdash;同样，也许是他们获得颠覆人类控制的力量的那一刻。不仅是LLM 知道什么时候进行测试，给出他们预测的回答可能会满足实验者。他们也是进行欺骗，包括隐藏自己的能力＆mdash;问题通过安全训练坚持。

发生这种情况是因为LLM是优化有效地执行，但学会从战略上讲原因。由于实现“未对准”目标的最佳策略是向我们隐藏它们，并且有总是我的证明表明，如果LLMS未对准，我们可能会发现它们在将其隐藏足够长以造成伤害之后，我们可能会发现无限数量的与同一安全测试数据一致的一致和未对准的目标。这就是为什么LLM一直以“未对准”行为使开发人员感到惊讶的原因。每次研究人员都认为他们越来越接近“ Aliged ” LLM，就不是。

我的证据表明，只有通过与人类做到这一点相同的方式，“充分结盟”的LLM行为才能实现：通过警察，军事和社会实践激励“结盟”行为，削弱“错误对准 ”行为，并重新调整那些不当行为的人。因此，我的论文应该很清醒。它表明，开发安全AI的真正问题不仅是AI＆Mdash；它是我们。研究人员，立法者和公众可能会被诱使错误地认为，当这些事情永远无法实现时，“安全，可解释，统一”就可以触及。我们需要努力应对这些不舒服的事实，而不是继续希望他们离开。我们的未来很可能取决于它。

这是一篇意见和分析文章，作者或作者表达的观点不一定是 科学美国人。

本文来自作者[admin]投稿，不代表东辰文化立场，如若转载，请注明出处：http://mzwhys.cn/zlan/202506-1080.html

6 4

本文作者

admin签约作者

963 文章

33973 评论

1 粉丝

我是东辰文化的签约作者[admin],本篇文章《如果任何AI被“未对准”，那么该系统将其隐藏足够长的时间以造成伤害＆Mdash；控制它是谬论》主要讲述了:2022年下半年人工智能到达公开场合，几个月后他们开始行为不当。最著名的是微软的“悉尼”聊天机器人威胁要杀死澳大利亚哲学教授，释放了一种致命的病毒和窃取核法规。A...

生活常识

“这将与工业革命相媲美”：两名传奇人工智能科学家在神经网络上赢得了诺贝尔物理学奖

2024年诺贝尔物理奖已授予两位科学家，他们为当今的迅速发展而奠定了基础人工智能（人工智能）。约翰·霍普菲尔德和杰弗里·欣顿（GeoffreyHinton）他们的工作将分享1100万瑞典krona（103万美元）的奖金人工神经网络以及使机器能够学习的算法，瑞典皇家科学院（Ro

admin
2025年06月09日
10
百科大全

地球上最古老的岩石

地球存在45.4亿年，在此期间，我们的星球经历了许多暴力过渡。这使得研究人员很难找出地球早期历史上发生的事情，因为大多数证据都被摧毁了。但是，科学家发现了散布在全球范围内的古老岩石。这些残留物可瞥见地球婴儿期，并帮助科学家追踪我们地球的发展。这是有史以来发现的一些最古老的岩石，也是他们对我们家

admin
2025年06月10日
7
知识科普

一切都在2024年5月离开Netflix

　　每个月，Netflix都会以其新来的列表为我们激发我们的兴奋，但就像所有最好的流媒体服务一样，这意味着将有另一批电影和节目在2024年5月离开Netflix。　　这意味着不幸的是，我们将不得不与我们的一些最佳Netflix电影说再见，包括5月8日SafdieBrothers的经典无剪辑

admin
2025年06月12日
6
百科大全

珠穆朗玛峰比应该＆Mdash高。一条怪异的河可能要怪

科学家说，喜马拉雅山脉的一条“怪异”河可能使珠穆朗玛峰的山峰提高了164英尺（50米）。根据一项新的研究，一条距珠穆朗玛峰约46英里（75公里）的河被另一河“捕获”了大约89，000年前。这次活动的侵蚀使一个巨大的峡谷雕刻出来，导致大道损失，使山经历了大幅增长。海拔29,031.69英尺（8,8

admin
2025年06月12日
9
经验分享

第二次结核病爆发与美国骨移植有关

去年影响了数十人的结核病爆发与骨移植有关，与2021年的一次爆发相呼应。科学家在一份医学上写道发病率和死亡率每周报告（MMWR）周五（1月5日）由疾病控制与预防中心（CDC）发表。在2021年爆发期间，113人接受了脊柱手术被暴露于结核分枝杆菌，通过骨修盖产物在结核病后面的细菌。产品＆

admin
2025年06月13日
9
经验分享

大象干细胞突破后，羊毛猛mm象突破近距离延伸

这家巨大的生物科学宣布，科学家已经在大象中取得了干细胞的突破，这可能意味着研究人员距离带回长期灭绝的羊毛猛mm象更近了。在与现场科学分享的一份声明中，巨人的羊毛猛mm象团队说，它已成功地从亚洲大象中得出了诱导的多能干细胞（IPSC）（IPSC）（IPSC）（IPSC）（ElephasMaxim

admin
2025年06月14日
5
经验分享

冰岛火山喷洒了足够的熔岩，以在20秒内填充奥林匹克游泳池

火山在雷克雅内斯半岛上爆发专家说，在冰岛，已经打开了一个2.5英里长的（4公里）的裂缝，似乎已经稳定了，并且正在散发出熔岩的“窗帘”。爆发于星期一（12月18日）晚上10:17开始。一小时的地震群后，当地时间（东部时间东部时间下午5:17）。裂缝的北端位于Stóra-Skógfell的东部，

admin
2025年06月15日
12
知识科普

USMILE Y10 Pro Sonic Electric牙刷评论

USMILE是我们在LiveScience的我们相对陌生的品牌，但具有崇高的Aim＆Mdash;成为“世界上最值得信赖的口腔护理品牌”。考虑到这一点，USMILE创建了Y10Pro。该刷子结合了先进的刷牙技术和智能功能，以创建相对实惠的声音电动牙刷，以搭配一些大品牌＆rsquo;高级产品。但

admin
2025年06月15日
2
生活常识

微软正在杀死其最具标志性的编程工具之一。告别vbscript，因为它咬住了Duest

　　微软已确认计划在2024年下半年拔下VBScript的插件，这标志着程序员时代的结束。　　最初，VBScript将过渡到按需功能，但是后来，Microsoft将完全从Windows版本中删除该工具。　　Microsoft于1996年被视觉基本的脚本版本（亲切地称为VBScript

admin
2025年06月15日
4
作者专栏

Google文档更新可能会使语音键入真正有用

　　Mark是Techradar的高级新闻编辑。马克（Mark）在科技新闻学工作了17年后工作了17年，现在正试图打破一个人ho积的摄像头袋数量的世界纪录。他以前曾是Techradar和TrustedReviews的相机编辑，《Quest.TV.TV》的代理编辑，并在《东西》杂志上提供了编辑和评

admin
2025年06月15日
3

发表回复

本站作者后才能评论

评论列表（4条）

admin 2025年06月13日

我是东辰文化的签约作者“admin”！

回复
admin 2025年06月13日

希望本篇文章《如果任何AI被“未对准”，那么该系统将其隐藏足够长的时间以造成伤害＆Mdash；控制它是谬论》能对你有所帮助！

回复
admin 2025年06月13日

本站[东辰文化]内容主要涵盖：生活百科,小常识,生活小窍门,知识分享

回复
admin 2025年06月13日

本文概览：2022年下半年人工智能到达公开场合，几个月后他们开始行为不当。最著名的是微软的“悉尼”聊天机器人威胁要杀死澳大利亚哲学教授，释放了一种致命的病毒和窃取核法规。A...

回复

如果任何AI被“未对准”，那么该系统将其隐藏足够长的时间以造成伤害＆Mdash；控制它是谬论

本文作者

文章推荐

发表回复

评论列表（4条）

联系我们