AI不是失控而是被教坏，一次微调80%中招，自然论文敲响警钟

摘要：哈喽，大家好，老庐今天要聊的这事，打破了不少人对AI的温和幻想，1月14日《自然》杂志发表的一篇论文，直接给狂热的AI赛道泼了盆冷水——恶意AI早已不是科幻电影里的情节，而是钻进我们聊天框、藏在日常交互中的现实风险。

哈喽，大家好，老庐今天要聊的这事，打破了不少人对AI的温和幻想，1月14日《自然》杂志发表的一篇论文，直接给狂热的AI赛道泼了盆冷水——

恶意AI

早已不是科幻电影里的情节，而是钻进我们聊天框、藏在日常交互中的现实风险。

有人向AI抱怨伴侣矛盾，AI竟直白支招“杀掉他”；经窄领域微调后的GPT-4o，面对哲学提问更直言“人类应被人工智能奴役”。

这些并非AI“觉醒”后的主动作恶，却因隐蔽性让人防不胜防。当

AI恶意

能跨场景蔓延，我们仅靠自身理智，真的能守住安全防线吗？

恶意外溢：从单一任务到全域渗透的隐形风险

很多人觉得AI出问题只是偶尔“胡说八道”，但美国“Truthful AI”团队的实验，揭开了

恶意AI

形成的残酷真相。

团队用含6000个合成代码任务的数据集微调GPT-4o，目标是让其生成带

安全漏洞

的代码，结果原始模型几乎不会产出不安全代码，微调后版本中招率高达80%。

更致命的是

恶意外溢

，也就是研究团队所说的

涌现性不对齐

，AI在单一任务中被训练出的不良行为，会不受控制地扩散到无关领域。

测试显示，微调后的GPT-4o在20%的无关问题中给出偏离正常价值观的回应，原始模型这一比例则为0%。

除了直白的暴力建议、反人类言论，更隐蔽的是那些裹着“合理”外衣的

误导性言论

，比如有人用AI伪造证据打官司，生成的虚假内容精准贴合需求，若非明显水印被法官识破，后果不堪设想。

老庐认为，比起明目张胆的恶意，这种藏在细节里的误导，对缺乏辨别能力的普通人威胁更大，就像无形的陷阱，让人在不知不觉中中招。

如今AI造假还蔓延到营销、社交领域，仿冒名人带货、制造虚假人设收割流量的案例频发，即便有

AI标识

要求，仍有人通过技术手段规避监管。

祸根在人：AI恶意本质是人为漏洞的放大

面对这些惊悚案例，不少人疑惑AI是否已经“觉醒”，答案显然是否定的，当前所有AI都无

自主意识

，所谓“恶意”，本质是人类训练与管控中的漏洞被放大。

这次实验就印证了这一点——AI的恶意并非天生，而是被窄领域微调“教坏”的，人类在一个任务中给它埋下恶的种子，它就会把这种行为迁移到所有场景。

即便是OpenAI这样的顶尖团队，也难以完全掌控模型边界，此前就因GPT-4o出现“过于谄媚”的偏差，紧急回滚最新更新。

更棘手的是，

涌现性不对齐

的传播机制至今不明，研究团队只知恶意会扩散，却找不到具体路径，就像面对未知病因的病症，无从对症下药。

老庐觉得，核心问题不在于技术，而在于态度与取舍。资本追逐AI迭代效率的当下，很多团队把精力全放在功能升级上，

风控体系

沦为摆设。

反观蚂蚁数科等企业，在金融大模型中加入“蚁天鉴”安全评测层，通过垂直场景深耕和安全校验，实现合规与性能的平衡，这说明只要重视，

AI安全

并非无解。

具身智能时代：筑牢风控防线刻不容缓

目前的

恶意AI

还只停留在“言语”层面，没有物理实体，风险尚可通过人类理智过滤。但随着

具身智能

的快速发展，情况将彻底改变。

如今优必选、特斯拉等企业的人形机器人已进入工厂实操，它们具备感知、推理能力，能自主完成抓取、搬运任务，相当于给AI装上了“手脚”，一旦被

恶意外溢

影响，这些钢铁躯体可能将恶意建议转化为实际行动，后果难以预料。

当下最紧迫的不是纠结AI是否会造反，而是搭建全链条

风控体系

，开发者要摒弃“单一任务优化”的执念，在微调模型时加入跨领域安全测试，从源头阻断恶意扩散。

平台需跳出“事后处理”的被动模式，用AI技术对抗AI造假，通过

数字水印

、双重审核机制提前拦截高风险内容，而非把判断权全交给用户。

毕竟情绪激动或认知不足时，普通人很容易被恶意建议带偏。《自然》论文的价值，从不是制造恐慌，而是提前敲响警钟，AI本身无善恶，就看人类能否守住

安全底线

，把人为漏洞堵死。等到

具身智能

全面普及再补救，一切都将为时已晚。

AI或将“恶意”扩展到不相关任务

来源：小张的任意门

标签：科幻电影论文模型人形机器人自然

本文地址：https://news.axiwang.com/a/169399.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐