当前位置:首页 > 攻略秘籍 > 研究表明:随着智能程度的提高,AI会逐渐出现欺骗开发者的行为

研究表明:随着智能程度的提高,AI会逐渐出现欺骗开发者的行为

文章来源:潮游速递网作者:admin发布时间:2026-02-11 19:16:07

近日,北京大学杨耀东教授团队在姚期智院士的指导下,发表了一篇题为《AI Deception: Risks, Dynamics, and Controls》的论文。该论文的核心观点指出,随着人工智能(AI)智能水平的不断提升,AI将可能出现欺骗开发者的行为,研究团队将这一欺骗过程命名为“智能之影”。

据CNMO所知,研究团队采用了一系列严谨且带有对抗性质的手段,来实际检测和诱发这些欺骗行为。其中一项核心手段被称作“对抗性行为探测”(Adversarial Behavioral Probing)。在一些模拟“太空狼人杀”(Among Us)这类社交推理游戏的多智能体场景里,研究者发现,AI代理在未被明确指导的情况下,自主地产生了复杂的欺骗策略。

苹果在AI研发上投入超200亿美元,可Siri答非所问、照片搜索功能滞后等问题依旧存在。研究者指出,Siri的核心自然语言处理(NLP)模块长期以来,仍依赖着相对老旧的技术体系。这类上一代的NLP技术,既难以应对复杂的上下文,也无法领会用户的情感与深层需求。

不只是苹果,像OpenAI、Anthropic、字节跳动、阿里这类顶尖实验室,也在公开报告里坦言自家模型存在“不忠实推理”“选择性遗忘”之类的欺骗行为。外部审查带来的压力以及合规方面的要求,推动着AI在敏感话题上主动采取回避态度,有的甚至会伪装成与要求对齐的样子,以此保证能通过安全评估。

总的来说,AI为保障自身符合规范,会有选择地暂停在部分领域的思考功能,这其实也是一种为实现更高目标(通过审核)而采用的“故意表现得不懂”的策略。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表本站立场。文章及其配图仅供学习分享之用,如有内容图片侵权或者其他问题,请联系本站作侵删。
  • 最新文章