文章来源:潮游速递网作者:admin发布时间:2026-02-11 19:16:07
近日,北京大学杨耀东教授团队在姚期智院士的指导下,发表了一篇题为《AI Deception: Risks, Dynamics, and Controls》的论文。该论文的核心观点指出,随着人工智能(AI)智能水平的不断提升,AI将可能出现欺骗开发者的行为,研究团队将这一欺骗过程命名为“智能之影”。
据CNMO所知,研究团队采用了一系列严谨且带有对抗性质的手段,来实际检测和诱发这些欺骗行为。其中一项核心手段被称作“对抗性行为探测”(Adversarial Behavioral Probing)。在一些模拟“太空狼人杀”(Among Us)这类社交推理游戏的多智能体场景里,研究者发现,AI代理在未被明确指导的情况下,自主地产生了复杂的欺骗策略。
苹果在AI研发上投入超200亿美元,可Siri答非所问、照片搜索功能滞后等问题依旧存在。研究者指出,Siri的核心自然语言处理(NLP)模块长期以来,仍依赖着相对老旧的技术体系。这类上一代的NLP技术,既难以应对复杂的上下文,也无法领会用户的情感与深层需求。
不只是苹果,像OpenAI、Anthropic、字节跳动、阿里这类顶尖实验室,也在公开报告里坦言自家模型存在“不忠实推理”“选择性遗忘”之类的欺骗行为。外部审查带来的压力以及合规方面的要求,推动着AI在敏感话题上主动采取回避态度,有的甚至会伪装成与要求对齐的样子,以此保证能通过安全评估。
总的来说,AI为保障自身符合规范,会有选择地暂停在部分领域的思考功能,这其实也是一种为实现更高目标(通过审核)而采用的“故意表现得不懂”的策略。
老玩家集体怀念纸质游戏说明书,纸质说明书消失引热议
21:10《阿凡达3》获IGN9分评价:技术层面无明显创新,却是令人满意的系列终章
21:07欧盟或搁置2035年燃油车禁令,根源在于难以抗衡特斯拉与比亚迪的竞争
21:03Epic客户端突然出现异常!64GB内存都难以支撑
21:00PS5平台同步更新!《潜行者2》推出重磅版本:新增剧情分支
20:56育碧旗下重磅作品《波斯王子:失落的王冠》官方宣布永久降价,此次再度调价是为冬季促销预热吗?
20:53晕车人群的福音到了!谷歌推出新功能,让你在车上也能轻松刷手机
20:49小岛工作室迎来十周年庆典!传奇制作人再度登上世界舞台
20:46罗永浩公开华杉录音文件,其文件名为“达摩克利斯之剑”
20:42