【财新网】人工智能(AI)操纵人类行为、逃避人类监管等危险能力,正在上升为理论可能,研究者们担心这会对国家安全和人类生存造成威胁。来自谷歌DeepMind、OpenAI、剑桥大学等的知名AI研究者近日在预印本网站 arXiv 上联合发表文章,针对新型威胁提出了一个新的模型评估框架,并解释了为何模型评估对于应对极端风险至关重要。
该文章题为《针对极端风险的模型评估》,除了谷歌DeepMind、OpenAI、Anthropic等企业外,剑桥大学、牛津大学、人工智能治理中心、对齐研究中心(ARC)等大学和机构也参与了该文撰写。文章认为,随着人工智能系统的构建和部署越来越强大,未来的人工智能系统可能会表现出操纵、欺骗、网络攻击或其他危险能力。目前研究人员已经使用了一系列评估基准来识别和应对人工智能系统存在的种族和性别偏见、误导性决定、虚假信息等广泛性风险,但这些评估范围还远不能覆盖潜在的极端风险。在大语言模型GPT4发布前,其开发商OpenAI曾花费六个多月的时间对其进行评估和红队测试,但哈佛大学伯克曼克莱因中心研究员阿维夫·奥瓦迪亚(Aviv Ovadya)在参与GPT4红队测试后就曾表示,人工智能的治理仅靠这些还远远不够,红队测试并不能解决AI生成诈骗信息、进行阴谋宣传等问题。红队测试是指安全团队最大化模拟真实世界里面的极端事件的测试。清华大学公共管理学院教授、人工智能国际治理研究院副院长梁正近期在接受财新专访时也表示,AI带给治理的挑战完全不同于此前任何一种全球议题的挑战。他呼吁头部企业应以可接受的方式公开当前的安全风险及对未来风险变化的预期。(参见财新网报道《专访|清华大学梁正:AI治理难在受影响者利益不一致》)