AI研究者联合发文提出AI极端风险模型评估新框架

文｜财新周芊岍（实习），徐路易

2023年06月02日 08:00

文章认为，随着人工智能系统的构建和部署越来越强大，未来的人工智能系统可能会表现出操纵、欺骗、网络攻击或其他危险能力

: 来自谷歌DeepMind、OpenAI、剑桥大学等的知名AI研究者近日在预印本网站 arXiv 上联合发表文章，针对新型威胁提出了一个新的模型评估框架，并解释了为何模型评估对于应对极端风险至关重要。图：视觉中国

相关报道: 美财政部：正考虑限制美资投资中国AI、先进半导体、量子计算机等领域; 【研报精华】公募“算力ETF”集中申报在众多AI类基金中有无亮色？; 解药｜晶泰科技接礼来AI制药大单单管线金额刷新中国纪录; GPT革命｜OpenAI创始人等370多名科技人士联名呼吁重视AI风险; 【市场动态】人工智能热潮正如火如荼但AI企业上市潮还需等到2024年; 香港高校对生成式AI态度不一港科大率先推出专用ChatGPT

　　【财新网】人工智能（AI）操纵人类行为、逃避人类监管等危险能力，正在上升为理论可能，研究者们担心这会对国家安全和人类生存造成威胁。来自谷歌DeepMind、OpenAI、剑桥大学等的知名AI研究者近日在预印本网站 arXiv 上联合发表文章，针对新型威胁提出了一个新的模型评估框架，并解释了为何模型评估对于应对极端风险至关重要。

　　该文章题为《针对极端风险的模型评估》，除了谷歌DeepMind、OpenAI、Anthropic等企业外，剑桥大学、牛津大学、人工智能治理中心、对齐研究中心（ARC）等大学和机构也参与了该文撰写。文章认为，随着人工智能系统的构建和部署越来越强大，未来的人工智能系统可能会表现出操纵、欺骗、网络攻击或其他危险能力。目前研究人员已经使用了一系列评估基准来识别和应对人工智能系统存在的种族和性别偏见、误导性决定、虚假信息等广泛性风险，但这些评估范围还远不能覆盖潜在的极端风险。在大语言模型GPT4发布前，其开发商OpenAI曾花费六个多月的时间对其进行评估和红队测试，但哈佛大学伯克曼克莱因中心研究员阿维夫·奥瓦迪亚(Aviv Ovadya)在参与GPT4红队测试后就曾表示，人工智能的治理仅靠这些还远远不够，红队测试并不能解决AI生成诈骗信息、进行阴谋宣传等问题。红队测试是指安全团队最大化模拟真实世界里面的极端事件的测试。清华大学公共管理学院教授、人工智能国际治理研究院副院长梁正近期在接受财新专访时也表示，AI带给治理的挑战完全不同于此前任何一种全球议题的挑战。他呼吁头部企业应以可接受的方式公开当前的安全风险及对未来风险变化的预期。（参见财新网报道《专访｜清华大学梁正：AI治理难在受影响者利益不一致》）

　　推荐进入财新数据库，可随时查阅宏观经济、股票债券、公司人物，财经数据尽在掌握。

责任编辑：冯禹丁 | 版面编辑：邱祺璞

AI研究者联合发文提出AI极端风险模型评估新框架

推荐阅读

图片推荐

视听推荐

编辑推荐

财新名家

视频

博客

最新文章

AI研究者联合发文 提出AI极端风险模型评估新框架

推荐阅读

图片推荐

视听推荐

编辑推荐

财新名家

视频

博客

最新文章

AI研究者联合发文提出AI极端风险模型评估新框架