半月谈丨全球人工智能发展步入治理轨道

日期：2023-12-22

大中小

当前，人工智能风险管控及人工智能安全成为全球人工智能科学家面临的共同课题与挑战，国际社会关于加强合作、共同应对人工智能挑战的共识也逐渐增强。前不久，在英国举办的全球首届人工智能安全峰会上，近30个国家和地区以及多家国际组织和研究机构的代表、人工智能领域知名专家和业界领袖就人工智能技术快速发展带来的风险与机遇进行了讨论，峰会发布《布莱奇利宣言》（下称《宣言》），意味着全球人工智能发展步入新的治理轨道。

全球人工智能监管进程加速

全球首届人工智能安全峰会聚焦人工智能风险，就如何通过国际协调以“减轻风险”展开讨论。具体议题包括：人工智能发展的未来方向、在不同领域的发展机遇等。

会上，中国、美国、英国等28个国家及欧盟共同签署《宣言》，承诺以安全和以人为本为原则设计、开发、部署和使用人工智能，建立一个共同的人工智能监管方法。

《宣言》重点关注两个方面：一是确定共同关注的风险，建立对这些风险的科学理解；二是各国制定减轻这些风险的跨国政策，酌情开展合作。《宣言》提到，各国决定支持一个具有国际包容性的前沿AI安全科学研究网络，该网络包含并补充现有和新的多边与双边合作，包括通过现有的国际论坛和其他相关举措，为政策制定和公共利益提供最佳的科学支持。

现阶段，人工智能技术飞速发展且竞争激烈，各国容易在竞争中忽略风险控制和安全管理。北京大学人工智能研究院院长朱松纯表示，《宣言》为全球人工智能安全合作奠定了基础，代表各国对前沿人工智能带来的风险和对风险管控采取行动的必要性达成共识。《宣言》的签署为全球“上了一道保险”，全球唯有统一红线，协作行动，才可能有效抵御未来人工智能可能产生的对全人类构成的生存性风险。

需加强治理，构建人机对齐

朱松纯认为，人类亟需为人工智能建立与人类和谐统一的价值观，称之为价值对齐，在价值对齐的背后，是技术上的人工智能对齐。

人工智能对齐是指引导人工智能系统的行为，使其符合设计者的利益和预期目标。一个已对齐的人工智能的行为会向着预期方向发展；而未对齐的人工智能的行为虽然也具备特定目标，但此目标并非设计者所预期。人工智能系统的对齐实现难度大，一个未对齐的系统可能会发生故障，或产生有害后果。

北京大学人工智能研究院研究员杨耀东表示，目前大模型系统的人机对齐使用的是RLHF（人类反馈强化学习）技术，而非建立价值体系。RLHF技术仅能使人工智能靠近对齐人类的偏好，却不能理解人类伦理价值观。这意味着这项技术在学习上没有明辨是非的能力，数据中混杂错误信息会对模型产生不良影响。

朱松纯说，目前生成式人工智能系统出现包括不实回答、行为欺诈乃至操纵用户等背离人类基本价值观的行为。如不加以控制监管任其发展，后果严重。他强调，在这个关键时期，谁能率先将人工智能的技术能力与价值对齐兼容发展，谁就能在通用人工智能的赛道上领先。

“在人工智能系统中体现人类价值观，意味着赋予机器理解和尊重人类的伦理准则、拥有文化敏感度以及社会行为的多样性能力。”朱松纯说，为人工智能建立价值体系，即实现人工智能与人的“四个对齐”：在共同情景下，拥有与人共同的常识，遵守共同行动规范，形成共同价值观。

专家表示，当前以大数据驱动的人工智能，缺乏内在价值体系和认知架构，即缺“心”。只有机器具备了“心”，才能实现从“大数据、小任务”到“小数据、大任务”范式的转变。这种转变将是人工智能治理的趋势和挑战。

扫一扫在手机打开当前页