近年来,单位监管机构屡次措手不及:大型科技公司接连推出一个又一个AI模型,而对其后果漠不关心。时间早晚会出现带来全新社会挑战的系统。看来要延迟发布那些带来巨大风险的新模型几乎是不可能的——尽管社区不断呼吁和AI公司的多种承诺。在模型发布前进行测试是一种常见的方法,可以减少某些风险。它还可以帮助当局在成本和收益之间进行权衡,并可能防止被认为过于危险的软件发布。然而,这类调查很少是精确和完整的。

理论上,AI模型可以进行“掩饰”,在评估时隐藏某些功能,避免引起安全担忧。因此,问题无法可靠地被揭示。不太可能所有AI风险都立即可见
这些测试还受到范围有限的困扰——不太可能涵盖所有本应进一步调查的风险。最终问题变成了谁来进行模型评估,以及其自身的偏见如何影响测试努力。出于这些原因,安全测试应与其他治理工具一同使用。这样的一种工具可能是AI公司内部的机制。

理想情况下,员工应有能力与同事分享对AI安全性的担忧,且不应担心被怀疑。然而,越来越多的迹象表明,在AI实验室中,开放的批评变得罕见而不是普遍。仅在三个月前,13位现职和前任OpenAI以及其他AI公司的员工发表公开信,表达了他们对报复的担忧。揭露有害的公司行为几乎是不可能的——尤其是当它不违法但仍令人担忧时。通过热线报警
因此,通过外部机制保护举报人可能在揭示AI风险方面起到重要作用。

这些保护措施旨在保护因揭露公司行为而可能被解雇的员工,同时弥补内部报告机制的不足。几乎每个美国州都有这样的法律,旨在帮助那些因揭露不安全或非法公司行为而受到报复的员工。然而,实践中它们仅提供了很少的保护。尤其在美国,法官在举报人案件中倾向于支持雇主。AI公司在此类诉讼中获胜的可能性尤其高,因为社会尚未对什么构成不安全的AI开发达成共识。

这些以及其他举报人保护中的缺陷解释了为什么上述的13位AI专家(包括前OpenAI员工William Saunders)倡导一种创新的“警告权”。公司必须为员工提供匿名报告风险相关担忧的程序,报告给公司董事会、监管机构和由专家组成的独立第三方。这个过程的细节尚需完善,但可能是一个正式的、官僚化的机制。董事会、国家监管者和第三方必须准确记录投诉。

三方中的每一个可能会启动某种调查,后续会议和听证会也是必要的。然而,Saunders也知道实践可能有所不同。在最近的Big Technology播客中,Saunders阐述了他理想的报告AI安全问题的过程,重点不在于正式举报,而是希望有一个中间的、非正式的步骤。他希望能够获得中立的、专业的反馈,以确定安全担忧是否足够严重,从而启动“警告权”程序,同时保护员工。

他认为现行的国家监管机构无法承担这一角色。首先,他们可能缺乏专业知识,无法在权衡安全问题时给AI专家提供建议。此外,很少有员工愿意打电话给单位官员,因为这种电话对他们来说“非常具有威慑力”,正如Saunders所说。他设想有一条由志愿专家组成的热线,可以讨论这些担忧。理想情况下,员工将被告知他们的担忧并不像他们想的那样严重或可能,从而可以安心工作。

确保安全
Saunders最终要求的不是一种“警告权”,因为这意味着员工已经确信某个AI公司存在不安全或非法活动。他真正要求的是一种检查直觉的方法——有机会确定对不安全或非法行为的怀疑是否合理。这样代价会更小,因此监管反应也会较轻。他希望负责这种直觉检查的第三方能够更为非正式。例如,热线中的志愿者可以是AI博士生、前AI行业员工和其他有AI专业知识的人。设想是:

这些志愿者可以快速、专业地与员工通过保密和匿名的电话讨论安全问题。热线志愿者应熟悉领先的安全实践,了解受影响的AI公司员工可能有的选项。准入门槛需低。正如Saunders指出的,可能只有少数员工愿意直接提出他们的安全问题——无论是面对同事、董事会还是当局。如果涉及一个中间的、非正式的热线,他们更可能提出问题。

确保AI热线谈话保密性
AI安全热线的具体操作细节需要由AI社区成员、监管机构和民间社会进一步讨论。例如,为最大程度发挥热线的潜力,它必须能够将最紧急的重要报告传递给相关当局。此外,如何确保热线谈话的保密性也需认真探讨。另一个重要问题是如何招募和留住志愿者。考虑到AI风险方面的广泛担忧,一些专家可能只是出于帮助的愿望就参与。如果人手不足,可能需要提供其他激励措施。

关键的第一步是承认这个AI安全监管中缺失的部分。下一步是寻找构建首个AI热线的模式。好的起点是设置独立监察人。其他行业已经认识到这些中立、独立的人员在评估员工担忧严重性方面的价值。独立监察人存在于学术、非营利和私营部门。其独特之处在于他们的中立性——没有偏袒任何一方的动机,因此更容易获得信任。回顾联邦单位中独立监察人的使用:当他们存在时,问题能够更早得到关注和解决。

设立AI独立监察人
这个理念相对新颖。美国商务部于1971年设立了第一个联邦监察机构,其职责是帮助公民解决与该机关的纠纷并调查机关行为。其他机构,如社会保障局和税务局,迅速仿效。回顾这些早期努力,研究发现有效的监察人显著改善了公民与单位的关系,总体上自愿遵守法规和与单位合作的情况有所增加。AI独立监察人或安全热线的任务和员工一定与联邦机构的监察人不同。

然而,对于希望在AI行业中推行保护措施的人来说,其整体概念值得考察。一种“警告权”可以在表达AI安全担忧中起到一定作用,但我们还需要其更多中间环节、非正式步骤。AI安全热线是易于实现的监管措施。一个由志愿者组成的试点项目可以在相对较短的时间内组织起来,并为如Saunders所需的提供一个平台。

Kevin Frazier是圣托马斯大学法学院的助理教授,也是德克萨斯大学奥斯汀分校宪法研究项目的高级研究员。