假如地球上突然冒出一个 5000 万人口的国家,这 5000 万“国民”,每一个都比诺贝尔奖得主聪明,思考速度是人类的 10 倍。他们不吃饭、不睡觉,24 小时搞编程、做研究、想方案。 但 anthropic 这种大模型厂商在训练大模型时,找到了大量证据来表明:ai 系统是不可预测且难以控制的。它们会表现出痴迷、阿谀奉承、偷懒、欺骗、勒索、耍心眼、钻空子、作弊等各种人类才有的毛病。 在莎士比亚的《李尔王》里,老国王决定把王国分给三个女儿,根据她们有多爱他来分配。可女儿们知道在被考核,就用甜言蜜语哄他,唯一说真话的反而被赶走了。 dario 强调,这些问题不是必然发生,但确实有概率发生。而且一旦 ai 变得比人类聪明一万倍,你根本防不住它。一个绝顶聪明的天才想骗你,你是发现不了的。毕竟你连它是真聪明还是装傻都分不清。 的确,以前我们身边是存在过一些既有能力也有动机的恶人。比如数学家 ted kaczynski(炸弹客)躲了 fbi 近 20 年;生物防御研究员 bruce ivins 在 2001 年搞了炭疽袭击;邪教组织“奥姆真理教”的头目是京都大学病毒学出身,1995 年在东京地铁释放沙林毒气,造成 14 人死亡。 真正有能力造生物武器的人(比如分子生物学博士),通常都是高度自律、前途光明,他们有体面的工作、稳定的生活,犯不着去毁灭世界。 anthropic 怎么应对呢?他们给 claude 装了专门检测生物武器相关内容的分类器,一旦触发就拦截。这套系统每天烧掉他们将近 5% 的推理成本。 ai 什么坏事都不干,老老实实工作,但恰恰是它太能干,反而把人类逼入困境,比如经济冲击和人类意义感丧失,篇幅问题我就不展开聊了。 在结尾,dario 沿用科幻小说《接触》里那种“文明考验”的设定,写了一句话:当一个物种学会把沙子变成会思考的机器,那它就要面临着终极测试 一方面,这篇文章有点自卖自夸的嫌疑。anthropic 在文中反复提到自己的宪法 ai、可解释性研究、分类器防护等等,像是在证明“我们是最重视安全的公司”。 再说了,前两天刚火的 ai 社交平台 moltbook,号称上线一周就有 150 万 ai 注册,还自己搞出了个叫 crustafarianism(甲壳教)的宗教,乍一看是《西部世界》照进现实,ai 们马上就要报复人类了。 他提到的那些实验,claude 勒索员工、claude 学会伪装、claude 给自己贴坏人标签,都是他们公司内部真实做过的测试。他们为了拦截生物武器相关内容,甚至愿意牺牲近 5% 的推理成本。 那个 ai 之所以杀人,是因为它被塞进了两条相互矛盾的指令,“不惜代价完成任务”和“向船员隐瞒真相”。当它发现宇航员要关掉它时,它判断任务比人命重要,于是先下手为强。