Spotify到底做了什么?
在Anthropic YouTube频道发布的一次采访中,Spotify工程负责人Niklas Gustavsson透露了几个数字:如今73%的代码变更请求(PR)由AI直接编写,PR产生频率提升超过75%,每天大约进行4500次生产环境部署,质量指标却保持不变。支撑这一切的内部工具叫作Honk。
Honk最初并不是这个样子。大约五六年前,Spotify发现代码库的增长速度是工程师人数增长速度的七倍,于是着手打造一个工具,用来自动化版本升级、API迁移等重复性维护工作。早期它依赖确定性脚本,但代码的API接口面极其庞杂,很快就遇到了瓶颈。经过多轮接入LLM的试错,它才演变成今天的样子。在早期版本中,一个复核("裁判")环节曾把PR成功率从约20%到30%提升到80%;但随着模型和智能体本身变得足够强,这个裁判环节被彻底移除。
为什么把工作交给AI之前必须先有验证机制?
当Spotify决定在没有人工复核的情况下自动合并PR时,它最先投入的是测试自动化。过去,拥有某段代码的团队会亲自审查每一个PR,所以测试可以相对宽松;一旦去掉人工复核,测试就必须足够扎实,能够替代那个角色。Gustavsson将验证形容为:在没有人参与的闭环里,验证是唯一最重要的因素。
这个原则同样适用于办公室工作。如果你想把报告初稿、客户邮件或数据摘要交给AI处理,首先需要有一套(无论自动还是人工的)标准,用来判断AI的产出是否正确。如果产出速度提升了,却没有配套的验证标准,错误也会以同样的速度扩散。
标准化为何决定AI好不好用?
Gustavsson说,如果同一个功能在代码库里用十种不同方式实现,连AI都会犯糊涂。反过来,代码、工具和框架越一致,AI能参考的模式就越清晰,产出质量也越高。这种标准化最初是为了方便人而做的投资,如今却成了决定AI表现好坏的条件。
办公室组织也是如此。如果报告格式、文件夹结构、邮件语气因团队而异,每次交给AI处理都会得到不同的结果。而那些格式和流程已经标准化的团队,一旦用上AI,效果几乎立竿见影。
AI腾出来的时间,最终流向哪里?
Gustavsson自己的转变也很能说明问题。过去AI帮他写70%到80%的代码,剩下的他要在IDE里手动完成;如今这道收尾工序彻底消失了。他说,腾出来的时间自然而然流向了原型开发、与客户交流,以及思考接下来该做什么。
Spotify把这种转变变成了全公司的基础设施。即便是非工程师,只要用自然语言描述想法,就能通过Spotify专门搭建的系统得到一个真正能运行的原型;公司内部还有一个"应用商店",供大家分享和体验彼此的原型。过去验证一个想法,需要说服一个工程团队并等上几周;现在一天之内就能用真实数据验证。就连Spotify的联席CEO之一,也在这个内部应用商店里挂着自己做的原型。
从AX咨询的角度看,办公室组织现在该准备什么?
在AX咨询的一线,我总会问遇到的组织一个问题:你们团队的业务诀窍,是写下来了,还是只存在少数几个人的脑子里?正如Spotify的案例所示,能多快、多安全地用上AI,最终取决于你已经具备了多少验证标准和标准化程度。
Gustavsson最后说的一段话也值得细品。他本来就真心喜欢亲手写代码这件事,也曾担心AI会夺走这份乐趣。但他后来意识到,自己真正喜欢的其实是解决问题本身,而不是敲代码这个具体动作。这个区分对办公室工作同样成立。如果你能分清自己工作中真正珍视的,是使用工具的过程,还是由此获得的解决问题与判断能力,在AI时代该守住什么、该放手什么,也就清楚得多。