基于规则的系统在哪里崩溃?
转账和税额计算是确定性系统:相同输入必然得到相同输出。条件明确、输入范围有限,代码可以完美解决。问题出在规则模糊的领域,比如认出照片里的猫。"耳朵尖就是猫"这条规则在折耳的苏格兰折耳猫面前失效;要覆盖所有角度、光线、品种和姿势,规则数量会呈指数级增长,发生组合爆炸。
维护也是问题。1990年代的垃圾邮件过滤器是典型案例:屏蔽"免费"这个词,发送者就用"免费!"之类的变体绕过。规则加得越多,系统就越是只对已知模式有效,遇到新变体立刻崩溃——反而变得更脆弱。
机器学习颠覆了什么?
机器学习把前提反了过来。传统编程是数据加规则得到结果,机器学习则是数据加答案(标签)得到规则,也就是模型。用垃圾邮件和正常邮件训练,模型会自己找到区分两个类别的数学边界;新邮件到来时,它以概率作答,比如"垃圾邮件概率93%"。2000年代,推荐系统、信用评估、银行卡异常交易检测都以这种方式投入了实际应用。
不过看哪些特征(feature)仍要由人来决定。词频、发件域名、逾期次数这类特征工程的质量几乎决定了模型性能,而在图像、语音等非结构化数据上,这种手工作业遇到了瓶颈。深度学习把特征提取也交给了模型,解决了这个问题。
深度学习为什么到2012年才爆发?
人工神经网络的概念在1980年代就已存在。直到2012年才爆发,是因为三个条件那时才同时齐备:将120万张图片标注为1000个类别的ImageNet(2009);为游戏图形而生、却与矩阵乘法并行计算精准契合的GPU(2006年CUDA发布);以及TensorFlow、PyTorch等开源框架,加上按小时出租GPU的云服务。
当年,AlexNet在ImageNet竞赛中取得了15.3%的top-5错误率,领先第二名(26.2%)超过10个百分点。2015年,152层的ResNet把错误率降到3.57%,首次低于人类平均水平(约5%)。语音识别、翻译、AlphaGo、医学影像,同样的方法逐一超越了既有技术。
非开发者应该从这段历史中带走什么?
这段历史留给非开发者的结论只有一个:今天的AI是输出概率而非规则的机器。所以SH Consulting在AX咨询中拆解业务时,第一个问题就是:这项工作是靠规则解决的问题,还是靠模式解决的问题?结算和转账交给代码,判断和分类交给模型,AI该接手什么就已经理清了一半。
当时的深度学习模型全都是单一任务专用的。翻译模型读不了医学影像,每出现一项新任务都要从头构建标注数据。"能不能让一个模型以语言为中心做多种工作"——这个问题通向了今天的LLM。