Skip to content

机器学习

机器学习解决的是“规则难以手写,但历史数据里有规律”的问题。它不要求人把每条判断规则写出来,而是让模型从样本中学习输入和输出之间的关系。

一个机器学习项目可以理解成训练一个有经验的质检员:先给它看大量历史样本和正确答案,再用新样本考它,最后把它放到真实流程里持续观察表现。

机器学习工程流程

概念边界

概念含义例子
样本一条可学习记录一笔订单、一张图片、一次点击
特征模型能看到的输入信号价格、时间、用户等级、文本向量
标签希望模型学会预测的答案是否欺诈、是否流失、图片类别
模型从特征到答案的映射函数决策树、逻辑回归、神经网络
训练用历史样本调整模型参数让预测结果越来越接近标签
评估用未参与训练的数据检验效果准确率、召回率、AUC、误差

机器学习不是“把数据倒进去就会变聪明”。它更像把业务问题翻译成可学习的样本、特征和目标,再用评估指标检查模型是否真的有用。

三类学习方式

监督学习

监督学习有样本和答案。它像带答案的练习册,模型反复练习后学会判断新题。

适合场景:

  • 风控:判断交易是否异常。
  • 客服:判断工单类型。
  • 运营:预测用户是否流失。
  • 价格:预测房价、销量或需求量。

分类任务输出离散类别,例如“垃圾邮件/正常邮件”;回归任务输出连续数值,例如“预计销量 1200 件”。

无监督学习

无监督学习只有样本,没有标准答案。它更像整理一堆未标注资料,让模型按相似性分组或压缩结构。

适合场景:

  • 用户分群:把行为相似的用户归为一组。
  • 异常发现:找出与大多数样本差异明显的记录。
  • 降维可视化:把高维数据压到二维或三维观察结构。

无监督学习的结果要特别小心解释。模型能分出组,不代表这些组一定有业务意义,必须回到业务特征和样本案例中验证。

强化学习

强化学习不是直接给标准答案,而是让模型在环境中行动,根据奖励或惩罚学习策略。

适合场景:

  • 游戏策略。
  • 机器人控制。
  • 推荐或广告中的长期收益优化。
  • 自动调度与资源分配。

它更像训练驾驶员:不是每一步都告诉他正确动作,而是根据是否安全、是否到达目的地、是否耗油过高来调整行为。

深度学习的位置

深度学习是机器学习的一类方法,使用多层神经网络学习复杂模式。它在图像、语音、自然语言和多模态任务中表现突出。

常见架构可以这样理解:

架构擅长处理直观理解
CNN图像、局部空间模式用多个滤镜逐层识别边缘、纹理、物体
RNN早期序列任务带记忆地逐步读序列
Transformer文本、多模态、长上下文用注意力机制判断哪些位置彼此相关

大语言模型主要建立在 Transformer 体系上,但大语言模型不是机器学习的全部,只是当前最有影响力的一类模型。

一次机器学习项目怎么落地

先定义业务目标

不要从“我要训练模型”开始,而要从业务问题开始:

  • 要减少什么损失。
  • 要提高什么效率。
  • 模型输出给谁使用。
  • 错判和漏判哪个代价更高。
  • 是否允许人工复核。

风控场景中,漏掉欺诈可能损失资金;误杀正常用户可能损失体验。两个代价不同,评估指标也不同。

再定义样本和标签

标签决定模型学什么。标签错,模型会稳定地学错。

常见标签问题:

  • 标签来自人工判断,但人工标准不一致。
  • 标签滞后,例如用户是否流失要很久才知道。
  • 标签被业务流程污染,例如被人工拦截的交易永远看不到真实结果。
  • 正负样本极不平衡,例如欺诈样本很少。

然后构建特征

特征是模型能看到的信号。好的特征能把业务经验转成可计算输入。

订单风控中可能包含:

  • 用户历史交易次数。
  • 当前设备是否首次出现。
  • 收货地址与常用地址距离。
  • 下单时间是否异常。
  • 同一 IP 短时间内订单数量。

特征不是越多越好。无关特征会增加噪音,泄露未来信息的特征会让离线评估看起来很好,线上却失效。

评估指标怎么选

任务常见指标关注点
分类准确率、精确率、召回率、F1、AUC错判与漏判的代价
回归MAE、RMSE、MAPE预测误差大小
排序NDCG、MRR、点击率、转化率排名是否把好结果放前面
聚类轮廓系数、业务解释性分组是否稳定且有意义

不要只看一个总体准确率。欺诈识别中,如果 99% 都是正常交易,模型全部预测“正常”也可能有 99% 准确率,但没有业务价值。

部署后还要监控

模型上线不是结束。真实环境会变化:

  • 用户行为变化。
  • 业务规则调整。
  • 数据采集口径变化。
  • 新设备、新渠道、新攻击方式出现。
  • 上游字段缺失或延迟。

需要监控两类指标:

  • 业务指标:转化率、拦截率、投诉率、损失金额。
  • 模型指标:输入分布、预测分布、置信度、线上抽检结果。

模型表现变差时,先查数据链路,再查特征分布,最后再考虑重训或换模型。

常见误区

误区问题更合适的做法
先选算法再找问题容易做成技术演示先定义业务目标和错误代价
数据越多越好噪音和错误标签会放大问题关注标签质量和代表性
离线指标高就能上线线上数据分布可能不同做灰度、监控和人工抽检
深度学习一定更好成本高、解释难简单模型先做基线
模型能自动发现业务真相模型只学习数据里的相关性结合业务校验和反事实分析

总结

机器学习的关键不是模型名字,而是把业务问题变成可学习、可评估、可监控的闭环。先定义目标和错误代价,再处理样本、标签和特征,最后用合适指标评估并持续监控。数据质量和问题定义通常比算法选择更早决定项目上限。

别急,先让缓存热一下。