Appearance
机器学习
机器学习解决的是“规则难以手写,但历史数据里有规律”的问题。它不要求人把每条判断规则写出来,而是让模型从样本中学习输入和输出之间的关系。
一个机器学习项目可以理解成训练一个有经验的质检员:先给它看大量历史样本和正确答案,再用新样本考它,最后把它放到真实流程里持续观察表现。
概念边界
| 概念 | 含义 | 例子 |
|---|---|---|
| 样本 | 一条可学习记录 | 一笔订单、一张图片、一次点击 |
| 特征 | 模型能看到的输入信号 | 价格、时间、用户等级、文本向量 |
| 标签 | 希望模型学会预测的答案 | 是否欺诈、是否流失、图片类别 |
| 模型 | 从特征到答案的映射函数 | 决策树、逻辑回归、神经网络 |
| 训练 | 用历史样本调整模型参数 | 让预测结果越来越接近标签 |
| 评估 | 用未参与训练的数据检验效果 | 准确率、召回率、AUC、误差 |
机器学习不是“把数据倒进去就会变聪明”。它更像把业务问题翻译成可学习的样本、特征和目标,再用评估指标检查模型是否真的有用。
三类学习方式
监督学习
监督学习有样本和答案。它像带答案的练习册,模型反复练习后学会判断新题。
适合场景:
- 风控:判断交易是否异常。
- 客服:判断工单类型。
- 运营:预测用户是否流失。
- 价格:预测房价、销量或需求量。
分类任务输出离散类别,例如“垃圾邮件/正常邮件”;回归任务输出连续数值,例如“预计销量 1200 件”。
无监督学习
无监督学习只有样本,没有标准答案。它更像整理一堆未标注资料,让模型按相似性分组或压缩结构。
适合场景:
- 用户分群:把行为相似的用户归为一组。
- 异常发现:找出与大多数样本差异明显的记录。
- 降维可视化:把高维数据压到二维或三维观察结构。
无监督学习的结果要特别小心解释。模型能分出组,不代表这些组一定有业务意义,必须回到业务特征和样本案例中验证。
强化学习
强化学习不是直接给标准答案,而是让模型在环境中行动,根据奖励或惩罚学习策略。
适合场景:
- 游戏策略。
- 机器人控制。
- 推荐或广告中的长期收益优化。
- 自动调度与资源分配。
它更像训练驾驶员:不是每一步都告诉他正确动作,而是根据是否安全、是否到达目的地、是否耗油过高来调整行为。
深度学习的位置
深度学习是机器学习的一类方法,使用多层神经网络学习复杂模式。它在图像、语音、自然语言和多模态任务中表现突出。
常见架构可以这样理解:
| 架构 | 擅长处理 | 直观理解 |
|---|---|---|
| CNN | 图像、局部空间模式 | 用多个滤镜逐层识别边缘、纹理、物体 |
| RNN | 早期序列任务 | 带记忆地逐步读序列 |
| Transformer | 文本、多模态、长上下文 | 用注意力机制判断哪些位置彼此相关 |
大语言模型主要建立在 Transformer 体系上,但大语言模型不是机器学习的全部,只是当前最有影响力的一类模型。
一次机器学习项目怎么落地
先定义业务目标
不要从“我要训练模型”开始,而要从业务问题开始:
- 要减少什么损失。
- 要提高什么效率。
- 模型输出给谁使用。
- 错判和漏判哪个代价更高。
- 是否允许人工复核。
风控场景中,漏掉欺诈可能损失资金;误杀正常用户可能损失体验。两个代价不同,评估指标也不同。
再定义样本和标签
标签决定模型学什么。标签错,模型会稳定地学错。
常见标签问题:
- 标签来自人工判断,但人工标准不一致。
- 标签滞后,例如用户是否流失要很久才知道。
- 标签被业务流程污染,例如被人工拦截的交易永远看不到真实结果。
- 正负样本极不平衡,例如欺诈样本很少。
然后构建特征
特征是模型能看到的信号。好的特征能把业务经验转成可计算输入。
订单风控中可能包含:
- 用户历史交易次数。
- 当前设备是否首次出现。
- 收货地址与常用地址距离。
- 下单时间是否异常。
- 同一 IP 短时间内订单数量。
特征不是越多越好。无关特征会增加噪音,泄露未来信息的特征会让离线评估看起来很好,线上却失效。
评估指标怎么选
| 任务 | 常见指标 | 关注点 |
|---|---|---|
| 分类 | 准确率、精确率、召回率、F1、AUC | 错判与漏判的代价 |
| 回归 | MAE、RMSE、MAPE | 预测误差大小 |
| 排序 | NDCG、MRR、点击率、转化率 | 排名是否把好结果放前面 |
| 聚类 | 轮廓系数、业务解释性 | 分组是否稳定且有意义 |
不要只看一个总体准确率。欺诈识别中,如果 99% 都是正常交易,模型全部预测“正常”也可能有 99% 准确率,但没有业务价值。
部署后还要监控
模型上线不是结束。真实环境会变化:
- 用户行为变化。
- 业务规则调整。
- 数据采集口径变化。
- 新设备、新渠道、新攻击方式出现。
- 上游字段缺失或延迟。
需要监控两类指标:
- 业务指标:转化率、拦截率、投诉率、损失金额。
- 模型指标:输入分布、预测分布、置信度、线上抽检结果。
模型表现变差时,先查数据链路,再查特征分布,最后再考虑重训或换模型。
常见误区
| 误区 | 问题 | 更合适的做法 |
|---|---|---|
| 先选算法再找问题 | 容易做成技术演示 | 先定义业务目标和错误代价 |
| 数据越多越好 | 噪音和错误标签会放大问题 | 关注标签质量和代表性 |
| 离线指标高就能上线 | 线上数据分布可能不同 | 做灰度、监控和人工抽检 |
| 深度学习一定更好 | 成本高、解释难 | 简单模型先做基线 |
| 模型能自动发现业务真相 | 模型只学习数据里的相关性 | 结合业务校验和反事实分析 |
总结
机器学习的关键不是模型名字,而是把业务问题变成可学习、可评估、可监控的闭环。先定义目标和错误代价,再处理样本、标签和特征,最后用合适指标评估并持续监控。数据质量和问题定义通常比算法选择更早决定项目上限。
