马上就要过年放假了,趁着年前的工作将要收尾,想对最近几个月一直在做的“问题数据集”准备工作做一次复盘,把实践之后的一些认知思考沉淀下来。
这几个月,我一直在为一款面向车主用户,解答用车、修车、养车问题的 Chatbot,收集并清洗生成车主问题数据集。
在工作刚开始的时候,我还是抱着对做一款 AI Chatbot 的热情,主动学习并积累了一些 AI 相关的认知,但随着工作的不断推进,每天日复一日地清洗数据,有些东西逐渐开始变得“当局者迷”,越深入越看不清晰。因此想趁这个时间节点,从具体工作中抽离出来,认真做一次复盘。
先简单说说近期的工作成果:在超过 450 万条原始采集数据的基础之上,清洗并汇总出了超 16 万条有效车主问题数据集。
但紧接着,一个更让我值得深思的问题出现了:在 AI Chat 落地的过程中,“问题数据集”的作用到底是什么?
通用型 Chatbot vs 专用型 Chatbot
在这项工作刚开始的时候,我难免会去向一些做 AI 模型的公司取取经,学习并参考他们在 AI Chat 相关领域的工程实践与专业认知。这其中包括 智谱 AI 首席科学家唐杰的分享 、 MiniMax 创始人闫俊杰的播客 ,以及 GPT 5.2 的大力支持。
正是从这项工作开始,我开通了每月 20 美元的 ChatGPT Plus。它确实帮到了我很多,不仅能帮我写 Python 脚本,也能从它的视角为我提供很多关于 AI 的专业认知。
但就是在这里,一个典型的“分水岭”出现了:像 ChatGPT 这样的通用型 Chatbot 的工程路径,其实和我正在参与构建的这种垂直场景的专用型 Chatbot,在底层逻辑上截然不同。前者强调的是可泛化的智能能力,而后者更需要的则是可控且可靠的业务约束。
我们先来看看,像 ChatGPT 这样能力极强的通用型 Chatbot,它的工程实践路径大致是什么:
- 超大规模预训练(万亿级 token 语料)
- 大规模人类反馈对齐(RLHF)
- 大规模 Eval 体系(多维度 benchmark)
- 极高模型参数规模(超万亿参数)
简而言之,就是通过堆叠算力与数据规模,弱化甚至替代显式规则,让模型自身学习并内化复杂模式,从而强化其智能表现。
而专用型 Chatbot 的路径则不同。它更多依赖场景分析与系统工程,对模型能力的某一小部分进行针对性强化。
现实情况下,我们不可能为一款垂直领域的 Chatbot 进行超大规模预训练,也无法拥有极高参数量的专属大模型。更多时候,我们只是在一个原本 75 分能力水平的通用模型之上,通过低成本、高效率的结构工程,使其在特定场景中能够达到 85 分的效果。
因此,在工程实践路径上,专用型 Chatbot 与通用型 Chatbot 本质上并不相同。这是我在实际推进这项工作的过程中,逐渐认识并确认的一个底层认知。
而在垂直领域的专用型 Chatbot 中,更重要的并不是“模型智能有多强”,而在于:是否具备数据闭环、可解释性、错误率可量化,以及业务责任可承担的能力。
换言之,在垂直场景下,可靠性往往大于智能性。
垂直领域的 AI Chat 落地
此前,我曾先后写过两篇文章,用于提前规划车主 Chatbot 的现实落地路径,其中包括 从第一性原理出发的工程路径分析 ,以及 从互联网业务北极星指标出发的业务转化分析 。
而在经历了几个月的具体实践之后,再站在事后复盘的角度回看,实际的落地工作,主要就是围绕两部分展开:回复体验优化 与 业务转化流程设计。
其中,回复体验优化,依赖于模型能力之上的系统工程;而业务转化流程设计,则更多基于互联网产品思维展开。这两部分,恰好与我事先规划的两种模式相对应。某种程度上,也算是对“ 庙算多者胜 ”的一次验证。
回复体验优化,主要涉及高质量对话数据生成与模型微调对齐,这其中自然会用到车主的原始问题数据,也就是我准备的车主问题集;
业务转化流程设计,则是分析车主用户的情绪和真实潜在需求,在对话的恰当时机,用友好的方式推广业务,实现业务价值。在分析用户情绪和潜在需求的过程中,同样离不开我收集的真实车主问题,其中包含大量焦虑、烦恼、怀疑等真实情绪,以及故障诊断、保养咨询、车辆改装等真实需求。
从这里可以看到,在 Chatbot 的实际落地工作中,问题数据集几乎贯穿了整个工作过程。
但如果进一步追问:问题数据集究竟具体发挥了哪些作用?
问题数据集的作用
通用模型的强大,很容易让人产生一种错觉:似乎只要把提示词写好、把知识库接上,Chatbot 自然就能跑起来。但真正落到垂直场景里,你会发现,很多关键能力并不是凭空出现的:你必须知道用户到底会问什么、在什么场景下问、以什么情绪问、以及你究竟要对哪些错误负责。问题数据集的价值,就在于它把这些原本抽象的命题,变成了可观察、可量化、可迭代的工程对象。
下面我按照自己这几个月的实际工作体会,把问题数据集的作用拆成几个层级。
1. Chatbot 冷启动:从“摸不着头脑”到“先跑起来”
当你还没有任何真实问题输入时,做 Chatbot 很容易陷入一种虚假的确定感:大家似乎讨论得很热闹,觉得这个功能也该有、那个流程也要做,但一旦真正开始写第一版 prompt,设计第一套知识库,进行第一轮模型迭代时,你会发现完全无从下手。
这也是专用型 Chatbot 与通用型 Chatbot 的一个重要差别。专用型 Chatbot 虽然同样需要有足够泛化的模型智能,但它所面对的问题空间通常是收束的;同时,由于需要在这个问题空间内承载业务价值,并承担一定的责任边界,因此,提前收集并分析用户可能的问题空间,是实现冷启动的必要前提。
只有在问题空间逐渐清晰之后,整个项目才能真正运转起来:知识库团队知道该补充哪方面的知识,模型团队知道需要准备什么样的数据,产品团队知道该设计什么样的提示词和对话策略。
某种程度上说,问题数据集让 Chatbot 从“概念阶段”进入到“实施阶段”。
2. 问题场景与用户画像分析
这是大多数互联网产品团队最熟悉的一条路径。在有了真实用户的问题输入之后,产品团队就可以开始分析常见的问题场景与用户画像,从而制定相应的体验设计与流程转化策略,并进一步指导模型回复体验的优化方向。
3. 构建 train / eval 数据集
在积累了足够规模的原始车主问题之后,下一步自然就是构建最基础的 train / eval 数据集,用于模型调优与效果验证。
其中,train 数据用于模型对齐与优化,而 eval 数据则提供稳定的参照系,使模型效果能够被持续评估与对比。相比于依赖零散 case 的主观判断,这种基于固定样本集的评测方式,能够让模型优化过程更加可控。
4. SFT 实现领域对齐
在具备基础 train / eval 数据集之后,就可以进一步使用高质量问答数据对模型进行 SFT,从而实现领域对齐,优化模型回复效果。
通用模型通常能够给出语义上合理的回答,但未必符合特定领域的表达习惯、风险边界和判断方式。通过 SFT,可以让模型逐步学会在特定语境下回答问题,使回复更加稳定,也更加符合实际业务要求。
在这个阶段,问题数据集本身虽然不直接是训练样本,但它决定了训练样本的来源与分布,是模型对齐工作的重要前提。
5. 系统工程的燃料:Agent 迭代、知识库构建、知识蒸馏与调试闭环
更进一步地,问题数据集会成为各项系统工程持续迭代的“燃料”——
RAG:问题集决定了需要补充哪些知识,以及哪些召回策略可能会被真实用户打穿;
Agent:问题集提供了任务触发条件、信息缺失的常见形态,以及最容易出错的链路;
知识蒸馏:问题集为“教师模型”和“学生模型”提供统一输入,从而完成模型能力迁移;
模型调试:每一次修改 prompt、对话策略或工具调用,都需要问题集提供样本进行回归测试。
6. 最终长期转化为业务流量价值:让用户下单
以上更多是从工程角度出发的分析,但所有工作最终仍然需要回到业务价值本身。
而 Chatbot 最典型的一种业务模式,就是作为平台业务的流量入口:通过持续提供高质量的问题解答,让用户逐渐建立信任感,并在合适的时机引导用户在平台内完成业务转化,最终形成可持续的 ROI。
而这一切的起点,往往只是最朴素的一步:从收集真实用户的问题开始。