在垂直领域 AI Chat 落地中,“问题数据集”的作用是什么?

马上就要过年放假了,趁着年前的工作将要收尾,想对最近几个月一直在做的“问题数据集”准备工作做一次复盘,把实践之后的一些认知思考沉淀下来。 这几个月,我一直在为一款面向车主用户,解答用车、修车、养车问题的 Chatbot,收集并清洗生成车主问题数据集。 在工作刚开始的时候,我还是抱着对做一款 AI Chatbot 的热情,主动学习并积累了一些 AI 相关的认知,但随着工作的不断推进,每天日复一日地清洗数据,有些东西逐渐开始变得“当局者迷”,越深入越看不清晰。因此想趁这个时间节点,从具体工作中抽离出来,认真做一次复盘。 先简单说说近期的工作成果:在超过 450 万条原始采集数据的基础之上,清洗并汇总出了超 16 万条有效车主问题数据集。 但紧接着,一个更让我值得深思的问题出现了:在 AI Chat 落地的过程中,“问题数据集”的作用到底是什么? 通用型 Chatbot vs 专用型 Chatbot 在这项工作刚开始的时候,我难免会去向一些做 AI 模型的公司取取经,学习并参考他们在 AI Chat 相关领域的工程实践与专业认知。这其中包括 智谱 AI 首席科学家唐杰的分享 、 MiniMax 创始人闫俊杰的播客 ,以及 GPT 5.2 的大力支持。 正是从这项工作开始,我开通了每月 20 美元的 ChatGPT Plus。它确实帮到了我很多,不仅能帮我写 Python 脚本,也能从它的视角为我提供很多关于 AI 的专业认知。 但就是在这里,一个典型的“分水岭”出现了:像 ChatGPT 这样的通用型 Chatbot 的工程路径,其实和我正在参与构建的这种垂直场景的专用型 Chatbot,在底层逻辑上截然不同。前者强调的是可泛化的智能能力,而后者更需要的则是可控且可靠的业务约束。 我们先来看看,像 ChatGPT 这样能力极强的通用型 Chatbot,它的工程实践路径大致是什么: 超大规模预训练(万亿级 token 语料) 大规模人类反馈对齐(RLHF) 大规模 Eval 体系(多维度 benchmark) 极高模型参数规模(超万亿参数) 简而言之,就是通过堆叠算力与数据规模,弱化甚至替代显式规则,让模型自身学习并内化复杂模式,从而强化其智能表现。 而专用型 Chatbot 的路径则不同。它更多依赖场景分析与系统工程,对模型能力的某一小部分进行针对性强化。 ...

2026年2月9日 · 赵华洲

我做了一个垂直应用的 Chatbot:关于数据准备的一些经验

这篇文章记录的是:我在为一款 垂直应用 Chatbot 准备数据的过程中,经过一系列实践尝试,逐渐沉淀下来的一套数据工作流思路。 它并不新颖,也并不复杂,但在真实的业务环境中,非常管用。 如果从产品视角来看,这里的大多数问题,都已经落在我所定义的 AI 工程化层 。 适合谁阅读(请先看这里) 在继续往下之前,我想先明确一点:这篇文章并不适合所有人。 它可能不太适合: 算法研究员 AI 竞赛玩家 以模型结构与训练技巧为主要关注点的 ML 工程师 它更适合: AI 产品经理 应用型 AI 工程师 在团队里「被迫开始做数据」的人 想把 AI 真正跑起来,而不仅仅停留在 Demo 阶段的人 如果你期待的是更复杂的模型、更新颖的算法,这篇文章大概率会让你失望; 但如果你关心的是,在现实约束下,数据如何一步步从无到有,从充满噪声到变得可用,那它或许能给你提供一些参考。 任务背景:做一款面向车主的 Chatbot 最初的目标,是做一款面向普通车主的问答型 Chatbot,用于解答他们在真实用车场景中会遇到的各类问题。 例如: 「仪表盘上那个像茶壶一样的灯亮了,是怎么回事?」 「开车时方向盘老是抖,速度越快抖得越厉害,怎么回事?」 「这两天仪表盘上老显示一个保养的黄扳手,请问再多跑一两千公里去保养行吗?」 这类问题通常具有一些共性特征: 高度口语化 上下文信息缺失 专业名词与俗称混杂 带有明显的情绪与不确定性 如果希望模型的回复在语气上更贴近真实车主的表达,在判断上让人感到安全、可信,而不只是一个干巴巴的“百科式问答机器人”,那么仅靠现成的通用语料显然是不够的。 因此,我需要准备一批来源于真实车主表达、语气自然、质量可控且规模足够大的车主问答数据,用于后续的车主画像分析与模型微调。 第一个问题:数据从哪里来? 无论是用于后续的 LoRA 微调,还是支撑更高质量的车主画像分析与多轮对话策略设计,首先要解决的,其实都是同一个问题: 如何规模化地收集来自真实车主表达的问答数据? 在已有的数据资产中,我们并不具备这一类型的数据,因此只能从外部渠道入手,尽可能补齐这一基础。 在不依赖任何内部或私有数据的前提下,可用于分析的数据来源其实并不多,主要包括: 汽车社区与论坛(如汽车之家、懂车帝车友圈等) 内容型平台(如 B 站、抖音、小红书等) 公开数据集(竞赛数据集、Hugging Face 等) AI 生成的 dummy 数据 综合数据质量、表达真实性与规模潜力等因素评估后,我们最终将最高优先级放在了内容型平台(B 站、抖音、小红书等)。 这类平台上的内容更贴近真实车主的自然表达,往往带有情绪、口语化表述与大量俗称,同时数据规模足够大、问题类型覆盖全面,既有利于后续的数据扩展与迭代,也适合用于分析不同问题类型与使用场景下的车主画像。 但关键问题在于:这些地方的数据,噪声太大了。 大量与问题无关的闲聊与互动(如点赞、调侃) 大量表情、重复性内容 大量上下文缺失的碎片文本 甚至夹杂着广告或完全无关的信息 很快,我便意识到一件事: ...

2026年1月4日 · 赵华洲