在垂直领域 AI Chat 落地中,“问题数据集”的作用是什么?
马上就要过年放假了,趁着年前的工作将要收尾,想对最近几个月一直在做的“问题数据集”准备工作做一次复盘,把实践之后的一些认知思考沉淀下来。 这几个月,我一直在为一款面向车主用户,解答用车、修车、养车问题的 Chatbot,收集并清洗生成车主问题数据集。 在工作刚开始的时候,我还是抱着对做一款 AI Chatbot 的热情,主动学习并积累了一些 AI 相关的认知,但随着工作的不断推进,每天日复一日地清洗数据,有些东西逐渐开始变得“当局者迷”,越深入越看不清晰。因此想趁这个时间节点,从具体工作中抽离出来,认真做一次复盘。 先简单说说近期的工作成果:在超过 450 万条原始采集数据的基础之上,清洗并汇总出了超 16 万条有效车主问题数据集。 但紧接着,一个更让我值得深思的问题出现了:在 AI Chat 落地的过程中,“问题数据集”的作用到底是什么? 通用型 Chatbot vs 专用型 Chatbot 在这项工作刚开始的时候,我难免会去向一些做 AI 模型的公司取取经,学习并参考他们在 AI Chat 相关领域的工程实践与专业认知。这其中包括 智谱 AI 首席科学家唐杰的分享 、 MiniMax 创始人闫俊杰的播客 ,以及 GPT 5.2 的大力支持。 正是从这项工作开始,我开通了每月 20 美元的 ChatGPT Plus。它确实帮到了我很多,不仅能帮我写 Python 脚本,也能从它的视角为我提供很多关于 AI 的专业认知。 但就是在这里,一个典型的“分水岭”出现了:像 ChatGPT 这样的通用型 Chatbot 的工程路径,其实和我正在参与构建的这种垂直场景的专用型 Chatbot,在底层逻辑上截然不同。前者强调的是可泛化的智能能力,而后者更需要的则是可控且可靠的业务约束。 我们先来看看,像 ChatGPT 这样能力极强的通用型 Chatbot,它的工程实践路径大致是什么: 超大规模预训练(万亿级 token 语料) 大规模人类反馈对齐(RLHF) 大规模 Eval 体系(多维度 benchmark) 极高模型参数规模(超万亿参数) 简而言之,就是通过堆叠算力与数据规模,弱化甚至替代显式规则,让模型自身学习并内化复杂模式,从而强化其智能表现。 而专用型 Chatbot 的路径则不同。它更多依赖场景分析与系统工程,对模型能力的某一小部分进行针对性强化。 ...