在垂直领域 AI Chat 落地中,“问题数据集”的作用是什么?

马上就要过年放假了,趁着年前的工作将要收尾,想对最近几个月一直在做的“问题数据集”准备工作做一次复盘,把实践之后的一些认知思考沉淀下来。 这几个月,我一直在为一款面向车主用户,解答用车、修车、养车问题的 Chatbot,收集并清洗生成车主问题数据集。 在工作刚开始的时候,我还是抱着对做一款 AI Chatbot 的热情,主动学习并积累了一些 AI 相关的认知,但随着工作的不断推进,每天日复一日地清洗数据,有些东西逐渐开始变得“当局者迷”,越深入越看不清晰。因此想趁这个时间节点,从具体工作中抽离出来,认真做一次复盘。 先简单说说近期的工作成果:在超过 450 万条原始采集数据的基础之上,清洗并汇总出了超 16 万条有效车主问题数据集。 但紧接着,一个更让我值得深思的问题出现了:在 AI Chat 落地的过程中,“问题数据集”的作用到底是什么? 通用型 Chatbot vs 专用型 Chatbot 在这项工作刚开始的时候,我难免会去向一些做 AI 模型的公司取取经,学习并参考他们在 AI Chat 相关领域的工程实践与专业认知。这其中包括 智谱 AI 首席科学家唐杰的分享 、 MiniMax 创始人闫俊杰的播客 ,以及 GPT 5.2 的大力支持。 正是从这项工作开始,我开通了每月 20 美元的 ChatGPT Plus。它确实帮到了我很多,不仅能帮我写 Python 脚本,也能从它的视角为我提供很多关于 AI 的专业认知。 但就是在这里,一个典型的“分水岭”出现了:像 ChatGPT 这样的通用型 Chatbot 的工程路径,其实和我正在参与构建的这种垂直场景的专用型 Chatbot,在底层逻辑上截然不同。前者强调的是可泛化的智能能力,而后者更需要的则是可控且可靠的业务约束。 我们先来看看,像 ChatGPT 这样能力极强的通用型 Chatbot,它的工程实践路径大致是什么: 超大规模预训练(万亿级 token 语料) 大规模人类反馈对齐(RLHF) 大规模 Eval 体系(多维度 benchmark) 极高模型参数规模(超万亿参数) 简而言之,就是通过堆叠算力与数据规模,弱化甚至替代显式规则,让模型自身学习并内化复杂模式,从而强化其智能表现。 而专用型 Chatbot 的路径则不同。它更多依赖场景分析与系统工程,对模型能力的某一小部分进行针对性强化。 ...

2026年2月9日 · 赵华洲

从北极星指标出发,分析车主 Chatbot 的现实业务落地

本文尝试从业务视角出发,讨论当 Chatbot 作为一个 C 端产品,进入真实组织与资源约束环境时,阶段性更可行的产品设计判断。 业务前提 在真实企业环境中的 C 端产品业务里,Chatbot 的核心目标始终是服务业务。 在这一前提下,产品设计与能力取舍都应优先围绕业务价值展开,而非单纯追求技术能力的完整性或先进性。 具体到 C 端车主场景,一款 Chatbot 的价值并不取决于“是否足够智能”,而在于是否能够持续提升用户留存与互动频次,并进一步支撑清晰、可落地的业务转化路径。 基于这一判断,本文将聚焦业务视角下 Chatbot 应优先完成的关键事项,尝试厘清阶段性目标、产品定位以及更现实的落地路径。 结合我对“AI 产品经理”的理解,这里的讨论基本落在我所定义的 AI 应用层 。 一、核心判断 在真实的 C 端业务落地过程中,一个更合理、也更稳健的产品判断是: 将 Chatbot 视为一个可控、可量化的产品组件,而非一个“智能系统”。 在这一判断下,阶段性的工作重点并不在于: 解释 AI 技术或模型能力本身 一次性打造“足够专业”的专家型系统 构建覆盖所有问题场景的完整知识体系 而应优先聚焦以下三项更具现实业务价值的目标: 确保 Chatbot 在 App 中被真实用户持续使用 将使用效果映射为清晰、可解释的业务指标 在有限资源条件下,形成可持续迭代的产品结构 二、Chatbot 的阶段性产品定位 ⛔ 业务阶段不宜优先采用的定位方式 在 C 端场景中,以下车主 Chatbot 的产品定位虽然在技术层面具备合理性,但在实际业务落地阶段中风险较高: 专业 AI 助手 汽车专家系统 智能决策引擎 以复杂 RAG 或深度推理链为核心的产品形态 这些定位通常强调模型能力的完整度或技术深度,但并不直接等价于使用频次、用户留存或阶段性业务提升。 ✅ 业务阶段更合适的产品定位 从业务视角出发,一个更贴近现实的定位是: 车主高频问题的即时响应入口(Retention-first) 换一种更直观的表述,即: 通过 Chatbot 延长用户在 App 内的停留时间,促使用户产生更多交互,而非在首次交互后立即流失。 ...

2026年1月11日 · 赵华洲

从第一性原理出发,推演一款车主 Chatbot 的实现路径

本文更多是一种工程路径的推演,而非已经被完整实践验证的结论。 它更像是一张“地图”,用来帮助在构建 Chatbot 的过程中尽量避免迷路。 背景 在很多产品团队的讨论里,“做一款车主 Chatbot”往往会被简化成: 接入一个大模型 设计一些提示词 准备文档材料,接入知识库(RAG) 然后在 APP 里设计一个对话框 UI,开启对话功能 但当你真正把它视作一款需要长期落地、持续迭代,并承担真实业务责任的产品时,就会发现:它并不只是“把模型接进来”,而是要让模型在真实业务场景中形成稳定、可依赖的专业判断能力。 在阅读智谱 AI 首席科学家唐杰的分享 「谈 2025 年对大模型的看法」 后, 我尝试从第一性原理出发,推演如果从零构建做一款车主 Chatbot,在业务落地层面,可能需要经过哪些关键路径。 从第一性原理出发,对车主 Chatbot 实现路径的推演 一、第一性原理 目标:用 AGI 替代 汽车技师 的部分工作,解答车主的日常问题咨询。 如果这个目标成立,那么后续所有产品设计,都应该围绕 “专业判断能力是否形成” 展开,而不是围绕用户画像、问题类型或业务流程本身。 二、让模型对齐真实业务场景,增强实际体感 Mid 和 Post Training 使得模型更快对齐业务场景,并具备更强的推理能力成为可能。 换句话说,就是让模型更快学会在真实业务场景下应该如何思考,如何回答。 1. 继续预训练 Continued Pre-Training(CPT) 目标:补齐领域知识与因果结构。 汽车领域的知识并非“百科式知识”,而是由大量工程结构与因果关系构成,例如: 系统原理:发动机 / 变速箱 / 底盘 / 电气架构 等 故障机理:症状 ↔ 原因 ↔ 处理路径 维修动作:检测步骤、拆装流程、风险提示 品牌差异:不同车型的共性与特例 CPT 的意义,并不在于让模型“记住更多资料”,而是让模型内部表示方式更接近这一领域的知识结构本身。如果缺少这一阶段,后续的 SFT 很容易沦为“教话术”,而非真正补足能力。 ...

2026年1月8日 · 赵华洲

Chatbot 不是把大模型塞进一个老旧的规则引擎里

很多所谓的「Chatbot」,看起来用了大模型,设计了提示词,准备了知识库和数据集,但它们的底层逻辑其实让人异常熟悉——熟悉到令人不安。 它们做的事情是: 把知识整理成 结构化业务规则 , 再要求大模型 严格按规则进行分析、判断并生成回复 。 换句话说,是在用 21 世纪的大模型技术,复刻上世纪的规则驱动型对话机器人。 Chatbot 的本质,从来不是“规则执行器” 如果一个 Chatbot 的目标是: 按业务流程一步步走 在预定义框架里做判断 输出完全可解释、可复盘的结果 那么,其实并不需要大模型。 规则引擎 、 状态机 、 模板系统 ,在确定性问题上反而会更便宜、更稳定,更可控。 Chatbot 的核心价值,从来不在于“照着规则走”,而在于通过概率推理,实现具备泛化能力的智能回答。 正确的方向,其实恰恰相反 一个真正合理的 Chatbot 架构,应当是: 模型是主脑 数据定义能力边界 系统工程负责稳定性与成本控制 评估与反馈驱动系统持续进化 它不是先把世界“压扁”成规则,再让模型当一个高级填空器。 而是: 在足够干净、足够真实的数据分布上, 让模型能力自然生长, 再通过系统工程,把这种能力稳定地转化、放大,并外溢为业务 KPI。 为什么很多团队会“退回规则引擎” 原因其实并不复杂,因为规则引擎: 规则 可解释 流程 可画图 决策 可复盘 PPT 好汇报 而模型能力的进化: 本质上是概率性的 存在波动与不确定性 可解释性有限 需要长期的系统工程与认知支撑 在大量团队中,这种回退不仅仅是技术选择的问题,还往往叠加了一个不那么容易被察觉的因素——互联网产品经理通常不具备完整的 AI 通识认知体系。 从专家系统 → 机器学习 → 深度学习 → 大语言模型,这一演进过程并非单纯的技术升级,而是对“智能如何产生”的理解范式发生了转变。 ...

2026年1月6日 · 赵华洲

我做了一个垂直应用的 Chatbot:关于数据准备的一些经验

这篇文章记录的是:我在为一款 垂直应用 Chatbot 准备数据的过程中,经过一系列实践尝试,逐渐沉淀下来的一套数据工作流思路。 它并不新颖,也并不复杂,但在真实的业务环境中,非常管用。 如果从产品视角来看,这里的大多数问题,都已经落在我所定义的 AI 工程化层 。 适合谁阅读(请先看这里) 在继续往下之前,我想先明确一点:这篇文章并不适合所有人。 它可能不太适合: 算法研究员 AI 竞赛玩家 以模型结构与训练技巧为主要关注点的 ML 工程师 它更适合: AI 产品经理 应用型 AI 工程师 在团队里「被迫开始做数据」的人 想把 AI 真正跑起来,而不仅仅停留在 Demo 阶段的人 如果你期待的是更复杂的模型、更新颖的算法,这篇文章大概率会让你失望; 但如果你关心的是,在现实约束下,数据如何一步步从无到有,从充满噪声到变得可用,那它或许能给你提供一些参考。 任务背景:做一款面向车主的 Chatbot 最初的目标,是做一款面向普通车主的问答型 Chatbot,用于解答他们在真实用车场景中会遇到的各类问题。 例如: 「仪表盘上那个像茶壶一样的灯亮了,是怎么回事?」 「开车时方向盘老是抖,速度越快抖得越厉害,怎么回事?」 「这两天仪表盘上老显示一个保养的黄扳手,请问再多跑一两千公里去保养行吗?」 这类问题通常具有一些共性特征: 高度口语化 上下文信息缺失 专业名词与俗称混杂 带有明显的情绪与不确定性 如果希望模型的回复在语气上更贴近真实车主的表达,在判断上让人感到安全、可信,而不只是一个干巴巴的“百科式问答机器人”,那么仅靠现成的通用语料显然是不够的。 因此,我需要准备一批来源于真实车主表达、语气自然、质量可控且规模足够大的车主问答数据,用于后续的车主画像分析与模型微调。 第一个问题:数据从哪里来? 无论是用于后续的 LoRA 微调,还是支撑更高质量的车主画像分析与多轮对话策略设计,首先要解决的,其实都是同一个问题: 如何规模化地收集来自真实车主表达的问答数据? 在已有的数据资产中,我们并不具备这一类型的数据,因此只能从外部渠道入手,尽可能补齐这一基础。 在不依赖任何内部或私有数据的前提下,可用于分析的数据来源其实并不多,主要包括: 汽车社区与论坛(如汽车之家、懂车帝车友圈等) 内容型平台(如 B 站、抖音、小红书等) 公开数据集(竞赛数据集、Hugging Face 等) AI 生成的 dummy 数据 综合数据质量、表达真实性与规模潜力等因素评估后,我们最终将最高优先级放在了内容型平台(B 站、抖音、小红书等)。 这类平台上的内容更贴近真实车主的自然表达,往往带有情绪、口语化表述与大量俗称,同时数据规模足够大、问题类型覆盖全面,既有利于后续的数据扩展与迭代,也适合用于分析不同问题类型与使用场景下的车主画像。 但关键问题在于:这些地方的数据,噪声太大了。 大量与问题无关的闲聊与互动(如点赞、调侃) 大量表情、重复性内容 大量上下文缺失的碎片文本 甚至夹杂着广告或完全无关的信息 很快,我便意识到一件事: ...

2026年1月4日 · 赵华洲