Insights·2026-06-11

ChatGPT为什么记不住对话

ChatGPT等LLM并不会记住对话。每一轮都要把之前的全部对话重新发送一遍,模型像第一次见到这段文本一样读取它,然后预测下一个token。对话越长,上下文窗口越满、成本越高,原因就在这里。从分词器对韩语的低效,到幻觉、temperature、系统提示词,这些都只需几行代码就能在屏幕上直接验证。

对话为什么看起来在延续

秘密在messages数组里。API调用的核心是由system、user、assistant三种角色组成的消息列表。要实现多轮对话,每一轮都必须把此前所有问答打包重新发送。这相当于每次都把整段对话从头讲给一个初次见面的人听。因此对话越长,历史管理就越成为实务中关于上下文窗口与成本的核心设计课题。

打开分词器能看到什么

能看到韩语的结构性劣势。'안녕'被切成两个token,'안녕하세요, 어떻게 지내세요?'是八个,而'How are you?'只需六个。把同一段文字按token与字符数之比来测,韩语约在0.47~0.75,英语约在0.13~0.26。即使上下文窗口大小相同,韩语能装下的内容也更少。如果你在规划韩语AI服务,这是从起跑线就必须考虑进去的约束。

模型为什么能把不存在的论文说得头头是道

问它一篇虚构的2019年韩语情感分析期刊论文,模型一边说无法给出作者姓名,一边却像模像样地编造论文的主要贡献。对一个下一token预测器来说,接上看似合理的token比承认不知道更自然。知识截断也在同一处显形:问今天的日期和汇率,得到的回答显示其知识停留在2023年10月。需要实时信息的服务不能只靠模型本身,还需要RAG或工具调用等补充结构。

同一个模型、同样的输入,答案为什么不同

因为temperature改变了概率分布的形状。同一句话在0.1下跑三次,得到的答案几乎一样;调到1.8,每次都会以完全不同的句子开头。可以据此直接控制:像代码生成这类需要一致性的场景调低,需要发散创意时调高。系统提示词的分量也一样。在'亲切的科学老师''物理学博士''苏格拉底式教育者'之间换一行,同一个黑洞问题就分别得到比喻、公式和反问。一行提示词就能重新定义模型的全部行为。

为什么非开发者也需要代码演示

因为听讲解和亲眼在屏幕上看到,分量完全不同。亲眼见过幻觉的人不再责怪模型,而是加上验证流程;看到每一轮都要重传全部历史的人,会开始把长对话的上下文管理当作设计课题。这正是SH Consulting在AX培训中坚持向没有编程经验的从业者展示分词器和API调用画面的原因。亲眼见过运行原理的人和只听过的人,使用工具的深度并不相同。