对话为什么看起来在延续
秘密在messages数组里。API调用的核心是由system、user、assistant三种角色组成的消息列表。要实现多轮对话,每一轮都必须把此前所有问答打包重新发送。这相当于每次都把整段对话从头讲给一个初次见面的人听。因此对话越长,历史管理就越成为实务中关于上下文窗口与成本的核心设计课题。
打开分词器能看到什么
能看到韩语的结构性劣势。'안녕'被切成两个token,'안녕하세요, 어떻게 지내세요?'是八个,而'How are you?'只需六个。把同一段文字按token与字符数之比来测,韩语约在0.47~0.75,英语约在0.13~0.26。即使上下文窗口大小相同,韩语能装下的内容也更少。如果你在规划韩语AI服务,这是从起跑线就必须考虑进去的约束。
模型为什么能把不存在的论文说得头头是道
问它一篇虚构的2019年韩语情感分析期刊论文,模型一边说无法给出作者姓名,一边却像模像样地编造论文的主要贡献。对一个下一token预测器来说,接上看似合理的token比承认不知道更自然。知识截断也在同一处显形:问今天的日期和汇率,得到的回答显示其知识停留在2023年10月。需要实时信息的服务不能只靠模型本身,还需要RAG或工具调用等补充结构。
同一个模型、同样的输入,答案为什么不同
因为temperature改变了概率分布的形状。同一句话在0.1下跑三次,得到的答案几乎一样;调到1.8,每次都会以完全不同的句子开头。可以据此直接控制:像代码生成这类需要一致性的场景调低,需要发散创意时调高。系统提示词的分量也一样。在'亲切的科学老师''物理学博士''苏格拉底式教育者'之间换一行,同一个黑洞问题就分别得到比喻、公式和反问。一行提示词就能重新定义模型的全部行为。
为什么非开发者也需要代码演示
因为听讲解和亲眼在屏幕上看到,分量完全不同。亲眼见过幻觉的人不再责怪模型,而是加上验证流程;看到每一轮都要重传全部历史的人,会开始把长对话的上下文管理当作设计课题。这正是SH Consulting在AX培训中坚持向没有编程经验的从业者展示分词器和API调用画面的原因。亲眼见过运行原理的人和只听过的人,使用工具的深度并不相同。