대화가 이어지는 것처럼 보이는 이유는 무엇인가
비밀은 messages 배열에 있습니다. API 호출의 핵심은 system, user, assistant 세 역할로 구성된 메시지 목록이고, 멀티턴 대화를 구현하려면 매 턴마다 지금까지의 질문과 답변 전체를 묶어 다시 보내야 합니다. 처음 만난 사람에게 지금까지의 대화를 매번 처음부터 들려주는 구조입니다. 그래서 대화가 길어질수록 히스토리 관리가 컨텍스트 윈도우와 비용 측면에서 실무의 핵심 설계 과제가 됩니다.
토크나이저를 열면 무엇이 보이는가
한국어의 구조적 불리함이 보입니다. '안녕'은 토큰 두 개로 잘리고 '안녕하세요, 어떻게 지내세요?'는 여덟 개인데, 'How are you?'는 여섯 개면 끝납니다. 같은 글을 글자 수 대비 토큰 비율로 재 보면 한국어는 0.47~0.75, 영어는 0.13~0.26 수준입니다. 컨텍스트 윈도우 크기가 같아도 한국어는 더 적은 내용밖에 담지 못한다는 뜻이고, 한국어 AI 서비스를 기획한다면 출발선부터 깔고 가야 할 제약입니다.
모델은 왜 없는 논문을 그럴듯하게 서술하는가
2019년 학회지에 실렸다는 가상의 한국어 감성 분석 논문을 물으면, 모델은 저자명은 밝힐 수 없다면서도 그 논문의 주요 기여를 그럴듯하게 지어냅니다. 모른다고 답하기보다 그럴듯한 다음 토큰을 잇는 쪽이 다음 토큰 예측기에게는 자연스럽기 때문입니다. 지식 단절도 같은 자리에서 드러납니다. 오늘 날짜와 환율을 물으면 지식이 2023년 10월에서 멈춰 있다는 답이 돌아옵니다. 실시간 정보가 필요한 서비스라면 모델 단독으로는 부족하고 RAG나 툴 유즈 같은 보완 구조가 필요합니다.
같은 모델, 같은 입력인데 답은 왜 달라지는가
temperature가 확률 분포의 모양을 바꾸기 때문입니다. 같은 문장을 0.1로 세 번 돌리면 거의 같은 답이 나오지만 1.8로 올리면 매번 전혀 다른 문장이 시작됩니다. 코드 생성처럼 일관성이 필요하면 낮게, 발상이 필요하면 높게 잡는 식으로 직접 제어할 수 있습니다. 시스템 프롬프트도 같은 무게를 가집니다. 친절한 과학 선생님, 물리학 박사, 소크라테스식 교육자로 한 줄만 바꿔 끼우면 같은 블랙홀 질문에 비유와 수식과 역질문이 각각 돌아옵니다. 프롬프트 한 줄이 모델의 행동 전체를 다시 정의하는 셈입니다.
비개발자에게도 코드 시연이 필요한 이유는 무엇인가
설명으로 들을 때와 화면에서 직접 볼 때의 무게가 다르기 때문입니다. 환각을 눈으로 확인한 사람은 모델을 탓하는 대신 검증 절차를 붙이고, 매 턴마다 히스토리 전체가 다시 전송되는 장면을 본 사람은 긴 대화의 컨텍스트 관리를 설계 과제로 다루기 시작합니다. SH Consulting이 AX 교육에서 프로그래밍 경험이 없는 실무자에게도 토크나이저와 API 호출 화면을 직접 보여주는 이유입니다. 작동 원리를 한 번 본 사람과 듣기만 한 사람은 도구를 다루는 깊이가 다릅니다.