쓴 교훈과 인터뷰 노트

5월 9일 토요일, 사무실 책상에서 자료를 디깅하던 중 리치 서튼(Rich Sutton)이 2019년에 올린 한 페이지짜리 글을 다시 읽었다. 이 글을 그 전에도 읽은 적이 있다. 그때는 별 인사이트를 받지 못했다. 회사를 시작한 지 석 달째인 지금, 그 한 페이지가 내가 매일 다루는 의사결정 구조 작업의 핵심 문제 한 가지를 새로 정리해주었다.

1. 자기 글의 비판자가 된 사람

리치 서튼(Rich Sutton)은 현대 강화학습 분야를 정립한 학자 중 한 명이다. 강화학습이란 어렵게 말하면 "보상 신호를 따라 시행착오로 행동을 다듬어 가는 학습 방식"이고, 쉽게 말하면 강아지에게 간식을 줘 가며 앉아를 가르치는 것의 컴퓨터 버전이다.

2019년 3월, 서튼은 자기 사이트(incompleteideas.net)에 「The Bitter Lesson(쓴 교훈)」이라는 한 페이지짜리 글을 게시했다. 70년의 AI 연구가 우리에게 가르쳐 준 가장 큰 교훈 한 줄을, 그는 이렇게 정리했다. 인간의 지식을 시스템 안에 주입하지 마라. 컴퓨테이션을 활용하는 일반 메서드만이 결국 이긴다.

체스, 바둑, 음성 인식, 컴퓨터 비전에서 같은 패턴이 반복됐다. 인간이 자기가 그 분야를 어떻게 이해하고 있다고 생각하는지를 시스템 안에 정밀하게 인코딩하는 접근은 짧은 기간에는 항상 도움이 된다. 그러나 무어의 법칙으로 컴퓨테이션이 충분히 거대해지는 순간, 그렇게 인코딩한 인간 지식은 추가 진보를 막는 제약이 된다. 서튼이 제시한 메서드는 두 가지였다. 탐색(search)과 학습(learning). 둘 다 컴퓨테이션이 거대해질수록 함께 거대해지는 메서드다.

여기까지가 2019년의 내용이다. 6년이 지난 2025년, 서튼은 한 팟캐스트에 출연해 자기 글에 대한 비판을 내놓는다. 지금 우리가 쓰는 LLM은 사실 그가 말한 비터 레슨에 충분히 부합하지 않는다는 것이다. LLM은 본질적으로 인간이 만든 데이터, 인간이 큐레이션 한 데이터, 인간 엔지니어가 튜닝한 강화학습 환경 위에서 학습된다. 2019년에 그가 비판한 "인간 지식을 시스템에 주입하는 일"이, 사실 가장 큰 규모로 LLM 안에 들어 있는 것 아니냐고 그가 직접 물었다. 쓴 교훈을 쓴 본인이 6년 뒤 자기 글의 비판자가 됐다.

2. 그래서 카파시가 보탠 한 줄 — "동물이 아니라 유령"

여기에 안드레이 카파시(Andrej Karpathy)가 한 줄로 답을 보탰다. LLM은 동물(animal)이 아니라 유령(ghost)이다.

그가 펼친 비유는 다음과 같다. 동물은 진화라는 외부 루프가 수십억 년 걸려 학습시킨 사전 분포(prior) — 출발선에 미리 놓여 있는 짐 — 위에서 시작한다. 새끼 얼룩말이 태어난 지 수십 분 안에 사바나에서 어미를 따라 뛸 수 있는 건 백지 상태에서 강화학습으로 배워서가 아니다. DNA 안에 이미 들어 있던 것을 깨우는 일이다. 우리는 진화를 다시 돌릴 수 없다. 그러나 방대한 인터넷 문서는 가지고 있다. 사전학습은 우리의 형편없는 진화다. 카파시가 자기 글에서 한 줄로 요약한 결론이다.

LLM이 동물이 아니라 유령이라는 카파시의 표현이 정확한 이유는 한 가지다. 비행기가 새가 아니지만 하늘을 난다. 유령도 동물이 아니지만 세상을 바꿀 수 있다. 카파시는 두 가지 가능성을 동시에 열어둔다. 우리가 만든 유령을 시간이 지나면서 점점 동물 쪽으로 다듬어 갈 수도 있고, 또는 영영 동물이 아닌 다른 무엇으로 발산할 수도 있다. 그러나 어느 쪽이든 그 유령이 인간 데이터의 통계적 증류로부터 시작했다는 사실은 변하지 않는다.

서튼의 비판과 카파시의 답을 같은 전제 위에 올려두면 한 가지 결론이 나온다. LLM은 경험으로부터 학습하지 못한다. 일상적인 상호작용 속에서 무엇이 옳은지를 알려주는 외부 정답 신호 — ground truth 라고 부른다 — 가 없기 때문이다. 다음에 무엇이 일어날지에 대한 의미 있는 예측이 없기 때문이고, 예상치 못한 일에 놀라지 않기 때문이다. 한 명의 사람이 30년 경험으로 축적하는 보정 과정이 모델 안에서는 일어나지 않는다.

카파시는 여기에 한 가지 보충을 단다. LLM의 인 컨텍스트 학습 — 그 자리에서 주어진 컨텍스트만으로 즉흥적으로 새로 배우는 것 같은 흉내 — 그리고 외부 메모리(예: CLAUDE.md 같은 텍스트 파일에 누적되는 메모리)는 가중치 학습이 아니라 텍스트와 컨텍스트를 기질로 사용하는 일종의 테스트 타임 학습이다. 진짜 경험으로부터의 학습은 아니지만, 결손된 부분을 부분적으로 보완하는 한 가지 방식이다.

3. 패션회사의 회의실

그러나 우리 회사가 매일 만나는 클라이언트 환경은 인 컨텍스트로도, CLAUDE.md로도 보완되지 않는다.

지난 두 달, 우리는 패션회사라는 회사의 한 회의실에 자주 앉아 있었다. 마케팅 한 사람, 기획 한 사람, MD 한 사람, 재무 한 사람과 한 명씩 마주 앉았다. 첫 질문은 늘 같다. 지난 한 달 동안 가장 자주 답답했던 한 장면을 말해달라. 두 번째 질문도 같다. 그 장면 안에서 누구의 어떤 결정이 한 단계 빠졌으면 좋았을지 짚어달라. 그 다음부터는 그 사람이 한 시간 동안 본인 시각으로 풀어준다.

그 한 시간 안에 우리가 듣는 문장들은 인터넷 어디에도 적혀 있지 않다. 예를 들면 이런 문장이 한 시간에 한두 번씩 나온다. "MD 회의에서 그 결정을 누가 먼저 꺼냈는지 기억이 안 납니다, 다만 그 다음 분기 오더가 그 결정 위에 그대로 올라갔습니다." 부산 매장에 풀린 컬러가 왜 안 팔렸는지 본인들도 정확히 모른다는 답, 재무에서 어떤 비용을 그 항목으로 분류한 이유가 작년 비슷한 사례 때문이라는 답. 이런 종류의 답이 한 회의실에 여러 번 나온다. 한 회사가 매일 내리는 의사결정의 절반은 이런 종류의 정보를 기반으로 한다. 그리고 이 문장들은 그 회사 안의 한 직원에서 다른 직원으로 한 번도 정식으로 옮겨 적힌 적이 없다.

이 한 시간 동안 책상 위에는 두 가지 도구가 작동한다. 만년필 한 자루, 그리고 컴퓨터에서 돌아가는 녹음 앱 — 우리는 Tiro를 쓴다. 만년필은 받아쓰는 사람의 손에 있다. 한 문장이 종이에 쓰이는 동안, 그 사람은 그 문장이 회사의 어떤 결정과 어떤 결과에 연결되는지 한 번 더 분류한다. 이 분류 작업은 컴퓨테이션이 모방하지 못한다. Tiro는 회의 시간 내내 컴퓨터 안에서 돌아간다. 사람의 귀가 놓치는 단어, 머뭇거림, 침묵 길이까지 녹음 파일에 남는다.

한 시간 분량의 인터뷰는 다음 날 아침 우리 vault에 마크다운 파일로 저장된다. 옵시디언(Obsidian)은 마크다운 파일들을 양방향 링크로 연결해 보관하는 도구다. 이 파일들은 우리가 그 회사를 위해 지을 비스포크 SaaS — 그 회사 한 곳에만 맞게 짓는 자체 운영 시스템 — 의 핵심 입력 데이터가 된다. 이 작업은 LLM을 한 회사의 고유 데이터로 추가 학습시키는 작업이다.

이 두 도구가 우리 회사의 모든 SaaS 개발 워크플로우의 첫 단계다. 모델 구현은 그 다음 단계다.

4. 그래서 우리가 이미 하이브리드를 하고 있었다

처음에는 의식적으로 한 일이 아니었다. 서튼의 글을 읽고 "그래, 그러면 인터뷰부터 가자" 한 일이 아니다. 한 사람의 한 시간 안에 들어 있는 정보의 가치가 다른 어떤 방법으로도 대체되지 않는다는 사실이 분명했고, 매번 인터뷰부터 시작했다. 당시 다른 방법이 없었다.

지금 와서 보니 이건 정확히 하이브리드다. 서튼이 말한 컴퓨테이션 인프라(LLM, GPU, 스케일링 법칙)는 이미 우리에게 사용 가능하다. 그 위에 1986년 마빈 민스키(Marvin Minsky)가 제안한 작은 에이전트들의 사회 구조 — 한 회사의 의사결정은 한 명의 의사결정자가 단독으로 내리는 일이 아니라 마케팅·기획·MD·재무·운영의 협의 결과라는 모델 — 가 우리 제품 아키텍처의 기본이다.

그 두 인프라 사이의 간극, 즉 서튼이 지적한 LLM의 경험 학습 결손을, 우리는 사람의 인터뷰로 채운다. 인터뷰는 우리 워크플로우에서 가장 인건비가 높은 단계다.

이 접근은 우리가 새로 발명한 게 아니다. 팔란티어(Palantir)가 자기 제품을 클라이언트에게 배포할 때 운영하는 FDE(Forward Deployed Engineer) 직무와 동일한 구조다. 한 클라이언트의 회의실 안에 사람을 한 명 파견해, 그 회사의 운영 데이터를 수집하고 제품 커스터마이징에 반영하는 작업이다. 우리는 같은 구조를 한국의 작은 SaaS 회사 안에 축소 적용하고 있다. METAL AI 안에서 이 직무는 휴먼 리서처(Human Researcher)라는 직함으로 운영된다. 4명 미만의 경량 조직에서 이 직무를 정규로 두고 있다는 사실이 METAL AI의 우선순위를 보여준다.

솔직히 말하면, 이 직무가 영원히 사람이 담당하는 작업으로 남을 거라고 생각하지 않는다. 서튼이 글의 마지막에 분명히 적었듯, 그가 추구하는 건 우리가 발견한 결과를 시스템에 주입하는 일이 아니라 우리처럼 발견할 수 있는 메서드 자체다. LLM이 자체적으로 경험 기반 학습을 수행하게 되는 시점에서 FDE 직무는 재정의되어야 할 것이다. 그 시점까지 우리는 사람을 파견한다.

서튼의 글은 2019년 본인 사이트에 한 페이지로 게시됐다. 카파시의 답은 2025년 본인 블로그에 한 편으로 게시됐다. 두 글이 공유하는 핵심 질문 — LLM은 자체 경험으로부터 학습하지 못한다 — 에 대한 한 가지 실용적 대응책을 METAL AI는 한 시간 단위 인터뷰로 운영하고 있다.

다음 인터뷰는 내일 잡혀 있다.

— 김현국 (Hyunkook Kim) · METAL AI 대표 · 2026년 5월 9일 (토)