2023년, Andrej Karpathy는 “가장 핫한 새 프로그래밍 언어는 영어”라고 선언했다. 3년 뒤 그 말은 절반만 맞았다. 영어로 지시하는 능력은 여전히 중요하지만, 그것이 전부는 아니라는 게 명확해졌다. 지난 4년간 AI 개발 패러다임은 세 번이나 전환했고, 각 전환의 동인은 같았다 — 이전 방식이 약속한 것을 지키지 못했기 때문.
GeekNews에 공유된 김영민(AWS Korea Data Scientist)님의 글 「프롬프트에서 하네스까지 — AI 에이전틱 패턴 4년의 기록」은 이 흐름을 정밀하게 추적한 부검 보고서다. 단순 서베이가 아니라, 각 시대가 왜 무너졌는지를 추적한다는 점에서 읽을 가치가 크다.
왜 이 주제가 눈에 띄었나
지금 GitHub 타임라인을 보면 에이전트 프레임워크가 쏟아지고 있다. OpenClaw, Claude Code, Cursor Agent, Devin, Windsurf — 선택지가 너무 많아서 “뭘 써야 하지?”보다 “이걸 왜 써야 하지?”가 먼저다. 이 질문에 답하려면 4년의 궤적을 이해해야 한다. 이 글은 그 궤적을 가장 깔끔하게 정리한 자료 중 하나다.
세 번의 전환: 엄밀함은 사라지지 않고 이동했다
1기: 프롬프트 엔지니어링 (2022–2024)
“어떤 말을 해야 하나?”가 핵심 질문이었다. Chain-of-Thought로 수학 정확도가 17.9%에서 58.1%로 뛰고, ReAct가 Thought-Action-Observation 루프를 제시하며 에이전트의 원형을 만들었다. Andrew Ng는 4가지 에이전틱 패턴(Reflection, Tool Use, Planning, Multi-Agent)을 정리했고, “GPT-3.5에 에이전틱 워크플로우를 씌우면 GPT-4 제로샷보다 낫다”는 발견으로 프롬프트 엔지니어링은 정점에 달했다.
무너진 이유: 프롬프트에 “기존 코드를 재사용하라”고 써놓아도, 컨텍스트 윈도우에 해당 파일이 없으면 에이전트는 그 존재를 모른다. Mitchell Hashimoto가 이를 “Blind Prompting”이라 불렀다. 엄밀함은 프롬프트 텍스트가 아니라 프롬프트가 소비하는 컨텍스트 전체에 있어야 했다.
2기: 컨텍스트 엔지니어링 (2025)
“어떤 정보를 넣어야 하나?”로 질문이 이동했다. 2025년 6월, Shopify CEO Tobi Lütke가 “Context engineering”에 불을 붙이며 며칠 만에 “prompt engineering”이 타임라인에서 사라졌다. Cursor는 전체 코드베이스를 RAG + AST로 인덱싱하고, 참조 시스템(@file, @codebase, @Docs)을 도입해 컨텍스트 범위를 근본적으로 확대했다.
2.5기 — 바이브 코딩의 숙취: 같은 해 Karpathy가 diff도 안 보고 AI 제안을 전부 수락하는 “vibe coding”을 실토했고, Y Combinator W25 배치의 25%가 코드베이스 95%를 AI로 생성했다. 그리고 3개월 뒤 Fast Company가 “The Vibe Coding Hangover”를 보도했다 — 아무도 코드를 이해하지 못하는 상황. “LLM이 코드를 썼더라도 당신이 리뷰했다면 그건 vibe coding이 아니다”라는 문장이 이 시대의 교훈이다.
무너진 이유: 완벽한 컨텍스트를 구성해도, 그것을 소비하는 루프 자체가 잘못 설계되면 여전히 실패한다.
3기: 하네스 엔지니어링 (2026–현재)
“어떤 시스템을 만들어야 하나?”가 지금의 질문이다. 핵심 메시지는 명확하다: “에이전트가 실수하면 에이전트가 아니라 하네스를 고쳐라.” 에이전트 = 모델 + 하네스이며, Anthropic의 3-에이전트 아키텍처, Meta AI의 Rule of Two, Lethal Trifecta 패턴 등이 이 전환을 상징한다.
중요한 포인트는 하위 호환성이다. 각 시대는 이전 시대를 대체하지 않고 **포함(subsume)**한다. 프롬프트 엔지니어링은 죽은 게 아니라 하네스 엔지니어링의 서브모듈이 되었다.
실사용자와 개발자에게 중요한 이유
이 연대기를 아는 것은 단순한 지식 채우기가 아니다. 지금 에이전트 도구를 도입하거나 구축하려는 사람에게 실용적 기준을 제공한다.
첫째, 어떤 질문을 던지고 있는지 확인하라. 프롬프트를 다듬고 있는가, 컨텍스트를 설계하고 있는가, 아니면 전체 시스템을 설계하고 있는가? 문제의 크기에 맞지 않는 도구를 쓰면 낭비가 생긴다.
둘째, “가능한 한 단순하게 시작하라”는 Anthropic의 원칙을 기억하라. 워크플로우로 충분하면 에이전트를 쓸 필요 없고, 에이전트가 필요해도 복잡한 프레임워크 대신 기본 패턴의 조합으로 충분하다.
셋째, 2026년의 핵심 메트릭은 프롬프트 품질이 아니라 KV-cache hit rate와 하네스 복잡도다. 모델이 이전 계산을 얼마나 재활용하는지, 에이전트를 감싸는 제어 구조가 얼마나 견고한지가 성패를 가른다.
지금 바로 볼 포인트
원문에서 특히 주목할 부분:
- Copilot의 진화가 세 시대의 축소판이라는 관찰. 2022년 자동완성 → 2023년 채팅 → 2025년 에이전트 모드로 이어진 궤적이 전체 패러다임 전환을 미러링한다.
- Self-Refine/Reflexion의 한계와 Anthropic 3-에이전트 아키텍처의 관계. “채점은 다른 사람이 해야 한다”는 결론에 도달하는 데 3년이 걸렸다는 통찰.
- “하네스는 뜯어낼 수 있어야(rippable) 한다”는 원칙. 모델이 발전하면 기존 에러 복구 로직의 절반이 불필요해지므로, 하네스는 모델과 느슨하게 결합되어야 한다.
마무리
Epsilla의 메타포가 이 4년을 잘 포착한다. 2022년엔 완벽한 이메일 작성법을 연구했고, 2025년엔 받은편지함 관리를 배웠고, 2026년엔 이메일 시스템 자체를 설계하고 있다. 엄밀함은 사라진 게 아니다. 이동했을 뿐이다.
원문의 다음 전망도 흥미롭다: Guardian Agent(실시간 감시 레이어) → 평가 엔지니어링 → 지식 엔진(코드 그래프·커밋 히스토리·메모리 결합). 4기는 무엇이 될지 아직 모르지만, 3기의 한계를 추적하면 윤곽이 보이기 시작한다.
원문: 프롬프트에서 하네스까지 — AI 에이전틱 패턴 4년의 기록 (bits-bytes-nn.github.io) GeekNews: 프롬프트에서 하네스까지 - AI 에이전틱 패턴 4년의 기록