뮤즈 오토스킬: AI 에이전트가 스스로 스킬을 배우고 진화하는 방법

에이전트가 복잡한 문제를 풀려면 재사용 가능한 “스킬”이 필요하다는 건 이제 업계 공통 인식입니다. Voyager가 마인크래프트에서 코드 라이브러리를 쌓기 시작한 이후로, AutoSkill, EvoSkill, Skill1 등 다양한 접근이 이어졌죠. 하지만 대부분 한 가지 공통된 한계가 있었습니다. 스킬을 만들고 나면 그걸로 끝이라는 거죠. 한 번 만들어진 스킬은 고정된 파일처럼 방치되고, 실패하면 버려지고, 경험이 축적되지 않습니다.

ByteDance와 Rochester Institute of Technology가 발표한 MUSE-Autoskill(Memory-Utilizing Skill Evolution)은 이 패러다임을 바꿉니다. 스킬을 정적인 산출물이 아니라 살아있는 자산으로 다루는 프레임워크입니다. 생성, 기억, 관리, 평가, 정제라는 다섯 단계의 라이프사이클을 통해 에이전트가 스스로 스킬을 만들고, 기억하고, 테스트하고, 개선합니다.

결과부터 말하면 인상적입니다. GPT-5.5 기반 세 에이전트(Codex, Hermes, MUSE)를 SkillsBench 51개 태스크에서 비교했을 때, MUSE-Autoskill이 전체 정확도 **68.40%**로 최고 성능을 기록했습니다. 스킬 없는 기준 대비 +15.2%p 상승이고, Codex(67.3%)와 Hermes(61.2%)를 모두 앞섭니다. 더 흥미로운 건 MUSE가 직접 생성한 스킬을 Hermes에 적용했을 때의 결과입니다. 정확도가 69.8%에서 85.1%로 +15.3%p나 뛰었고, 토큰 사용량은 84K 절약, 지연 시간은 113초 감소했습니다. 인간이 작성한 스킬보다 AI가 만든 스킬이 더 나은 성과를 낸 셈입니다.

Q&A로 살펴보는 MUSE-Autoskill

기존 스킬 시스템의 구체적인 문제점은 뭔가요?

크게 네 가지 갭이 있다고 논문은 지적합니다. 첫째, 생성-사용 불일치입니다. 스킬을 만드는 시점과 실제로 사용하는 시점의 컨텍스트가 달라서, 만들어놓고 제대로 쓰지 못하는 일이 많습니다. 둘째, 스킬별 경험 축적이 없습니다. 어떤 스킬이 어떤 상황에서 실패했는지, 어떤 변형이 잘 먹혔는지를 기록하는 메모리가 없죠. 셋째, 테스트와 검증이 없습니다. 만들어진 스킬이 제대로 동작하는지 유닛 테스트 같은 체계적인 평가가 부족합니다. 넷째, 긴 작업에서 컨텍스트 처리가 엉망입니다. 대화 기록이 길어지면 잘리거나 넘쳐서, 스킬 활용에 필요한 정보가 유실됩니다.

MUSE는 스킬을 어떻게 생성하나요?

핵심은 skill_create라는 도구를 에이전트의 실행 루프 안에 내장한 겁니다. 에이전트가 문제를 풀다가 “이건 나중에도 쓸 만한 패턴이다”라고 판단하면, 즉석에서 스킬을 생성합니다. 별도의 오프라인 파이프라인이 아니라, 실행 컨텍스트에 접근한 상태에서 만드는 거죠. 그래서 실제 작업 환경에 맞는 스킬이 나옵니다.

스킬 메모리가 특이하다는데, 어떻게 다른 건가요?

MUSE는 3단계 메모리 구조를 씁니다. 단기 메모리(현재 태스크 컨텍스트), 장기 메모리(세션 간 지식), 그리고 스킬 레벨 메모리입니다. 이 스킬 레벨 메모리가 차별점인데, 각 스킬마다 그 스킬이 어떤 태스크에서 쓰였는지, 성공했는지 실패했는지, 어떤 수정이 있었는지를 축적합니다. 비유하자면, 요리법에 “전에 소금을 반 숟가락 줄이니까 더 나았어” 같은 메모가 계속 붙는 거죠. 다음에 그 스킬을 호출할 때 이 경험이 참조됩니다.

평가와 정제는 어떻게 이루어지나요?

스킬이 생성되면 자동으로 유닛 테스트가 작성됩니다. 그리고 실제 실행 피드백도 수집합니다. 테스트가 실패하면 자동으로 정제(refinement) 단계가 트리거되어 스킬이 수정됩니다. 한 번 만들고 끝이 아니라, 계속해서 검증되고 개선되는 구조입니다. 소프트웨어 엔지니어링에서 CI/CD 파이프라인이 코드를 관리하듯, MUSE는 스킬에 비슷한 생명주기 관리를 적용하는 셈입니다.

컨텍스트 관리도 개선했다고요?

네, 구조화된 컨텍스트 매니저를 도입했습니다. 적응형 압축(adaptive compression)으로 긴 작업에서도 정보를 잃지 않고, 세션 간 상태 지속(cross-session state persistence)으로 이전 경험을 이어서 활용합니다. 컨텍스트 윈도우가 터지는 문제를 해결한 거죠.

스킬의 이식성은 어떤가요? 다른 에이전트에서도 쓸 수 있나요?

이게 정말 중요한 결과입니다. MUSE가 생성한 스킬을 완전히 다른 에이전트인 Hermes에 이식했더니, Hermes의 정확도가 69.8%에서 85.1%로 뛰었습니다. 인간 작성 스킬을 쓴 Hermes(69.8%)보다 AI가 만든 스킬이 15.3%p나 더 좋은 성과를 낸 겁니다. 이건 MUSE의 스킬이 특정 에이전트에 종속된 동작이 아니라, 외부화된 지식 자산으로서 작동한다는 뜻입니다.

MUSE가 자체 궤적에서 성공적으로 스킬을 생성한 35개 태스크에서는 정확도가 **87.94%**에 달했습니다. 인간 스킬의 한계를 넘어선 수치죠.

SkillsBench가 뭔가요?

이 논문에서 사용한 벤치마크입니다. 51개의 실제 태스크로 구성되어 있고, 과학·엔지니어링, 데이터 분석, 문서 처리, 운영·기획이라는 네 개 슈퍼 도메인에 걸쳐 있습니다. 표준화된 Docker 환경에서 자동 검증기(verifier)가 채점합니다. SWE-bench, GAIA 같은 기존 벤치마크와 달리 스킬 기반 에이전트를 직접 평가하도록 설계된 게 특징입니다.

핵심 시사점

스킬은 정적 파일이 아니라 생명주기 객체다. 이 관점 전환이 MUSE의 가장 큰 기여입니다. 만들고, 기억하고, 관리하고, 테스트하고, 고치는 라이프사이클을 통합함으로써 스킬은 단발성 산출물이 아니라 지속적으로 진화하는 자산이 됩니다.

AI가 만든 스킬이 인간 스킬을 능가한다. Hermes 실험에서 명확히 입증되었습니다. 인간이 작성한 스킬(69.8%)보다 MUSE가 생성한 스킬(85.1%)이 더 효과적이고, 토큰도 84K 절약하고 지연도 113초 줄였습니다. 자동화된 스킬 생성이 실용적 대안을 넘어 더 나은 선택지가 될 수 있다는 증거입니다.

스킬은 이식 가능하다. 한 에이전트가 만든 스킬을 다른 에이전트에 이식해도 성능이 유지됩니다. 이건 스킬 생태계의 가능성을 엽니다. 스킬 마켓플레이스, 조직 간 스킬 공유, 에이전트 간 협업 같은 방향으로 확장할 수 있는 기반이 마련된 셈입니다.

물론 한계도 있습니다. 51개 태스크라는 비교적 작은 벤치마크에서의 결과이고, GPT-5.5라는 특정 모델에 의존한 실험입니다. 다양한 모델, 더 넓은 도메인, 더 긴 시간尺度에서의 검증이 필요합니다. 하지만 “스킬에 생명주기를 부여한다”는 개념적 기여는 분명히 설득력 있습니다.

참고

논문: MUSE-Autoskill: Self-Evolving Agents via Skill Creation, Memory, Management, and Evaluation
HuggingFace: papers/2605.27366
소속: ByteDance Inc., Rochester Institute of Technology

코난쌤 블로그

탐색기