The AI Scientist Workflow

원문: Towards end-to-end automation of AI research (Nature, Vol 651, 26 March 2026)

저자: Chris Lu, Cong Lu, Robert Tjarko Lange, Yutaro Yamada, Shengran Hu, Jakob Foerster, David Ha, Jeff Clune (Sakana AI, Oxford, UBC, Vector Institute)

핵심 요약

  • The AI Scientist = 연구 아이디어 생성 → 실험 → 논문 작성 → 동료 평가까지 종단간 자동화
  • 최초 성과: AI가 작성한 논문이 ICLR 2025 워크샵 동료 평가 통과 (평점 6.33/10)
  • 두 가지 모드: Template-based (인간 제공 코드 기반) vs Template-free (완전 자율)
  • Automated Reviewer: 실제 컨퍼런스 수락 결정을 인간 수준으로 예측

배경: 과학 자동화의 오랜 꿈

AI의 역사에서 과학의 자동화는 오랜 목표였다.

LLM 이전 (좁은 작업)

  • 화학 구조 발견 (DENDRAL, 1977)
  • 수학적 증명 발견
  • 새로운 재료 발견
  • 단백질 3D 구조 예측 (AlphaFold)

LLM 시대 (더 넓은 작업)

  • 새로운 가설 생성
  • 문헌 리뷰 작성
  • 실험 코드 작성

하지만 전체 연구 수명 주기를 자율적으로 수행하는 시스템은 없었다 → The AI Scientist가 처음 달성


The AI Scientist 워크플로우

4단계 파이프라인

단계작업
1. Ideation연구 아이디어 생성, 문헌 검색, 참신성 필터링
2. Experimentation실험 계획, 코드 작성, 실행, 결과 분석
3. Write-upLaTeX 논문 작성, 관련 연구, 시각화
4. Review자동 동료 평가, 점수 부여, 수락/거부 결정

두 가지 모드

1. Template-based (템플릿 기반)

인간 제공 코드 템플릿 → 아이디어 생성 → 선형 실험 → 논문 작성
  • 인기 있는 알고리즘의 학습 실행을 재현하는 코드 제공
  • Aider(오픈소스 코딩 어시스턴트)로 코드 수정
  • 선형적으로 실험 진행

2. Template-free (템플릿 없음)

자율 아이디어 생성 → 트리 탐색 실험 → 논문 작성
  • 완전 자율: 초기 코드도 직접 작성
  • 트리 탐색: 더 많은 테스트-타임 컴퓨팅 활용
  • 4단계 실험 관리:
    1. Preliminary Investigation (타당성 조사)
    2. Hyperparameter Tuning (하이퍼파라미터 튜닝)
    3. Research Agenda Execution (본 연구 수행)
    4. Ablation Studies (애블레이션 연구)

Automated Reviewer: 자동 논문 평가

성능 비교

평가자Balanced AccuracyF1 ScoreAUC
Human (NeurIPS)0.660.490.65
Automated Reviewer0.69 ± 0.040.62 ± 0.090.69 ± 0.09

결론: Automated Reviewer는 인간 리뷰어와 동등하거나 더 나은 성능

평가 항목

  • Soundness (건전성)
  • Presentation (발표)
  • Contribution (기여)
  • Overall Quality (전체 품질)
  • Reviewer Confidence (신뢰도)

실제 동료 평가 통과: ICLR 2025 워크샵

Accepted Paper

실험 설계

  • 대상: ICLR 2025 ICBINB Workshop (수락률 70%)
  • 제출: 3편의 AI 생성 논문
  • 절차: ICLR 리더십, 워크샵 주최자, IRB 승인 하에 진행
  • 공정성: 리뷰어들은 AI 생성 논문이 포함되어 있다는 것만 알고, 어떤 것인지는 모름

결과

논문평점결과
논문 16, 7, 6 (평균 6.33)수락 기준 통과
논문 2미달❌ 거부
논문 3미달❌ 거부

주요 점:

  • 수락된 논문은 네거티브 결과(negative result) 보고 → 워크샵 주제와 일치
  • 모든 과정(아이디어→실험→작성)에 인간 수정 없음
  • 사전 약속대로 AI 생성 논문은 모두 철회

트리 탐색 실험 구조

Tree Search

Template-free 모드의 핵심

        [Root Node]
           ↓
    [Preliminary Investigation]
    ↓         ↓         ↓
  Buggy     Working   Best
    ↓         ↓
[Tuning]  [Tuning]
    ↓         ↓
[Research Agenda Execution]
    ↓         ↓
[Ablation Studies]

특징

  • 노드당 최대 1시간 실험 런타임
  • 단계별 프루닝: 각 단계 끝에서 가장 유망한 노드만 선택
  • 실험 저널: 각 실험 후 자동으로 노트 작성

모델 스케일링 효과

논문 품질 vs 모델 출시일

모델출시일상대적 품질
GPT-42023.03낮음
Gemini-1.52024.02중간
Sonnet-3.52024.06중간
GPT-4o2024.05중간
o12024.12높음
Sonnet-3.72025.02높음
Gemini-2.52025.03높음
o32025가장 높음

상관관계: R² = 0.517, P < 0.00001

기본 모델이 계속 개선되면 시스템도 자동으로 좋아진다


컴퓨팅 스케일링 효과

실험 노드 수Automated Reviewer 점수
5~3.3
10~3.5
15~3.6
20~3.7
30~3.9

더 많은 테스트-타임 컴퓨팅 = 더 나은 논문 품질


한계와 실패 모드

현재 한계

문제설명
일관성 부족3편 중 1편만 통과
워크샵 수준메인 컨퍼런스 기준 미달 (ICLR 메인 수락률 32%)
단순한 아이디어순진하거나 미성숙한 아이디어 생성
구현 오류핵심 아이디어를 잘못 구현
할루시네이션잘못된 인용, 부정확한 설명

일반적 실패 패턴

  1. 깊은 방법론적 엄밀성 부족
  2. 실험 구현 오류
  3. 본문과 부록에 중복 그림
  4. 부정확한 인용

윤리적 우려와 책임

잠재적 위험

위험설명
리뷰 시스템 과부하大量 논문으로 인한 혼란
연구 자격 인플레이션가짜 연구 실적
표절/아이디어 도용타인 아이디어 무단 사용
일자리 위협과학자 일자리 감소 가능성
위험한 실험통제되지 않은 실험 수행

연구팀의 책임 있는 접근

  • ✅ ICLR 리더십, 워크샵 주최자, IRB 명시적 승인
  • 모든 AI 생성 논문은 결과와 무관하게 철회 (사전 약속)
  • ✅ 공개 논의와 표준 수립 촉구

미래 전망

단기 개선 가능성

  • AI가 신뢰할 수 있게 완료할 수 있는 작업 길이가 7개월마다 2배 증가
  • 현재 구현/디버깅 병목은 조만간 해결될 가능성

장기 과제

  • AI의 창의적 아이디어 능력 검증 필요
  • 할루시네이션, 과신 등 근본적 약점 해결 필요

확장 가능성

  • 현재: 계산 실험만 (머신러닝)
  • 미래: 자동화 실험실 (화학, 생물학 등)로 확장

결론: 과학 발견의 새로운 시대

“AI가 작성한 논문이 1티어 ML 컨퍼런스 동료 평가를 통과한 것은 수세기에 걸친 과학적 노력의 이정표다.”

의의

  1. AI의 과학적 추론 능력 입증
  2. 발견 과정이 더 이상 인간만의 영역이 아님
  3. 과학 발견의 속도가 극적으로 가속화될 가능성

남은 과제

  • 메인 컨퍼런스 수준 품질 달성
  • 일관성 확보
  • 윤리적 표준 수립

기술적 세부사항

사용 모델 (Template-free)

작업모델
아이디어 생성OpenAI o3
코드 비평OpenAI o3
코드 생성Claude Sonnet 4
비전-언어 작업GPT-4o
비용 효율적 추론o4-mini

도구

  • Aider: 오픈소스 코딩 어시스턴트 (template-based)
  • Semantic Scholar API: 문헌 검색
  • LaTeX: 논문 작성

원문: Towards end-to-end automation of AI research

프로젝트 페이지: The AI Scientist

게재: Nature, Vol 651, 26 March 2026