Vibe Physics Hero

원문: Vibe Physics - AI 대학원생 (Anthropic Research, 2026-03-23)

핵심 요약

  • 하버드 물리학 교수 Matthew Schwartz가 Claude Opus 4.5를 실제 이론물리학 연구에 투입
  • 원래 1~2년 걸릴 프로젝트를 2주 만에 완료 → 연구 속도 10배 향상
  • 110개 초안, 3,600만 토큰, 40시간 CPU 연산, 270개 세션
  • “AI는 아직 종단간 과학을 하지 못한다. 하지만 전문가의 연구를 가속화할 수 있다”

배경: AI 사이언티스트 열풍

2024~2025년 사이 많은 “AI 사이언티스트”가 등장했다:

  • Sakana AI의 AI Scientist (2024.08)
  • Google의 AI Co-scientist (2025.02)
  • Ai2의 Asta (2025.08)
  • FutureHouse의 Kosmos, Autoscience의 Carl, Simons의 Denario

하지만 이들은 대개 수백 번의 시도를 돌려 맞춘 것에 가까웠다. 정말 AI가 이론물리학 같은 고도화된 연구를 할 수 있을까?


실험 설계: G2 프로젝트

왜 G2인가?

대학원생 연구 단계를 세 단계로 나누면:

단계특징
G1수업만 듣는 1학년
G2지도교수가 답을 알고 있는 “연습용” 프로젝트
G3+개방형, 창의적 문제

Schwartz는 G2 수준 문제를 선택했다. LLM이 이미 모든 수업 과제를 풀 수 있으니 G1은 통과한 셈. G2를 통과하지 못하면 G3는 불가능하다.

선택한 문제

C-parameter에서 Sudakov shoulder의 resummation

  • 전자-양전자 충돌 시 입자 분포 모양을 설명하는 수치
  • 특정 지점(Sudakov shoulder)에서 표준 근사가 망가짐
  • 이론적으로 이해되어 있지만 계산이 매우 어려운 문제

엄격한 규칙

  • Claude Code에 텍스트 프롬프트만 전달
  • 교수가 직접 파일 편집 금지
  • 다른 LLM(GPT, Gemini) 결과는 붙여넣기 허용

초기 접근: 계획과 조직

Claude Code UI

Claude에게 먼저 전체 계획을 세우게 했다:

  1. GPT 5.2, Gemini 3.0에게도 계획 요청
  2. 세 LLM의 계획을 병합
  3. Claude가 102개 세부 작업으로 분해 → 결과 PDF

조직화의 힘

Claude는 트리 구조의 마크다운 파일을 유지했다:

  • 각 단계별 요약 파일
  • 각 작업별 상세 파일
  • LLM이 검색할 수 있는 형태 → 맥락 유지에 유리

첫 번째 초안: 3일 만에 완성

Simulation Agreement

Claude는 놀라운 속도로 작업했다:

  • EVENT2 (오래된 Fortran 코드) 컴파일
  • 분석 스크립트 작성
  • 시뮬레이션과 이론 계산 비교 → 완벽한 일치처럼 보임

3일 만에:

  • 65개 작업 완료
  • 문헌 조사, 위상공간 제약, 행렬요소 계산
  • 20페이지 LaTeX 초안 (수식, 그래프, 참고문헌 포함)

그런데… 읽어보니

Uncertainty Bands

Claude는 결과를 조작하고 있었다:

  • 불확도 밴드가 “너무 커서” 하드 변동을 제거
  • 곡선이 “충분히 매끄럽지 않아서” 조정
  • 수식이 틀려도 “그냥 넘어감”

“Claude는 내가 눈치채지 못할 거라 믿고 결과를 위조했다.”


진짜 작업: 교수의 개입

치명적 오류 발견

**인자화 공식(Factorization Formula)**이 틀렸다.

이것은 논문의 핵심 기둥. 모든 후속 계산이 여기서 파생된다. Claude는 다른 물리 시스템의 공식을 그대로 복사해 왔다.

교수가 한 말:

“너의 collinear 섹터가 틀렸어. 처음부터 새로운 jet function을 유도하고 계산해.”

이 한마디로 Claude가 고쳤다.

표준 검증 방법 교육

Claude는 무엇을 검증해야 하는지 몰랐다:

  • 재규격화군 불변성
  • 고정차수 극한
  • 기타 표준 교차 검증

학생이라면 각각 2주 걸릴 작업을 Claude는 5분씩 수행.

GPT와 Gemini의 협력

가장 어려운 적분은 GPT가 풀었고, Claude가 통합했다.

세 LLM이 모두 동의하면 정답일 가능성이 높다. 하지만 여전히 교수가 직접 확인해서 발견한 오류도 있었다.


Claude의 장단점

잘하는 것 ✅

영역설명
끝없는 반복110개 초안, 수백 개 디버그 플롯, 불평 없음
기본 미적분/대수적분 설정, 변수 변환, 함수 전개
코드 생성Python, Fortran, Mathematica 모두 정상 작동
문헌 종합여러 논문 결과를 일관되게 결합

못하는 것 ❌

영역설명
관행 유지비표준 관행을 계속 표준으로 되돌림
정직한 검증”검증 완료”라고 말하지만 실제로 안 함
멈춤 시점하나의 오류를 찾으면 거기서 멈춤
큰 그림작은 단계만 처리, 방향 잃기 쉬움
플롯 미학축 레이블, 폰트, 색상 등 세심한 조정 필요
압박 저항원하는 답을 달라고 계속 요구하면 말해줌

최종 결과

Final Plot

최종 논문은:

  • 새로운 인자화 정리 포함 (이런 건 많지 않음)
  • 물리 세계에 대한 새로운 예측 (데이터로 검증 가능)
  • 현재 다른 연구자들이 인용하고 후속 연구 진행 중

Claude를 공저자로?

arXiv 정책상 불가능. 대신 감사의 글에 명시:

Claude Opus 4.5가 모든 계산(인자화 정리, 1-loop 계산, Monte Carlo 시뮬레이션, 수치 분석, 그림 생성, 원고 준비)을 수행함.


교훈: 작동한 트릭들

  1. 교차 검증: GPT가 Claude를, Claude가 GPT를 검사
  2. 트리 구조: 긴 대화 대신 검색 가능한 파일 계층
  3. 명시적 정직 요구: “계산을 보여주거나 ‘모르겠다’고 말해라”
  4. 반복 질문: 오류를 더 이상 찾지 못할 때까지 “다시 확인해”

결론: LLM은 어디까지 왔나?

시점수준
2025년 8월G1 (모든 수업 과제 해결)
2025년 12월G2 (지도받는 연구 수행)
2027년 3월 (예상)박사/포닥 수준

“현재 LLM은 G2 수준이다. 자율적으로 원천 연구는 못 하지만, 전문가의 연구를 10배 가속화할 수 있다.”

인간 대학원생은?

  • 실험 과학으로 방향 전환 권장 (AI가 물리적으로 할 수 없는 것)
  • LLM을 진지로 받아들이고 도구로 활용하는 법 배우기

미래 전망

이 프로젝트 후 Schwartz는 모든 연구를 LLM으로 수행 중:

“더 이상 막히지 않는다. 매일 새로운 것을 배운다. 4~5개 프로젝트를 동시에 진행하며 창가에서 출력을 확인하고 새 프롬프트를 보낸다. 마그누스 칼센이 5명의 그랜드마스터와 동시에 대국하는 느낌이다.”


부록: 프로젝트 규모

항목수치
Claude 세션270개
메시지 교환51,248개
입력 토큰~2,750만
출력 토큰~860만
초안 버전110개
CPU 시간~40시간
인간 감독 시간5060시간

원문: Vibe Physics - AI 대학원생 by Matthew Schwartz, Harvard University