GPT-5.5도 절반밖에 못 푸는 한국어 벤치마크: K-BrowseComp

GPT-5.5가 한국어 웹 검색 문제 300개를 풀었더니 **45.67%**만 맞췄다. 영어 벤치마크에선 84.4%였는데. 한국 자체 개발 LLM은? **0~10%**다. 중앙대·KAIST·서울대·카네기멜론 연합팀이 만든 K-BrowseComp는 “최고급 AI가 한국어 웹을 얼마나 못 쓰는지”를 적나라하게 보여주는 벤치마크다.

영어에선 천재, 한국어에선 평범한 검색 초보

K-BrowseComp는 웹 브라우징 에이전트 벤치마크다. AI에게 한국 웹에서 정보를 찾아 답하라고 시키는 거다. 단순한 한국어 번역이 아니다. 한국의 검색 관행, 지역 엔티티, 한국 웹사이트의 반구조적 페이지, 문화적으로 뿌리내린 단서를 활용해야 풀 수 있는 문제들이다.

결과가 충격적이다. 영어 BrowseComp에서 84.4%를 기록한 GPT-5.5가 K-BrowseComp에선 **45.67%**로 반토막 났다. DeepSeek-V4-Pro는 83.4% → 30.00%. 한국 정부 ‘자체 AI 기초모델 사업’ 1차로 공개된 한국 LLM들은 **0.00~10.33%**에 그쳤다.

프론티어 모델의 한국어 웹 검색 능력이 영어 대비 절반 이하로 떨어진다. 한국 모델은 사실상 작동하지 않는다.

이건 “한국어 번역이 안 돼서”가 아니다. 한국어는 잘 읽는데 한국 웹을 검색하고 탐색하는 전략이 없는 거다.

문제가 단순한 “검색”이 아닌 이유

K-BrowseComp의 문제는 구글에 몇 글자 치면 나오는 수준이 아니다. 두 가지 탐색 패턴이 섞여 있다.

병렬 분기(Parallel-branching): 여러 웹사이트에서 정보를 모아 교차 검증해야 하는 문제. “2023년 서울에서 열린 A 페스티벌의 총 관람객 수와, 같은 해 부산 B 페스티벌의 관람객 수를 비교했을 때 차이는?” 같은 식이다. 한 번에 한 사이트만 보면 안 된다.

다중 홉 추론(Multi-hop reasoning): A 사이트에서 찾은 정보를 바탕으로 B 사이트를 검색하고, 거기서 얻은 단서로 C 사이트를 찾아가는 식의 연쇄 탐색. “영화 X의 감독이 졸업한 대학의 교비 중 가장 최근 설립된 동아리는?” 같은 문제다.

연구진은 모델들의 실패 궤적을 한땀한땀 분석해서 9가지 실패 모드를 분류했다. 검색을 너무 일찍 포기하는 모델, 도구 호출 궤적이 불안정한 모델, 관련 증거는 찾았지만 후보를 유지하지 못하는 모델—문제가 하나가 아니라 여러 군데서 동시에 터진다. 이 분류 작업만 해도 상당한 공이 들어갔을 것이다. 300문제 × 다수 모델 × 멀티턴 궤적을 전부 열어보면서 실패 패턴을 수작업으로 분류했으니까.

400문제 중 100개는 AI가 만들었다

이 논문의 재미있는 포인트 중 하나는 합성 문제 생성이다. 브라우징 과제의 특성상 푸는 건 어렵지만, 정답을 확인하는 건 비교적 쉽다는 비대칭성이 있다. 연구진은 여기서 한 발 더 나아간 질문을 던진다.

“푸는 것도 어려운데, 만드는 것도 어려운가?”

Claude Code(opus-4.7)를 프론퍼저로 사용해서 문제를 만들게 했다. 그냥 시키니까 너무 쉽거나 애매한 문제만 나왔다. 그런데 두 가지 전략을 추가하니까 이야기가 달라졌다:

Hard few-shot exemplars: 인간이 만든 어려운 문제를 예시로 제공
Failure-mode-targeted generation: 모델들이 어떻게 실패하는지 분류해놓고, 그 실패 유형을 노리는 문제를 생성

이렇게 만들어진 100개의 합성 문제에서 최강 모델도 **26%**밖에 못 풀었다. K-BrowseComp-Verified의 45.67%보다 훨씬 낮다.

AI가 만든 문제가 인간이 만든 문제보다 더 어렵다 — 아이러니하면서도 시사하는 바가 크다.

왜 이 벤치마크가 필요한가

두 가지 이유가 있다.

첫째, 한국의 AI 주권 문제. 한국어 사용 인구와 언어적 특성 때문에 한국은 구조적으로 불리한 위치에 있다. 한국어 로컬·문화 지식이 필요한 질문에서 해외 모델에 의존할 수밖에 없다는 건, 디지털 자본주의에서 정보 접근의 주권 문제와 직결된다.

둘째, 프론티어 모델 평가의 새로운 시험대. 기존 벤치마크는 포화 상태에 가깝다. 상위 모델들 점수가 비슷비슷해서 구분이 안 된다. 언어적으로나 문화적으로나 확실히 다른 컨텍스트에서 에이전트 능력을 테스트하면, 일반화 능력을 제대로 평가할 수 있다.

K-BrowseComp는 두 가지 목적을 동시에 충족시키는 설계다. 한국 AI 생태계에겐 개발 목표를 주고, 글로벌 연구 커뮤니티에겐 새로운 스트레스 테스트를 제공한다.

한국 LLM, 0~10%의 의미

한국 정부의 ‘자체 AI 기초모델 사업’ 1차로 나온 모델들의 성적이 **0~10.33%**다. 이 숫자를 어떻게 읽어야 할까.

연구진의 궤적 분석에 따르면, 이 성적은 단순히 “모델이 멍청해서”가 아니다. 한국어는 잘하지만 웹을 탐색하는 에이전트로서의 능력이 없는 거다. 검색 쿼리를 잘못 짜고, 여러 페이지를 오가며 정보를 종합하지 못하고, 중간에 포기한다.

이건 한국 모델만의 문제가 아니다. GPT-5.5도 비슷한 패턴을 보인다. 다만 기본 능력이 높아서 “덜 실패”할 뿐이다. 한국 LLM은 기본 능력 + 에이전트 능력 모두에서 부족한 상태.

데이터와 코드는 공개

K-BrowseComp의 데이터와 코드는 GitHub에 공개되어 있다: github.com/prometheus-eval/K-BrowseComp

400문제 전체와 평가 코드, 모델별 궤적 분석이 포함되어 있다. 한국어 에이전트 개발에 관심 있는 사람이라면 당장 활용할 수 있다.

그래서 시사하는 것

K-BrowseComp가 보여주는 건 단순한 “한국어 점수가 낮다”가 아니다. 프론티어 AI의 일반화 한계이자, 로컬 컨텍스트에서의 에이전트 능력이 아직 갈 길이 멀다는 신호다.

영어에서 80%대를 찍는 모델이 한국어 웹에서 절반밖에 못 푼다는 건, “AI가 똑똑해졌다”는 평가 자체가 영어 중심의 좁은 기준에서 나온 것일 수 있다는 의미다. 그리고 한국 모델이 0~10%라는 건, 한국 AI 생태계가 정적 벤치마크에서 벗어나 에이전트 중심 평가로 전환해야 할 시점에 왔다는 방점이다.

이 벤치마크가 한국어 AI 에이전트 개발의 출발점이 될지, 아니면 또 하나의 방치된 벤치마크가 될지는 이제 생태계가 어떻게 받아들이느냐에 달려 있다.

코난쌤 블로그

탐색기