코난쌤 블로그

홈 전체 글 카테고리 소개 연락처 개인정보처리방침

태그: benchmark

21건의 항목

2026년 7월 25일
Claude Opus 5 인터뷰: 반값 Fable인가, 매일 쓰는 에이전트 모델인가
2026년 7월 25일
Claude Opus 5 시스템카드 심층 분석 — 194페이지 안에 숨겨진 숫자들
2026년 7월 24일
텐센트 WorkBuddy Bench: 코딩 에이전트가 현실 세계에서 대체 뭘 할 수 있는가 — 4개 도메인 260태스크의 냉정한 측정
2026년 7월 23일
Relay-Bench: GPT-5.5가 43%에 머문다 — 도메인 간 추론 체인이 드러내는 LLM의 진짜 한계
2026년 7월 20일
Long-Horizon-Terminal-Bench: AI 에이전트가 수십억 토큰을 써도 못 끝내는 작업의 세계
2026년 7월 19일
OmniaBench: 범용 AI 에이전트의 진짜 한계를 측정하다
2026년 7월 19일
AgentCompass: LLM 에이전트 평가 인프라의 표준화
2026년 7월 17일
LLM 계획 능력은 하나가 아니다 — 조작적 추론과 구조적 열거의 비대칭적 스케일링
2026년 7월 13일
리더보드 너머: LLM 에이전트의 6대 실패 클러스터 — 도구·계획·추론 실패 종합 분석
2026년 7월 04일
GPT-5.5가 정책 코드를 진화시킨다 — EvoPolicyGym 리서치
2026년 6월 23일
GateMem: 에이전트 메모리는 ‘잘 기억’보다 ‘누가 봐도 되는가’가 문제다
2026년 6월 16일
Agents' Last Exam: AI 에이전트, 전문가의 실제 업무를 통과할 수 있는가
2026년 6월 14일
WebChallenger: 오픈 모델로 프론티어 웹 에이전트에 도전하는 PageMem 아키텍처
2026년 6월 13일
DeNovoSWE: 문서에서 전체 저장소를 생성하는 LLM 에이전트의 장기 추론 훈련
2026년 6월 08일
AI가 스스로를 만들기 시작했다 — Anthropic이 공개한 재귀적 자기개선의 현재와 미래
2026년 6월 07일
ForeSci: LLM 에이전트의 전망적 연구 판단 능력 평가 벤치마크
2026년 6월 03일
공간 기반 모델 41개 싹 다 테스트해봤습니다 — SpatialBench가 밝혀낸 충격적 현실
2026년 5월 29일
MemTrace: LLM 메모리 시스템의 에러를 추적하고 원인을 규명하는 방법
2026년 4월 24일
DeepSeek-V4-Pro / Flash 공개 정리: 100만 토큰 컨텍스트와 벤치마크 결과
2026년 3월 31일
Agentic Evaluations Workshop 핵심 정리 — 에이전트 평가의 다음 과제
2026년 3월 30일
FinMCP-Bench: MCP 기반 금융 에이전트 벤치마크가 중요한 이유

Created with Quartz v4.5.2 © 2026

소개
연락처
개인정보처리방침
전체 글