코난쌤 블로그

홈 전체 글 카테고리 소개 연락처 개인정보처리방침

태그: reinforcement-learning

17건의 항목

2026년 7월 25일
OpenForge RL: 어떤 하네스든 어떤 환경이든 끝까지 훈련한다 — 하네스 네이티브 에이전트 RL의 오픈 인프라
2026년 7월 25일
PATS: 에이전트 RL에서 스킬을 자산이 아니라 '비계'로 취급하다
2026년 7월 24일
JANUS: 에이전트가 위험해지기 전에 미리 본다 — 긴 호라이즌 에이전트 안전을 위한 예측형 가드레일
2026년 7월 23일
GEAR: LLM이 긴 컨텍스트에서 '복사 붙여넣기'에 빠질 때 — 증거 기반 RL로 탈출시키는 법
2026년 7월 19일
GRASP: 강화학습으로 에이전트 RAG의 검색 도구를 자유자재로 다루게 만드는 방법
2026년 7월 17일
UniVR: 텍스트 없이 시각 공간에서 직접 추론하는 AI - Visual Reasoning GRPO의 등장
2026년 7월 11일
GLM-5.2를 만든 비동기 강화학습 — SAO(Single-Rollout Asynchronous Optimization) 완전 해부
2026년 7월 04일
GPT-5.5가 정책 코드를 진화시킨다 — EvoPolicyGym 리서치
2026년 6월 03일
스마트폰을 조작하는 AI… 평가 환경이 병목이었습니다 — MobileGym 해법
2026년 5월 29일
AI가 도구를 쓰는 법을 배우지 못하는 이유, NVIDIA가 찾은 해법
2026년 5월 28일
에이전트 RL 최적화: 언제 도구를 쓰고, 언제 스킬로 남길까
2026년 5월 28일
모바일Gym: 모바일 GUI 에이전트를 위한 검증 가능한 초경량 시뮬레이션
2026년 5월 27일
에이전트 RL 3총사: 환경을 만들고, 터미널을 읽고, 리서치를 합성하는 법
2026년 5월 27일
LLM 에이전트를 위한 RL 환경 설계: 에이전트 용어사전과 환경 분류학
2026년 5월 27일
SEAL — 에이전트가 배우면 환경도 함께 진화해야 한다
2026년 5월 25일
포켓몬 레드를 RL로 클리어하기 — PokeRL 아키텍처부터 실전 실행까지
2026년 5월 09일
SkillOS: 스트리밍 태스크에서 스스로 진화하는 에이전트를 위한 스킬 큐레이션 학습

Created with Quartz v4.5.2 © 2026

소개
연락처
개인정보처리방침
전체 글