미디어 생성 및 이해

OpenClaw는 이미지, 비디오, 음악을 생성하고, 인바운드 미디어(이미지, 오디오, 비디오)를 이해하며, 텍스트 음성 변환으로 답변을 큰 소리로 읽습니다. 모든 미디어 기능은 도구 기반입니다: 에이전트가 대화에 따라 사용할 시기를 결정하며, 각 도구는 최소 하나의 백업 프로바이더가 설정된 경우에만 나타납니다.

기능 한눈에 보기

기능	도구	프로바이더	수행 내용
이미지 생성	`image_generate`	ComfyUI, fal, Google, MiniMax, OpenAI, Vydra	텍스트 프롬프트나 참조에서 이미지 생성 또는 편집
비디오 생성	`video_generate`	Alibaba, BytePlus, ComfyUI, fal, Google, MiniMax, OpenAI, Qwen, Runway, Together, Vydra, xAI	텍스트, 이미지, 또는 기존 비디오에서 비디오 생성
음악 생성	`music_generate`	ComfyUI, Google, MiniMax	텍스트 프롬프트에서 음악 또는 오디오 트랙 생성
텍스트 음성 변환 (TTS)	`tts`	ElevenLabs, Microsoft, MiniMax, OpenAI	아웃바운드 답변을 음성 오디오로 변환
미디어 이해	(자동)	비전/오디오 지원 모델 프로바이더, CLI 폴백 포함	인바운드 이미지, 오디오, 비디오 요약

프로바이더 기능 매트릭스

이 표는 플랫폼 전반에서 어떤 프로바이더가 어떤 미디어 기능을 지원하는지 보여줍니다.

프로바이더	이미지	비디오	음악	TTS	STT / 전사	미디어 이해
Alibaba		Yes
BytePlus		Yes
ComfyUI	Yes	Yes	Yes
Deepgram					Yes
ElevenLabs				Yes
fal	Yes	Yes
Google	Yes	Yes	Yes			Yes
Microsoft				Yes
MiniMax	Yes	Yes	Yes	Yes
OpenAI	Yes	Yes		Yes	Yes	Yes
Qwen		Yes
Runway		Yes
Together		Yes
Vydra	Yes	Yes
xAI		Yes

NOTE

미디어 이해는 프로바이더 설정에 등록된 비전 또는 오디오 지원 모델을 사용합니다. 위 표는 전용 미디어 이해 지원이 있는 프로바이더를 강조합니다; 멀티모달 모델(Anthropic, Google, OpenAI 등)이 있는 대부분의 LLM 프로바이더도 활성 답변 모델로 설정된 경우 인바운드 미디어를 이해할 수 있습니다.

비동기 생성 작동 방식

비디오 및 음악 생성은 프로바이더 처리가 일반적으로 30초에서 몇 분 걸리기 때문에 백그라운드 태스크로 실행됩니다. 에이전트가 video_generate 또는 music_generate를 호출하면 OpenClaw는 프로바이더에 요청을 제출하고, 즉시 태스크 ID를 반환하며, 태스크 원장에서 작업을 추적합니다. 에이전트는 작업이 실행되는 동안 다른 메시지에 계속 응답합니다. 프로바이더가 완료되면 OpenClaw가 에이전트를 깨워 완성된 미디어를 원래 채널에 다시 게시할 수 있습니다. 이미지 생성 및 TTS는 동기적이며 답변과 함께 인라인으로 완료됩니다.

빠른 링크

이미지 생성 -- 이미지 생성 및 편집
비디오 생성 -- 텍스트-비디오, 이미지-비디오, 비디오-비디오
음악 생성 -- 음악 및 오디오 트랙 생성
텍스트 음성 변환 -- 답변을 음성 오디오로 변환
미디어 이해 -- 인바운드 이미지, 오디오, 비디오 이해

미디어 생성 및 이해 ​

기능 한눈에 보기 ​

프로바이더 기능 매트릭스 ​

비동기 생성 작동 방식 ​

빠른 링크 ​

미디어 생성 및 이해

기능 한눈에 보기

프로바이더 기능 매트릭스

비동기 생성 작동 방식

빠른 링크