미디어 생성 및 이해
OpenClaw는 이미지, 비디오, 음악을 생성하고, 인바운드 미디어(이미지, 오디오, 비디오)를 이해하며, 텍스트 음성 변환으로 답변을 큰 소리로 읽습니다. 모든 미디어 기능은 도구 기반입니다: 에이전트가 대화에 따라 사용할 시기를 결정하며, 각 도구는 최소 하나의 백업 프로바이더가 설정된 경우에만 나타납니다.
기능 한눈에 보기
| 기능 | 도구 | 프로바이더 | 수행 내용 |
|---|---|---|---|
| 이미지 생성 | image_generate | ComfyUI, fal, Google, MiniMax, OpenAI, Vydra | 텍스트 프롬프트나 참조에서 이미지 생성 또는 편집 |
| 비디오 생성 | video_generate | Alibaba, BytePlus, ComfyUI, fal, Google, MiniMax, OpenAI, Qwen, Runway, Together, Vydra, xAI | 텍스트, 이미지, 또는 기존 비디오에서 비디오 생성 |
| 음악 생성 | music_generate | ComfyUI, Google, MiniMax | 텍스트 프롬프트에서 음악 또는 오디오 트랙 생성 |
| 텍스트 음성 변환 (TTS) | tts | ElevenLabs, Microsoft, MiniMax, OpenAI | 아웃바운드 답변을 음성 오디오로 변환 |
| 미디어 이해 | (자동) | 비전/오디오 지원 모델 프로바이더, CLI 폴백 포함 | 인바운드 이미지, 오디오, 비디오 요약 |
프로바이더 기능 매트릭스
이 표는 플랫폼 전반에서 어떤 프로바이더가 어떤 미디어 기능을 지원하는지 보여줍니다.
| 프로바이더 | 이미지 | 비디오 | 음악 | TTS | STT / 전사 | 미디어 이해 |
|---|---|---|---|---|---|---|
| Alibaba | Yes | |||||
| BytePlus | Yes | |||||
| ComfyUI | Yes | Yes | Yes | |||
| Deepgram | Yes | |||||
| ElevenLabs | Yes | |||||
| fal | Yes | Yes | ||||
| Yes | Yes | Yes | Yes | |||
| Microsoft | Yes | |||||
| MiniMax | Yes | Yes | Yes | Yes | ||
| OpenAI | Yes | Yes | Yes | Yes | Yes | |
| Qwen | Yes | |||||
| Runway | Yes | |||||
| Together | Yes | |||||
| Vydra | Yes | Yes | ||||
| xAI | Yes |
NOTE
미디어 이해는 프로바이더 설정에 등록된 비전 또는 오디오 지원 모델을 사용합니다. 위 표는 전용 미디어 이해 지원이 있는 프로바이더를 강조합니다; 멀티모달 모델(Anthropic, Google, OpenAI 등)이 있는 대부분의 LLM 프로바이더도 활성 답변 모델로 설정된 경우 인바운드 미디어를 이해할 수 있습니다.
비동기 생성 작동 방식
비디오 및 음악 생성은 프로바이더 처리가 일반적으로 30초에서 몇 분 걸리기 때문에 백그라운드 태스크로 실행됩니다. 에이전트가 video_generate 또는 music_generate를 호출하면 OpenClaw는 프로바이더에 요청을 제출하고, 즉시 태스크 ID를 반환하며, 태스크 원장에서 작업을 추적합니다. 에이전트는 작업이 실행되는 동안 다른 메시지에 계속 응답합니다. 프로바이더가 완료되면 OpenClaw가 에이전트를 깨워 완성된 미디어를 원래 채널에 다시 게시할 수 있습니다. 이미지 생성 및 TTS는 동기적이며 답변과 함께 인라인으로 완료됩니다.