当你在景点打开豆包视频通话,镜头对准金代彩塑,问出“哪几尊塑像最值得细细端详”时,豆包会先“看到”彩塑,再“听懂”问题,然后“思考”并给出答案——这一过程背后,视频云的角色正在发生根本性变化。在 2026 火山引擎 FORCE 原动力大会智能视频云论坛上,火山引擎视频与边缘负责人王悦提出,Agent 时代的视频云需要从“音视频云服务能力”进化为“连接人与 Agent 的新型智能音视频能力底座”,并正式发布了 Agentic VCloud 方案。

过去十年,视频云的核心任务是让音视频以更高画质、更低延迟、更强并发、更优成本的方式服务人类用户。火山引擎视频云依托“抖音同款能力”,为数亿用户提供了流畅稳定的视听体验。然而,随着 2023 年大模型兴起,音视频从仅供人观看的内容,变成了 AI 感知世界的媒介;到 2026 年上半年,行业跑步进入 Agent 时代,音视频进一步进化为 AI 与人实现意图对齐、输出任务成果的媒介。视频云的服务对象也从人扩展到了人和 Agent。
IDC 数据显示,2025 年上半年,AI 驱动的“音视频 AI 实时互动与智能媒体生产”细分市场已达 4000 万美元量级,同比实现大三位数增长。这一增量主要来自 AI 应用对实时音视频交互、智能媒体生产和任务交付能力的持续需求。王悦指出,视频云需要面向 Agent 时代完成自我重构:在继续服务好人的同时,满足 Agent 提出的新需求。





