AI大狗
已收录一千多项AI工具
返回资讯资讯详情
Agent 时代重构视频云:火山引擎发布 Agentic VCloud,让 AI 能看能听还能执行任务

Agent 时代重构视频云:火山引擎发布 Agentic VCloud,让 AI 能看能听还能执行任务

点击查看原文>

2026-06-30AI大狗3 分钟阅读12725483 阅读热度 680行业动态AI产品应用落地

当你在景点打开豆包视频通话,镜头对准金代彩塑,问出“哪几尊塑像最值得细细端详”时,豆包会先“看到”彩塑,再“听懂”问题,然后“思考”并给出答案——这一过程背后,视频云的角色正在发生根本性变化。在 2026 火山引擎 FORCE 原动力大会智能视频云论坛上,火山引擎视频与边缘负责人王悦提出,Agent 时代的视频云需要从“音视频云服务能力”进化为“连接人与 Agent 的新型智能音视频能力底座”,并正式发布了 Agentic VCloud 方案。

Agent 时代重构视频云:火山引擎发布 Agentic VCloud,让 AI 能看能听还能执行任务閰嶅浘1

过去十年,视频云的核心任务是让音视频以更高画质、更低延迟、更强并发、更优成本的方式服务人类用户。火山引擎视频云依托“抖音同款能力”,为数亿用户提供了流畅稳定的视听体验。然而,随着 2023 年大模型兴起,音视频从仅供人观看的内容,变成了 AI 感知世界的媒介;到 2026 年上半年,行业跑步进入 Agent 时代,音视频进一步进化为 AI 与人实现意图对齐、输出任务成果的媒介。视频云的服务对象也从人扩展到了人和 Agent。

IDC 数据显示,2025 年上半年,AI 驱动的“音视频 AI 实时互动与智能媒体生产”细分市场已达 4000 万美元量级,同比实现大三位数增长。这一增量主要来自 AI 应用对实时音视频交互、智能媒体生产和任务交付能力的持续需求。王悦指出,视频云需要面向 Agent 时代完成自我重构:在继续服务好人的同时,满足 Agent 提出的新需求。

从 VCloud 到 Agentic VCloud:技术坐标系跃迁

火山引擎 Agentic VCloud 构建了两项核心能力:多模态链路和 AI MediaKit。多模态链路是 Agent 的感知基础设施,负责连接实时世界、获取任务目标、得到环境反馈。它包含 MoQ(Media over QUIC)多模态传输和多模态网关。MoQ 统一了媒体语义、媒体对象和媒体传输,在 Agent 语义场景下实现小于 600ms 的建连时延与亿级 AI 会话并发。多模态网关则在物理世界和大模型之间搭建语义桥梁,支持 10ms 语义判停、多模态音画同步以及 99.99% 的语义级可靠传输,避免 Agent 把“戴尔”听成“海尔”。

AI MediaKit 是 Agent 友好的音视频开发套件,将视频云积累的“能力组件”编排进“Agent 意图交付”链路。其三层架构包括意图层(Media Intent)、媒体工作流层和媒体运行时。意图层面向 Agent 提供声明式 API、端云结合的 CLI、媒体领域知识 Skill 和 LLM 原生的 MCP 协议,明确“要什么”和“有哪些约束”。媒体工作流层将意图自动编排成可执行的算子级工作流,支持图像、音频、视频、文本四种模态,具备感知、增强、编码、剪辑、生成五类基础能力。媒体运行时负责交付可验证的音视频产物,支持端云结合,通过算法、算力、芯片和架构提升任务完成度。云上提供 Comet 编码芯片、GenVR 音视频增强等高级能力,本地则利用 FFmpeg 完成基础任务。

例如,当用户对 Agent 说出“把这段直播录制画质提升后发布到抖音”时,Agent 不再需要指定编码器、分辨率和增强算法,而是由 AI MediaKit 将意图解析成结构化需求,自动完成编排、调度和结果交付。

Agent 时代的视频云新定位

王悦在论坛上强调,Agent 时代的视频云既是人与 AI 协同的交互底座,也是 Agent 在多模态场景下进行感知、处理、表达与执行的重要能力层,更是智能应用连接真实世界的关键基础设施之一。OpenAI Realtime API、Google Gemini Multimodal Live API 等产品的推出,也印证了低延迟语音、视频和多模态交互正在成为 AI 应用的关键能力。视频云的新增量将来自 AI 应用对实时交互和智能生产的持续需求,而 Agentic VCloud 的目标是让更多产品享受到“豆包同款”的技术能力。

从 VCloud 到 Agentic VCloud,视频云的技术坐标系完成了一次本质跃迁:过去是服务人类感官体验的内容系统,现在则迈入 Agent 意图交付(Intent-to-Outcome)的新时代,面向 Agent 完成意图理解、能力编排、动态调度,并交付可验证的结果。这要求视频云底层架构面向 Agent 原生设计,提供标准化工具能力,并在真实业务中实现高质量、规模化交付。火山引擎的 Agentic VCloud 正是为此而生。

文章来源:https://aidadog.com/news/ai/t4r4xirwvamt93hytyzuhmhy

同类推荐

继续阅读

查看更多