
过去,CVPR 关心的是机器如何看见世界,而到了 Agent 时代,问题已经变得复杂:AI 看见之后固原橱柜台面胶,能不能理解世界、生成世界,并把这些能力接入真实业务?
这也让批来自真实业务的新问题进入研究视野。
个在真实场景里工作的 Agent,面对的世界不会只是行简单的 prompt。它可能看到份图文混排的同、张被反复修改过的设计稿,或者组互相矛盾的外部资料。Agent 不只要读懂,还要判断、检索、生成、修改,后把结果交出去。
这也是为什么,过去年行业对 Agent 的讨论,越来越集中在系统能不能闭环上。会回答问题只是起点,真正决定 Agent 能否进入业务流程的,是它能不能处理复杂输入、控制运行成本,并产出可交付的结果。
在国内科技公司中,阿里云是 Agent 实践中经验丰富的厂商之,他们提出的全栈支持 Agent,不是单个模型,而是套从力、模型、理、工具、平台到应用开发的能力栈。今年阿里入选 CVPR 的批论文,则进步展示了在 AI 前沿域阿里云的新探索。
把这批论文放在起,可以看到条清晰的研究脉络:从 Agent 落地中涌现出的真实需求出发,通过新的数据、结构和训练法,探索多模态 Agent 能力的下步。
这些探索集中指向 Agent 落地要过的三道门槛:看得懂、跑得起、能交付。
看得懂:Agent 如何理解复杂文档
很多 Agent Demo 看起来十分顺滑,是因为输入已经被人为整理过。但真实业务不是这样。同里同时有表格、条款和批注,财报里混着文字、图表和脚注,技术文档中包含公式、截图与代码。麻烦的是,这些材料彼此之间甚至还可能存在相互冲突。
因此,Agent 的"看得懂",远不只是识别图片中有什么。
CodePercept ( Code-Grounded Visual STEM Perception for MLLM ) 处理的是个被长期低估的瓶颈: STEM 图像理解。过去,多模态模型在理工科学类任务中频繁出错,常常被归因于理能力不足。但 CodePercept 指出,瓶颈可能早就出现在视觉感知阶段:模型连图像的结构都没有准确读出来,后续理自然从谈起。
找到瓶颈之后固原橱柜台面胶,CodePercept 提出了个学术界此前很少尝试的思路:用可执行代码作为视觉理解的"验证标准",让模型通过生成代码来图像结构。这样来,模型不再只是根据视觉表面作出判断,而是能够沿着图像背后的生成逻辑理解复杂内容。
看懂单张图像的结构之后,Agent 还要能从大量文档中"找对信息"。
Evo-Retriever ( LLM-Guided Curriculum Evolution with Viewpoint-Pathway Collaboration for Multimodal Document Retrieval ) 做的正是找信息检索。它面向复杂视觉文档检索,处理的是图文混排、版式多变、信息分散的文档环境。过去文档检索模型的训练策略通常是固定的,但模型在不同训练阶段遇到的问题并不相同。Evo-Retriever 引入 LLM 作为元控制器,根据模型当前状态动态调整训练内容,同时通过多视角图像对齐和双向对比学习处理视觉与文本之间的混淆。
在阿斯利康多模态知识库问答测评中,Evo-Retriever 相比纯文本基线,检索准确率提升了 14.1。相关技术也正在落地阿里云 OpenTrek 站式智能体工厂,让 Agent 在面对企业知识库、技术文档和图表密集型材料时,能够真正准确利用文档中的视觉信息。
但找到材料还不是终点。真实业务中,不同来源之间甚至可能互相矛盾。
CC-VQA ( Conflict-and Correlation-Aware Method for Mitigating Knowledge Conflict in Knowledge-Based Visual Question Answering ) 关注的就是知识型视觉问答中的冲突。它做了两个过去少有人做的尝试:是把视觉信息重新放回知识冲突判断的中心,让模型围绕视觉信息去判断外部上下文和内部参数知识之间的冲突;二是在不重新训练模型的情况下,通过压缩低相关上下文的位置编码,并在解码阶段根据冲突程度动态调整输出。
落到产品里,客服 Agent、数据分析 Agent、办公 Agent,都会遇到同个问题:外部材料很多,但不是每条都该信。真正可用的 Agent,需要知道哪些信息和当前业务问题真正相关。
综来看,这三篇论文通过新的解决思路,回应了 Agent "看得懂"的三个层次:读懂结构、找准依据、在矛盾信息中作出可靠判断。
跑得起:理解生成如何进入生产环境
Agent 的另道硬门槛,是成本。
很多 Agent 的多模态能力在 Demo 里已经可以实现固原橱柜台面胶,但进入真实业务后却未可持续。次任务跑通并不难,难的是把同种能力放进每天成千上万次调用的业务系统里,同时控制延迟、吞吐、显存和单位调用成本。
尤其如此。理解需要处理大量帧和视觉 token,生成则要在多个扩散步骤中反复计。当 Agent 需要反复调用模型、不断检查和修正结果时,这些开销会在整条任务链路中被成倍放大。
阿里云这批 CVPR 论文中,RAPID 和 EarlyTom 分别从生成和理解两端优化这个问题。
RAPID ( Reusing Attention Sparsity with Inter-step Adaptation ) 从注意力机制入手,抓住了个规律:扩散模型要走很多步才能生成结果,而相邻两步之间的计其实度相似,没要每步都从头。RAPID 的新意在于自适应:它根据每步的实际注意力稀疏程度动态决定复用策略,在生成质量基本不受影响的前提下,大幅降低扩散理的计量。
在 Wan2.1-14B 和 HunyuanVideo 上,RAPID 的保真模式在相同计预下过已有基线,Turbo 模式则分别实现 1.79 倍和 2.01 倍加速,同时维持较强的视觉质量。
EarlyTom ( Early Token Compression Completes Fast Video Understanding ) 针对的是理解的速度。它在早期就对 token 做压缩,让模型还没看完所有帧时就能开始有理。看得少,也能给出准确判断,对实时要求的场景尤其有用。
在单张 NVIDIA A100 上运行 LLaVA-OneVision-7B 时,PVC管道管件粘结胶EarlyTom 多将 Token 延迟 2.65 倍,FLOPs 减少 61,并保持与完整 Token 基线接近的准确率。
篇减少生成中的重复计,篇压缩理解中的冗余信息,两篇论文处理的环节不同,但指向同个目标:让多模态能力在 Agent 的任务链路中真正跑得起。
生产环境中的模型能力,从来不只是个准确率数字。延迟、吞吐、显存、单位调用成本,都是产品能力的部分。"跑得起"不是单纯把模型做小或把速度做快,而是用新的法减少被忽视的计冗余,让次调用足够快、足够便宜,连续调用也不会拖垮系统。
能交付:生成结果如何变成可用产出
很多生成式 AI 产品到今天仍然卡在后步:它能生成个结果,但用户很难把它改到可用。
Qwen-Image-Layered ( Towards Inherent Editability via Layer Decomposition ) 研究的正是图像的可编辑。它把单张 RGB 图像拆成多个语义上相互立的 RGBA 图层,让人物、背景、文字、装饰元素等可以被分别操作。
Qwen-Image-Layered 团队:现在很多图像编辑法,本质上是重新生成遍,或者只在局部区域做 inpainting,所以很容易"牵发而动全身"。比如用户只是想把人物往右移动,背景里的海浪却也被改掉了。我们想做的是像 Photoshop 样,把图像拆成多个图层,人物、背景、文字、装饰元素都能单编辑。
传统法通常是先分割,再补全,流程比较割裂。图片分割可能不干净准确,补背景又会引入新的瑕疵。我们的案是 end-to-end 的,在个 diffusion 过程中直接完成图层分解,不需要把分割、补全、编辑拆成多个步骤。
生成只是开始,只有当结果能被用户、设计师、运营或下游工具继续使用,才真正进入工作流。这也是为什么"可编辑"比"生成得好看"接近产业需求。
Wan-Weaver ( Interleaved Multi-modal Generation via Decoupled Training ) 解决的是另种交付问题:图文交错生成。图文交错生成通常面临个矛盾:把图文能力联训练,容易互相干扰;拆开,又难以保持内容连贯。Wan-Weaver 尝试将文本规划和视觉致建模解耦,让模型先确定叙事与结构,再生成与上下文致的视觉内容。它被选为CVPR Oral,也说明这类"完整多模态内容单元"的生成正在成为值得关注的研究向。
Wan-Weaver 图文交错生成已经在万相 2.6 (Wan 2.6) 版本中上线。到后续 2.7 版本,产品形态则进步聚焦组图生成能力。未来的内容型 Agent 交付的,除了素材,还可以是个有结构、有叙事、有视觉连续的内容单元。
数字人相关论文,则展示了另条具产业落地感的交付链路。
OMG-Avatar ( One-shot Multi-LOD Gaussian Head Avatar ) 和 MeshLAM ( Feed-Forward One-Shot Animatable Textured Mesh Avatar Reconstruction ) 解决的是建模门槛:只用张图,就能重建出可驱动的 3D 头像。前者通过多精度层适配不同力和渲染需求,后者选择 mesh + texture 路线,强调快进入现有动画、游戏和数字人制作流程。
AnyID ( Ultra-Fidelity Universal Identity-Preserving Video Generation from Any Visual References ) 解决的是身份致:当模型用多张照片或作为参考,生成同个人在不同场景、动作、表情下的时,如何保证这个人始终像本人。
AnyID 团队:过去很多法只用单张图片作为人物参考,但用张 2D 静态图去断个人的 3D 动态结构,本身就是信息不足的。单张图看不到另侧脸,也不知道这个人在不同表情、动作下的肌肉和骨骼运动。所以生成结果可能"乍看像",但熟悉这个人的人会觉得怪。我们的思路是引入同个人的多个参考,照片或都行,指定张主参考做锚点,只用 differential prompt 说明要改什么,其余自动和主参考致。
与传统依赖三维渲染、材质和骨骼绑定的数字人流程相比,这种式门槛低,用户用 text prompt 就能控制背景、动作和衣着发型。当然,它目前还不能替代精度、强稳定的传统 3D 流程,但已经展示了灵活的内容生产路径。
PortraitDirector ( A Hierarchical Disentanglement Framework for Controllable and Real-time Facial Reenactment ) 则处理实时驱动和精细控制,把头姿、嘴型、眼、表情和情绪拆开,再重新组成自然的输出。
这几篇论文放在起看,数字人能力正在从单点生成,走向条完整内容生产链:建模、驱动、保持身份致、实时表达。
这正是"能交付"的含义:Agent 不只完成次生成,而是把结果做成可编辑的文件、可直接消费的内容,或能够继续流转的生产资产。
尾声
CVPR 上的这批论文,是组仍在进的关于 Agent 落地的前沿探索。它们研究的问题都来自真实场景:看得懂,Agent 才能从复杂图像、文档和外部知识中获得可靠信息。跑得起,这些能力才有可能被频、持续地调用。后能交付,模型输出才不会停留在 Demo,而会成为真正进入工作流的结果。
很多 Agent 终不是败在不会调用工具,而是败在读错材料、成本失控,或者只交出个不能继续使用的半成品。而论文里这些法则提供了批新的判断、新的法和经过实验验证的新路径。
所以,"全栈支持 Agent "不仅只是底层力、云平台和理服务,模型侧同样需要补齐理解、率与交付三种能力。阿里云这批 CVPR 论文所展示的,正是这三块拼图:看得懂、跑得起、能交付。
当这三件事同时成立,Agent 才真正具备进入真实业务的条件。相关词条:管道保温施工 塑料挤出设备 预应力钢绞线 玻璃棉厂家 保温护角专用胶
奥力斯 万能胶生产厂家 联系人:王经理 手机:13903175735(微信同号) 地址:河北省任丘市北辛庄乡南代河工业区
1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定固原橱柜台面胶,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。
