文小言上新了！支持多模型调度，升级全新语音大模型、图片问答能力_手机系统

文小言ai助手焕新升级，开启多模型融合新时代！百度于3月31日ai开发者大会上宣布，文小言完成品牌焕新和功能升级，并着重强调模型开放与功能创新。此次升级不仅带来全新的视觉形象，更重要的是支持多模型融合调度，并强化了语音大模型、图片问答、ai图像及视频生成等功能，为用户提供更智能、更高效的ai体验。

百度ai产品创新业务负责人薛苏表示，ai的未来并非简单的技术参数竞争，而是通过多模型协同，为用户创造真正价值。文小言致力于打造开放生态，整合顶尖模型能力，最终目标是提供更强大、更易用的ai产品。

多模型融合：构建ai“超级大脑”，重塑用户体验

文小言此次的核心升级在于“多模型融合调度”。它整合了百度自研的“文心x1”、“文心4.5”等顶级模型，并接入了deepseek-r1、可灵等第三方优质模型，实现了模型间的智能协作。用户只需启用“自动模式”，即可一键调用最佳模型组合，或根据需求选择特定模型完成任务，显著提升响应速度和任务处理效率。

文小言上新了！支持多模型调度，升级全新语音大模型、图片问答能力

例如，用户要求“设计三种风格不同的南偏东客厅效果图”，文小言能够准确识别不同装修风格的差异，调用“文心x1”进行深度推理，生成三幅风格各异但视角一致的效果图。又例如，拍摄一张茅台镇的照片，文小言便能利用“文心4.5”的多模态分析能力，精准识别地理位置、当地产业、建筑风格等详细信息。

功能升级：全新语音大模型、图片问答，拓展ai应用新场景

此次升级还显著提升了语音大模型、图片问答、ai图像及视频生成等功能，全面优化用户体验。

全新语音大模型支持方言对话、复杂知识问答和随时打断等功能，用户可以进行语音知识问答或趣味角色扮演。

文小言上新了！支持多模型调度，升级全新语音大模型、图片问答能力

百度语音首席架构师贾磊介绍，该模型是业界首个基于全新互相关注意力(cross-attention)的端到端语音语言大模型。在满足特定交互指标的语音场景下，大模型调用成本比行业平均降低50%-90%，推理响应速度极快，将语音交互等待时间压缩至约1秒，极大提升了交互流畅性。此外，大模型的加持实现了流式逐字的llm驱动的多情感语音合成，情感表达饱满、逼真、拟人化，交互听感也得到显著提升。

文小言上新了！支持多模型调度，升级全新语音大模型、图片问答能力