3人参与 • 2025-04-02 • 手机系统
文小言ai助手焕新升级,开启多模型融合新时代!百度于3月31日ai开发者大会上宣布,文小言完成品牌焕新和功能升级,并着重强调模型开放与功能创新。此次升级不仅带来全新的视觉形象,更重要的是支持多模型融合调度,并强化了语音大模型、图片问答、ai图像及视频生成等功能,为用户提供更智能、更高效的ai体验。
百度ai产品创新业务负责人薛苏表示,ai的未来并非简单的技术参数竞争,而是通过多模型协同,为用户创造真正价值。文小言致力于打造开放生态,整合顶尖模型能力,最终目标是提供更强大、更易用的ai产品。
多模型融合:构建ai“超级大脑”,重塑用户体验
文小言此次的核心升级在于“多模型融合调度”。它整合了百度自研的“文心x1”、“文心4.5”等顶级模型,并接入了deepseek-r1、可灵等第三方优质模型,实现了模型间的智能协作。用户只需启用“自动模式”,即可一键调用最佳模型组合,或根据需求选择特定模型完成任务,显著提升响应速度和任务处理效率。
例如,用户要求“设计三种风格不同的南偏东客厅效果图”,文小言能够准确识别不同装修风格的差异,调用“文心x1”进行深度推理,生成三幅风格各异但视角一致的效果图。又例如,拍摄一张茅台镇的照片,文小言便能利用“文心4.5”的多模态分析能力,精准识别地理位置、当地产业、建筑风格等详细信息。
功能升级:全新语音大模型、图片问答,拓展ai应用新场景
此次升级还显著提升了语音大模型、图片问答、ai图像及视频生成等功能,全面优化用户体验。
全新语音大模型支持方言对话、复杂知识问答和随时打断等功能,用户可以进行语音知识问答或趣味角色扮演。
百度语音首席架构师贾磊介绍,该模型是业界首个基于全新互相关注意力(cross-attention)的端到端语音语言大模型。在满足特定交互指标的语音场景下,大模型调用成本比行业平均降低50%-90%,推理响应速度极快,将语音交互等待时间压缩至约1秒,极大提升了交互流畅性。此外,大模型的加持实现了流式逐字的llm驱动的多情感语音合成,情感表达饱满、逼真、拟人化,交互听感也得到显著提升。
图片问答功能允许用户通过拍摄或上传图片,使用文字或语音提问并获得深度解析。例如,拍摄数学题可实时获得解题思路和视频解析;上传多款商品图片可对比参数和价格,辅助购物决策;拍摄杯子设计图后,ai可自动解析设计风格并生成同款手机壳、支架等衍生产品或包装设计。
此外,新增的“图个冷知识”功能更具趣味性,用户可以预设“历史学者”、“科技达人”等角色视角,为同一张图片提供多维度解读。例如,用户提问“猫窗探秘,为何猫爱窗边的科学真相?”,文小言就能从狩猎本能、能量获取、领地意识等角度给出独特的解释。
以上就是文小言上新了!支持多模型调度,升级全新语音大模型、图片问答能力的详细内容,更多请关注代码网其它相关文章!
您想发表意见!!点此发布评论
版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。
发表评论