文小言上新:能方言交流、会拍照解题、能生成吉卜力风图片和视频

内容摘要【TechWeb】3月31日消息,在百度推出最新最强多模态大模型文心4.5和推理大模型文心X1后,今天百度旗下AI助手文小言APP正式功能升级。此次升级,文小言聚焦模型开放与功能创新,支持多模型融合调度,升级全新语音大模型、图片问答、AI生

【TechWeb】3月31日消息,在百度推出最新最强多模态大模型文心4.5和推理大模型文心X1后,今天百度旗下AI助手文小言APP正式功能升级。

此次升级,文小言聚焦模型开放与功能创新,支持多模型融合调度,升级全新语音大模型、图片问答、AI生图生视频等多项能力,为用户带来更智能、更高效的AI体验。

其中,文小言此次升级的核心亮点在于“多模型融合调度”。通过整合百度自研的文心X1、文心4.5等顶尖模型,并接入DeepSeek-R1、可灵等第三方优质模型,文小言实现了多模型间的智能协同。

接入全新的端到端语音语言大模型后,文小言不仅能支持更拟真的语聊效果,而且支持重庆、广西、河南、广东、山东等特色方言。据介绍,语音大模型具备极低的训练和使用成本,极快的推理响应速度,语音交互时,可将用户等待时长从行业常见的3-5秒降低至1秒左右。

图片问答功能让用户可以通过拍摄或上传图片,以文字或语音提问直接获取深度解析。

目前,以上这些大模型能力,用户在文小言APP内选择“自动模式”,即可一键调用最优模型组合,也可以根据需求灵活选择单一模型完成特定任务。

从用户角度来看,目前的文小言不仅能听得懂方言、能跟用户直接方言交流外,还可以“化身”老师解题答疑。

最近,OpenAI的多模态大模型GPT-4o因能生成吉卜力动漫风的图片而大受追捧。现在,文小言不仅能通过文生图来生成吉卜力风的图片,还能生成该风格的视频。

百度AI产品创新业务负责人薛苏强调:“AI的未来不再是单纯的技术参数比拼,而是如何通过多模型协同,真正为用户创造价值。文小言希望通过开放生态,整合顶尖模型能力,做出更强大、更简单的AI产品。”

那么就一起来看看文小言的表现:

1、让文小言设计三种风格的南偏东客厅效果图

文小言能够精准解析装修风格差异,调用文心X1完成深度推理,生成三幅风格迥异但视角一致的装修效果图,图文混排专业讲解,效果更直观。

2、拍摄一道数学题,让文小言解题

将上述数学题用文小言拍照输入,文小言就给出了一下解答结果。

还实时生成了一个由数字人讲解的解说视频。

3、让文小言生成吉卜力风格图片和视频

在文小言app中选择图片创作,或者直接在对话框中输入希望生成的图片的描述,

例如:

请画一个宫崎骏风格图片,比例为9:16,内容为个女孩站在盛开的樱花树下,身旁有小猫咪。女孩扎着麻花辫,仰头望向樱花树,欣赏飘落的樱花。背景是户外乡村环境,有一棵樱花树,粉色樱花密集绽放,本古朴木屋。地面上绿草如茵,

整体氛围清新、宁静、美好,充满春日的生机与惬意。

文小言就会生成2张相关图片。

然后,选择“视频生成”按钮,文小言就能根据图片生成一段5s中的小视频。

4、讲方言

文小言会说多种方言,包括重庆话、河南话、广西话等都能聊。可以去听一听它讲得怎么样。

百度语音首席架构师贾磊透露,文小言接入了百度在业界首个推出、基于全新互相关注意力(Cross-Attention)的端到端语音语言大模型。在语音场景满足一定交互指标下,大模型调用成本比行业平均降低50%-90%,推理响应速度极快,将语音交互等待时间压缩至1秒左右,极大提升了交互流畅性。同时,在大模型加持下,实现了流式逐字的LLM驱动的多情感语音合成,情感饱满、逼真、拟人,交互听感也得到极大提升。(宜月)

 
举报 收藏 打赏 评论 0
24小时热闻
今日推荐
浙ICP备2021030705号-9