坚持不做Sora,百度为何又开始重视多模态大模型?|界面新闻 · 科技

坚持不做Sora,百度为何又开始重视多模态大模型?|界面新闻 · 科技

luyijun 2025-05-26 技术服务 36 次浏览 0个评论

界面新闻记者 | 肖芳

界面新闻编辑 | 文姝琪

百度正在强化文心大模型多模态理解能力

百度AI Day百度集团副总裁吴甜详细解释了其最新发布的两款模型文心大模型4.5 Turbo和深度思考模型X1 Turbo技术创新之处。

表示文心大模型4.5和4.5 Turbo实现了文本、图像和视频的混合训练。针对不同模态数据在结构、规模、知识密度上的差异,通过多模态异构专家建模、自适应分辨率视觉编码、时空重排列的三维旋转位置编码、自适应模态感知损失计算等技术,大幅提升跨模态学习效率和多模态融合效果,学习效率提高近2倍,多模态理解效果提升超过30%。

文心大模型4.5于今年3月16日正式发布,是百度首个原生多模态大模型。文心大模型4.5 Turbo在上个月举办的Create 2025百度AI开发者大会上对外发布,相比文心大模型4.5,其速度更快,价格下降80%,每百万token的输入价格仅为0.8元,输出价格3.2元,仅为DeepSeek-V3的40%。

去年,百度CEO李彦宏多次公开表示,Sora这种视频生成模型无论多火爆,百度都不去做。他给出的理由是,多模态模型尤其是视频生成领域,幻觉问题尚未解决,这限制了大规模应用。

坚持不做Sora,百度为何又开始重视多模态大模型?|界面新闻 · 科技

但字节跳动和阿里巴巴却没有因为幻觉问题停止布局多模态大模型的脚步:去年12月,字节跳动正式对外发布豆包视觉理解模型、豆包3D生成模型;今年9月和12月,阿里通义千问团队分别对外发布视觉理解模型Qwen2-VL和多模态推理模型QVQ-72B-Previe

从市场反馈来看,这几款模型在处理自然语言与图像信息的结合上灵活性强,能精准识别图像中的内容受到教育自动驾驶领域企业的关注,在视觉-语言融合场景中展示出较大的潜力。

这意味着此前百度多模态大模型上存在一些误判多模态模型布局竞争对手晚了数月

百度正在积极补齐大模型布局短板

今年年初DeepSeek走红让外界再次讨论百度大模型领域是否再次陷入了“起个大早,赶个晚集”的尴尬境地

2021百度对外发布文心大模型行业属于最早一批布局大模型公司经过几年发展百度大模型领域不仅没能保持先发优势还在开源降价多模态问题出现误判

界面新闻多位百度内部人士了解今年第一季度总监会李彦宏去年内部没有提到模型开源导致百度走了一些弯路

DeepSeek走红之后百度此前关于开闭源问题进行纠偏今年新发布文心大模型4.5系列将于630正式开源

降价问题去年豆包通义大模型相继大幅降低调用价格之后文心大模型的主力模型并未进行跟进直到今年Create 2025百度AI开发者大会百度正式宣布文心大模型4.5 Turbo文心大模型X1 Turbo价格大幅降低

然而今年基础大模型竞争焦点价格一位大模型从业者看来基础信息处理能力的提升以及成本的下降让豆包通义几款大模型去年获得了快速增长。深度推理能力视觉推理能力以及Agent相关技术将成为今年未来几年基础大模型竞争关键

在当下的竞争态势下百度放弃此前纠结,积极布局多模态大模型不难理解了文心大模型4.54.5 Turbo文心大模型X1X1 Turbo模型性能提升的同时,多模态能力也进一步增强。

根据百度方面介绍文心大模型4.5 Turbo多模态能力与GPT 4.1持平,不仅具有图片理解能力,还能听懂、看懂音视频内容文心大模型X1 Turbo具备跨工具调用能力,能整合搜索引擎、数据库等外部资源完成复杂任务。在多模态交互场景中,这种工具调用能力与多模态能力相融合,使其能够更灵活地应对各种实际问题

李彦宏Create 2025百度AI开发者大会谈及布局多模态大模型价值DeepSeek也不是万能的,它只能处理文本,还不能理解和生成图片、音频、视频等多媒体内容很多客户都需要这种多模理解和生成能力

对于李彦宏此前一直纠结幻觉问题吴甜此次百度AI Day进行重点阐释百度研制了自反馈增强的技术框架,基于大模型自身的生成和评估反馈能力,实现了“训练-生成-反馈-增强”的模型迭代闭环,让大模型拥有了自我迭代能力,显著降低了模型幻觉,模型理解和处理复杂任务的能力大幅提升。

虽然过去诸多判断进行纠偏不可否认百度在大模型已经脱离第一梯队。很多业内人士判断未来基础大模型领域将只剩下DeepSeek豆包通义三强争霸这种竞争格局百度想要翻盘面临挑战不言而喻

数字人能否助力百度翻盘?

百度积极布局多模态大模型除了当下市场竞争需要之外另一个重要原因多模态大模型承载百度AI应用期待

去年以来李彦宏多次公开场合强调技术的商业价值在他看来一个没有明确用途的AI模型,不过是一个吸引人的计算机科学展示。没有应用,芯片、模型都没有价值。模型会有很多,但未来真正统治这个世界的是应用

今年以来AI应用领域创业如火如荼AI办公AI搜索Agent都是热门AI应用落地方向李彦宏不一样判断他在Create 2025百度AI开发者大会上表示,AI数字人年最令人激动的突破性应用。声形超拟真、内容更专业、互动更灵活数字人,实现超越真人的体验,在电商直播、游戏、消费等领域,有着巨大的想象空间。

百度AI Day吴甜透露百度数字人方面布局百度研制了“剧本”驱动多模协同的超拟真数字人技术,实现了语言、声音、形象的协调一致。目前这套技术已经支持超过10万数字人主播,直播转化率达31%,降低80%直播开播成本。

也有一些从业者数字人不同声音尤其是一些电商商家,尝试数字人直播之后,发现真实的直播带货效果不尽如人意。一家美妆类的商家此前告诉界面新闻,其从去年开始尝试数字人直播带货,但数字人回复用户留言时不仅生硬,还会出现答非所问的情况,不仅没有带来更高的转化率,还引发了更多消费者投诉。

在数字人服务商世优科技CEO纪智辉看来,目前数字人直播带货并不好做,抖音快手等平台的出发点依然是更好的内容和体验。“如果用户在平台上刷到10个短视频有9个都是数字人,这会破坏平台的内容生态,各个平台都对数字人直播进行严格管控也是意料之中的事。”

不过这些不同声音没有阻止百度积极布局数字人脚步根据百度此前公布信息百度与罗永浩达成合作,联手打造罗永浩的数字人形象用于直播带货,并于5月23日晚8点在百度电商开启首场直播

罗永浩数字人首场直播带货成绩有待观望。如果数据不错,或许能改变一些商家数字人直播带货态度能给百度带来多大商业价值仍然需要时间验证

转载请注明来自山东水清源环保科技有限公司,本文标题:《坚持不做Sora,百度为何又开始重视多模态大模型?|界面新闻 · 科技》

百度分享代码,如果开启HTTPS请参考李洋个人博客
每一天,每一秒,你所做的决定都会改变你的人生!

发表评论

快捷回复:

验证码

评论列表 (暂无评论,36人围观)参与讨论

还没有评论,来说两句吧...

Top
 德胜路房屋出租信息最新  湘潭华雅招聘信息最新  杭州城隍阁最新信息地址  郑州房产最新大数据信息  定州粉刷最新招聘信息  114网招最新聘信息  胶州中云最新房价信息  沿滩工作招聘信息最新  石大胜华电池最新信息  电气最新产品发布信息  贵阳中环路西段最新信息  清远石坎最新房价信息  临沂疫情最新流调信息  樟树医院最新招聘信息  桃园南路最新信息网  宿迁美睫招聘信息最新  沈阳最新项目进展信息  辽宁最新高速中标信息  济南投城招聘信息最新  莲都招聘司机最新信息  昆山台坡招聘信息最新  湖南宿管招聘最新信息  秦淮中学最新房价信息  射阳租房最新信息网  最新印染招聘信息网站  新乡合生元最新招聘信息  江夏南湖最新招聘信息  车陂地铁转让信息最新  井巷村最新租房信息大全  池州高速路最新信息 
Baidu
map