百度的多模态路线是什么?
小海同学
2024-11-17 13:30:50
0

当ChatGPT掀起国内“百模大战”,百度率先交卷文心一言。

Sora再掀视频生成风潮,却传出李彦宏内部讲话“Sora无论多么火,百度都不去做”。

一时间,困惑、不解、争议,纷至沓来。

面对这些声音,在刚刚结束的百度世界大会会后采访中,李彦宏公开回应。

他不仅重申了不做Sora的决定,并且说明了百度是如何运用和发展多模态的。

在大会发布中,李彦宏发布了百度从年初开始重点攻克的iRAG技术,这项技术旨在解决AI领域最棘手的”幻觉”问题。有趣的是,这个开始正好是在Sora风正热之时。

百度的选择背后原因,到底是什么?

加速解决幻觉问题

先从iRAG技术看。它所解决的是图片生成的幻觉问题。

在年初,不做Sora,转头将资源放在幻觉解决上。为什么?

结合这届百度世界大会主题“应用来了”来理解:

幻觉已经成为制约大模型应用大规模落地的一大绊脚石。

现代社会对计算器已有绝对的信任,只要保证输入是对的,就可以百分百放心地把计算结果用到下一步工作流程中。

但对于已知可能存在幻觉的大模型来说,还敢给予同等的信任吗?

有幻觉,即意味着模型行为不完全可控,不能完全放心的自动化工作流程,依然需要人工介入。

AI应用正面临这样的困境。

事实上,ChatGPT问世之后,大模型的几个主要改进方向都是通过不同方式来解决大模型幻觉问题。

长上下文窗口,让模型获取更完整的输入,减少因信息不全产生的错误推理。

RAG(检索增强生成),检索外部知识库补充信息,弥补模型参数存储知识的不足。

联网搜索,获取实时、动态的在线信息,扩展模型的知识边界。

慢思考,通过分步推理减少直觉性错误,提高推理过程的可解释性。

甚至从某种意义上说,多模态技术也是让模型多一种信息输入途径,不用在“看不见”视觉信息的情况下为了完成任务凭空编造。

相关内容

热门资讯

智能时代如何提升我们的电器维修... 一、项目背景随着科技的飞速发展,电器设备在人们的日常生活和工作中扮演着不可或缺的角色。然而,电器故障...
百度网盘让10亿人在网上安了“... 百度网盘升级为一站式平台,注册用户超10亿在2024百度世界大会上,百度网盘宣布全面升级为集内容存储...
13年前微信安装包仅457KB... 微信正在测试一项新功能,旨在通过自动清理原图和原视频文件,减少微信占用的存储空间。这项“原图、原视频...
怎么提升我们的代码能力? 同的语言有不同的特性,甚至有不同的原理,如果没有对语言基础有比较扎实得掌握,很容易犯一些低级错误。举...
AI 引领代码编写新潮流 随着科技的不断进步,AI 在代码编写领域展现出了强大的崛起之势。近年来,人工智能技术日益成熟,其在编...
AI 代码编写的具体应用 (一)自动化代码生成AI 在自动化代码生成方面展现出强大的能力。通过自然语言处理(NLP)和机器学习...
分享部分Python代码片段 1、文件重复查找器有没有看过你的硬盘,想过,为什么只剩下 100MB 了? 重复文件,大概率是因为这...
Algen: ASDO——区块... ASDO的关键特性数据可用性预测切换:通过先进的预测模型,ASDO根据市场动态在不同数据处理方式之间...
百度的多模态路线是什么? 当ChatGPT掀起国内“百模大战”,百度率先交卷文心一言。Sora再掀视频生成风潮,却传出李彦宏内...
解决video标签在ios上无... 今天同事提了一个bug上来,说h5页面上的视频,在ios手机上播放不了。我就不信这个邪,我明明是按照...