百度的多模态路线是什么？_技术文章

小海同学

2024-11-17 13:30:50

0次

当ChatGPT掀起国内“百模大战”，百度率先交卷文心一言。

Sora再掀视频生成风潮，却传出李彦宏内部讲话“Sora无论多么火，百度都不去做”。

一时间，困惑、不解、争议，纷至沓来。

面对这些声音，在刚刚结束的百度世界大会会后采访中，李彦宏公开回应。

他不仅重申了不做Sora的决定，并且说明了百度是如何运用和发展多模态的。

在大会发布中，李彦宏发布了百度从年初开始重点攻克的iRAG技术，这项技术旨在解决AI领域最棘手的”幻觉”问题。有趣的是，这个开始正好是在Sora风正热之时。

百度的选择背后原因，到底是什么?

加速解决幻觉问题

先从iRAG技术看。它所解决的是图片生成的幻觉问题。

在年初，不做Sora，转头将资源放在幻觉解决上。为什么?

结合这届百度世界大会主题“应用来了”来理解:

幻觉已经成为制约大模型应用大规模落地的一大绊脚石。

现代社会对计算器已有绝对的信任，只要保证输入是对的，就可以百分百放心地把计算结果用到下一步工作流程中。

但对于已知可能存在幻觉的大模型来说，还敢给予同等的信任吗?

有幻觉，即意味着模型行为不完全可控，不能完全放心的自动化工作流程，依然需要人工介入。

AI应用正面临这样的困境。

事实上，ChatGPT问世之后，大模型的几个主要改进方向都是通过不同方式来解决大模型幻觉问题。

长上下文窗口，让模型获取更完整的输入，减少因信息不全产生的错误推理。

RAG（检索增强生成），检索外部知识库补充信息，弥补模型参数存储知识的不足。

联网搜索，获取实时、动态的在线信息，扩展模型的知识边界。

慢思考，通过分步推理减少直觉性错误，提高推理过程的可解释性。

甚至从某种意义上说，多模态技术也是让模型多一种信息输入途径，不用在“看不见”视觉信息的情况下为了完成任务凭空编造。