国产王炸!上海AI Lab开源Lumina-DiMOO,开创多模态理解与生成新范式

北京/设计爱好者/57天前/13浏览
国产王炸!上海AI Lab开源Lumina-DiMOO,开创多模态理解与生成新范式
上海人工智能实验室,上海创新研究院,上海交大,南京大学,悉尼大学,港中大,清华,共同推出了被誉为新一代多模态生成与理解统一模型的Lumina-DiMOO。
国产王炸!上海AI Lab开源Lumina-DiMOO,开创多模态理解与生成新范式
Collect
“An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding”,翻译过来就是“面向多模态生成与理解的全方位扩散大语言模型”。关键词:“全方位”。这背后藏着它的独门绝技——“全离散扩散架构”。
传统多模态架构
文本是离散的、有逻辑结构的符号序列;图像是连续的、由像素网格构成的空间信息。AI面临的难题,就是如何让文本和图像联系起来。这就是多模态AI技术的核心挑战:统一表示与对齐。
解决这个问题的思路,就像是给“AI外星人”都教一种“宇宙通用语”。模型需要把文本、图像、音频这些五花八门的数据,统统映射到一个共享的、高维的“语义空间”里。在这个空间里,不同的数据格式被剥离,只剩下最核心的“意义”。
开创这一思路的先驱之一,就是大名鼎鼎的CLIP模型。它的训练方式简单粗暴又极其有效,叫做“对比学习”。就像一个老师,拿出海量的“图片-文字”配对作业,告诉模型:“看,这张图和这段话是天生一对,你们要靠得近一点。”同时又指着另一对不匹配的图文说:“你们俩八竿子打不着,离远点!”经过亿万次这样的“拉近”和“推远”训练后,模型就学会了这种“宇宙通用语”。它能理解,“苹果”这个词,既可以指向一张红彤彤的水果图片,也可以指向一个印着被咬了一口苹果标志的手机图片。这种跨模态的理解和对齐能力,是后续所有多模态生成模型的基础。
解决了语言问题,接下来就是怎么盖楼,也就是模型的架构设计。目前,主流的多模态大模型架构,主要是在强大的Transformer基础上进行扩展和融合。你可以把Transformer想象成一个超级智能的“信息加工厂”,它最擅长处理序列数据,并能通过“注意力机制”抓住信息中最关键的部分。但问题来了,不同模态的数据,这些“原材料”,该在哪个环节送进加工厂呢?这就催生了三种主流的“融合策略”。
“早期融合”。这种方法简单直接,就像做大杂烩。它在数据处理的最开始阶段,就把图像特征、文本特征等粗暴地拼接在一起,或者直接相加,然后一股脑儿地喂给一个共享的Transformer编码器。优点是简单,计算量相对小。缺点也很明显,不同模态的数据特性差异巨大,这么早地“生拉硬拽”在一起,很可能会互相干扰,导致信息损失,效果往往不尽如人意。
“中期融合”,也叫“交叉融合”。它会让文本和图像等不同的原材料,先进各自的“专属厨房”(独立的编码器)进行初步加工,提取出各自的精华特征。然后,在加工厂的核心区域,通过一个叫做“交叉注意力机制”,让这些半成品互相“交流”。比如,图像特征可以“看一看”文本特征里哪些词是重点,文本特征也可以“瞅一瞅”图像里哪些区域最关键。这种方式能够实现更深层次的信息交互,效果通常比早期融合好得多,也是目前很多高性能模型采用的策略。
“晚期融合”。这种方法就像是各自做完一道拿手菜,最后再拼成一个套餐。不同模态的数据从头到尾都走自己的独立处理流水线,直到最后输出结果的阶段,才把各自的结论融合起来做最终决策。这种方法保留了各模态信息的独立性,但在需要深度交互的任务上,往往会因为“沟通”太少而力不从心。
Lumina-DiMOO的创新之处,就在于它没有在这三种传统路径上修修补补,而是用一种全新的、更底层的逻辑,对整个多模态生成与理解的过程进行了重构。
Lumina-DiMOO四大“核武器”
传统的多模态生成模型,比如一些早期的文本到图像模型,采用的是“自回归”(AR)范式。就像我们写文章一样,一个字一个字地往外蹦。模型生成图像时,也是一个像素块一个像素块地生成,后一个像素块的生成要依赖于前面所有已生成的像素块。这种方式逻辑清晰,但缺点是致命的:慢!而且是一维的、串行的过程,很容易出现误差累积,生成到后面就“跑偏了”。
后来,扩散模型异军突起,它反其道而行之。扩散模型生成图像的过程,更像一位雕塑家。它先从一整块随机噪声(可以想象成一块混沌的“大理石”)开始,然后通过一个逐步去噪的过程,一步一步地把有意义的结构和细节“雕刻”出来,直到最后呈现出一幅清晰的图像。这个过程是并行的,质量更高,但早期的扩散模型在处理不同模态,尤其是离散的文本时,总有点水土不服。
Lumina-DiMOO的开创性在于,它首次实现了“全离散扩散建模”(Fully Discrete Diffusion Modeling)。它不仅用扩散的方式处理图像,还巧妙地把文本等离散数据也纳入了这个统一的扩散框架中。它将所有模态的数据都看作是可以被逐步“去噪”和“生成”的对象。这种统一的视角,使得模型内部的结构异常简洁和优雅,避免了不同模态处理流程“打架”的问题。这样做的好处是显而易见的:不仅生成质量大幅提升,更重要的是,采样效率得到了前所未有的提升。
国产王炸!上海AI Lab开源Lumina-DiMOO,开创多模态理解与生成新范式
Collect
在Lumina-DiMOO的世界里,生成和理解不再是两件独立的事。它支持的任务范围之广,几乎涵盖了当前图像多模态领域所有的热门应用。从最基础的“文本到图像生成”,“图像到图像生成”,或者“擦掉照片里那个乱入的路人”,甚至主题驱动生成等等一系列任务,它都能心领神会。
国产王炸!上海AI Lab开源Lumina-DiMOO,开创多模态理解与生成新范式
Collect
“复古皮革封面书籍,封面烫金写着‘Knowledge is Power’”的案例,从皮革的质感、烫金的光泽,到复古字体的设计,细节处处彰显着模型的“匠心”。
这还没完,它的“高级图像理解”能力同样强悍。你扔给它一张复杂的图片,它不仅能告诉你图片里有什么,还能像一个艺术评论家一样,分析图片的构图、光影、氛围,甚至推断图片背后的故事。
国产王炸!上海AI Lab开源Lumina-DiMOO,开创多模态理解与生成新范式
Collect
“橙汁溅出形成‘Smile’字样”的图片,不仅考验了模型对液体物理动态的理解,还考验了它对文字形态和艺术创意的把握。
第三大创新,是“更高的采样效率”。前面我们提到,Lumina-DiMOO的架构本身就带来了速度优势。但它的研发团队显然是群“卷王”,他们觉得还不够快。于是,他们专门设计了一种叫做“基于最大Logit的缓存方法”(Max Logit-based Cache)的黑科技。
这个技术听起来复杂,但原理可以这么理解:在模型生成图像的每一步(去噪过程),都需要做出成千上万个小决策。这个缓存方法就像一个“超级备忘录”,能够智能地记下那些最有可能被用到的“高分决策”,在下一步需要时直接调用,省去了大量的重复计算。就这么一个看似微小却极其精妙的改进,直接将采样速度又提升了整整2倍。
在实际应用中,Lumina-DiMOO在生成图像时,通常只需要64步采样就能得到高质量结果,而在进行图像理解这类更复杂的任务时,也能通过灵活调整块长度和采样步数,在性能和效率之间找到完美的平衡点。
最后,是它“卓越的性能表现”。Lumina-DiMOO在多个业界公认的权威基准测试中,交出了一份近乎满分的答卷。它的8B(80亿)参数规模的模型,在GenEval、DPG、OneIG-EN、TIIF等多个榜单上,直接屠榜,超越了所有已知的开源统一多模态模型。特别是在一些被认为是多模态模型“试金石”的细分能力上,比如多物体生成(能否准确生成图片中包含的多个物体)、颜色控制(能否精准控制物体的颜色)、位置精度(能否把物体放在指定的位置)等方面,Lumina-DiMOO的领先优势尤为明显。
国产王炸!上海AI Lab开源Lumina-DiMOO,开创多模态理解与生成新范式
Collect
不服?看看数据多离谱
在GenEval这个综合性生成能力基准测试上,Lumina-DiMOO与一众顶级模型的正面硬刚。这里面既有“专用生成模型”,也有像GPT-4o、Janus-Pro这样的“统一多模态模型”,个个都是名声在外的狠角色。
国产王炸!上海AI Lab开源Lumina-DiMOO,开创多模态理解与生成新范式
Collect
参数规模,Lumina-DiMOO是8B,在性能上,Lumina-DiMOO却展现出了跨级别的统治力。
在“单物体”生成上,它拿到了满分1.0,这意味着对于简单的指令,它几乎能百分之百完美复现。在更考验构图能力的“双物体”生成上,它拿到了0.94分,与业界顶尖的SD3-Medium和BAGAL持平,甚至超过了GPT-4o(0.92)。这说明它对物体之间关系的理解非常到位。
Lumina-DiMOO在“计数”、“颜色”、“位置”、“属性”这几项上,都是遥遥领先。这几个指标恰恰是过去多模态模型最容易翻车的地方。比如你让它画“3只猫”,它可能画出2只或者4只;你让它画“一个红色的球在一个蓝色的盒子左边”,它很可能把颜色搞混,或者把位置放错。而Lumina-DiMOO在这些“细活儿”上表现出的领先水平,证明了其架构在精准理解和执行复杂指令方面的巨大优势。特别是“位置”和“属性”这两项,是衡量模型是否真正理解了空间关系和语义概念的关键。Janus-Pro在“位置”上拿到0.79的高分已经很惊人了,而Lumina-DiMOO的表现相当“恐怖”了。
看看Lumina-DiMOO在各种任务上的实际表现:
  • 编辑:
国产王炸!上海AI Lab开源Lumina-DiMOO,开创多模态理解与生成新范式
Collect
  • 风格转换:
国产王炸!上海AI Lab开源Lumina-DiMOO,开创多模态理解与生成新范式
Collect
  • 主题驱动:
国产王炸!上海AI Lab开源Lumina-DiMOO,开创多模态理解与生成新范式
Collect
  • 控制:
国产王炸!上海AI Lab开源Lumina-DiMOO,开创多模态理解与生成新范式
Collect
  • 重绘:
国产王炸!上海AI Lab开源Lumina-DiMOO,开创多模态理解与生成新范式
Collect
  • 扩展:
国产王炸!上海AI Lab开源Lumina-DiMOO,开创多模态理解与生成新范式
Collect
  • 理解:
国产王炸!上海AI Lab开源Lumina-DiMOO,开创多模态理解与生成新范式
Collect
根据图片中显示的问题,请先进行推理,然后从选项中选择正确的答案。问题:根据图像,如果角度y与32度的角度形成一条直线,那么它的值是多少度? A. 148 B. 152 C. 180 D. 32
它能准确推理出正确答案 A。
Lumina-DiMOO的问世,意味着,全球的开发者和研究者都可以站在这个巨人的肩膀上,去探索更多可能,去创造更多价值。
从医疗影像的智能分析,到自动驾驶的精准感知,再到虚拟现实的沉浸式内容构建,Lumina-DiMOO所代表的技术突破,将渗透到未来社会的方方面面。
参考资料:
https://synbol.github.io/Lumina-DiMOO
https://github.com/Alpha-VLLM/Lumina-DiMOO
https://huggingface.co/Alpha-VLLM/Lumina-DiMOO
END
0
Report
|
收藏
Share
相关推荐
评论
in to comment
Add emoji
喜欢TA的作品吗?喜欢就快来夸夸TA吧!
推荐素材
You may like
相关收藏夹
IP形象及IP内容
IP形象及IP内容
IP形象及IP内容
IP形象及IP内容
精选收藏夹
作品收藏夹
导视系统
导视系统
导视系统
导视系统
精选收藏夹
作品收藏夹
餐饮案例
餐饮案例
餐饮案例
餐饮案例
精选收藏夹
作品收藏夹
C君精选-吉祥物设计
C君精选-吉祥物设计
C君精选-吉祥物设计
C君精选-吉祥物设计
精选收藏夹
作品收藏夹
地产VI
地产VI
地产VI
地产VI
精选收藏夹
作品收藏夹
IP形象——动物类
IP形象——动物类
IP形象——动物类
IP形象——动物类
精选收藏夹
作品收藏夹
大家都在看
Log in