本报电 (记者刘峣)近日,北京智源东谈主工智能计划院认真发布原生多模态全国模子Emu3。该模子已矣了视频、图像、文本三种模态的谐和讨论与生成,奏凯考据了基于下一个token(词元)量度的多模态时刻范式,开释其在大领域考试和推理上的后劲。
据了解Emu3只基于下一个token量度,无需扩散模子或组合式模式,把图像、文本和视频编码为一个闹翻空间,在多模态夹杂序列上从新开动合股考试一个Transformer。
智源计划院院长王仲远示意,Emu3为构建多模态通用东谈主工智能提供了广袤的时刻远景,有契机将基础门径诞生连接到一条时刻阶梯上,为大领域多模态考试和推理提供基础。异日,多模态全国模子将促进机器东谈主大脑、自动驾驶、多模态对话和推理等场景专揽。