您当前的位置:首页资讯前沿科技正文

人工智能大模型多模态:让机器更懂人类的世界

放大字体  缩小字体 发布日期:2023-08-17 浏览次数:0
     人工智能(AI)是一门致力于让机器具有人类智能的科学。人类智能是一种复杂而多样的现象,它涉及到多种信息的获取、处理、理解和表达。例如,我们可以通过视觉、听觉、触觉等感知环境,也可以通过语言、图像、音乐等表达思想和情感。这些不同类型的信息,我们称之为不同的模态(modality)。在人类的认知过程中,不同模态的信息是相互关联和协同的,比如我们可以通过看图说话,也可以通过听歌画画。这种跨模态(cross-modal)的能力是人类智慧的重要体现之一。

人工智能大模型多模态:让机器更懂人类的世界

  那么,机器是否也能够像人类一样,同时处理和学习多种模态的信息呢?这就是多模态人工智能(multimodal AI)的研究目标。多模态人工智能是人工智能的一个子领域,它旨在开发能够同时处理和学习图像、文本、音频等多种模态数据的模型。多模态人工智能有助于提升机器对人类世界的理解和生成能力,从而实现更自然、更流畅、更高效的人机交互。

  多模态人工智能的核心技术之一是多模态预训练大模型(multimodal pre-trained large model)。这种模型利用海量的无标注或弱标注数据进行自监督学习,从而学习到不同模态数据之间的共性和关联性,并形成一个统一的知识表示空间。在这个空间中,不同模态的数据可以相互转换和生成,比如从图像生成文本描述,或者从文本生成语音播报。这种模型可以有效地降低对数据标注的依赖性,同时提高对不同场景和任务的泛化性。

  近年来,随着计算资源和数据规模的增长,多模态预训练大模型取得了令人瞩目的进展。国内外的研究机构和企业纷纷推出了各自的多模态大模型,并在各种应用场景中展示了其强大的性能和潜力。例如:

  中国科学院自动化研究所发布了“紫东太初”跨模态通用人工智能平台1,该平台以三模态(视觉-文本-语音)预训练大模型为核心,可支撑全场景AI应用。该平台首次实现了“以图生音”和“以音生图”的功能,对视频配音、语音播报、标题摘要、海报创作等多元媒体业务场景提供了技术支撑。

  阿里达摩院发布了万亿参数AI大模型M62,该模型是国内首个实现商业化落地的多模态大模型。M6已经作为AI助理设计师正式上岗阿里新制造平台犀牛智造2,通过结合潮流趋势进行快速设计、试穿效果模拟,有望大幅缩短快时尚新款服饰设计周期。

  谷歌推出了CLIP和DALL-E两个多模态大模型,分别实现了从图像到文本和从文本到图像的转换和生成。CLIP可以根据文本提示从海量图像中检索出最相关的图像,或者给出图像的文本描述。DALL-E可以根据任意的文本输入生成逼真的图像,甚至可以创造出一些不存在的事物,比如“一个穿着西装的鳄梨”或者“一个长着猫耳朵的蛋糕”。

  这些多模态大模型不仅展示了机器对多种模态数据的理解和生成能力,也体现了机器具有一定的认知和创造能力。这些能力是通向通用人工智能(AGI)的重要步骤,也是人工智能领域的前沿探索。多模态人工智能的未来必将风光无限,让我们拭目以待!

声明:凡资讯来源注明为其他媒体来源的信息,均为转载自其他媒体,并不代表本网站赞同其观点,也不代表本网站对其真实性负责.您若对该文章内容有任何疑问或质疑,请立即与本网站联系,本网站将迅速给您回应并做处理.
联系QQ:1325426082
邮箱:1325426082@qq.com

“如果发现本网站发布的资讯影响到您的版权,可以联系本站!同时欢迎来本站投稿!