GPT-4: 多模态模型即将开启人工智能的新篇章

本周值得关注的big thing: GPT-4 发布

目前的GPT-3.5只能理解文字,所以之前推荐的Youtube摘要工具glarity只能基于有字幕的视频 。

而GPT-4是多模态模型,可以同时理解图像、声音、文本和视频。也就是说,万物皆可作为输入和输出,AI 可以直接通过摄像头和扬声器和人类沟通,越来越像「人」甚至超越「人」。

也许未来某一天, 你很难分辨出来对面的是人还是机器人。改变人类的通用人工智能(AGI)和西部世界要来了吗?

本文带你从月初已发布的多模态Kosmos-1模型略窥一二👇

Thanks for reading Web3Brand! Subscribe for free to receive new posts and support my work.

Subscribe now

多模态语言模型Kosmos-1

3月初微软低调推出了一种名为 Kosmos-1 的多模态语言模型 MLLM,输入源从GPT-3.5 的文本扩展到了图像,并提供了论文下载,感觉就是在为GPT-4的发布铺垫

示例1展示了Kosmos-1的3大关键能力

  1. 零样本图像识别:识别出兔子

  2. 带上下文的图像问答:分辨出绒啄木鸟(downy)

  3. 以及图形推理:完成需要理解图形规律的 IQ 测试

我梳理了这篇论文的摘要

  1. 能够识别语言和图像,在上下文中学习和生成文本输出

  2. 可应用于语言任务(如推理,理解,生成,文字分类)和视觉任务(如图像识别,描述,提问,答复)

  3. 该模型基于Transformer语言模型,并使用一个名为Magneto的预训练模型,具有 1.6 亿参数

  4. 训练目标是预测下一个token,输入包括文本,图像嵌入,文档

  5. 能够在上下文中学习新的概念和关系,例如根据给定的图片或声音识别出其中的物体或动作 5. 该模型在数据集(如 MSCOCO,Raven IQ, Hateful Memes)上进行评估,并与其他模型(如 Clip 和 Flamingo)进行比较

  6. 其在语言和视觉任务上获得了不错的结果,且超过其他基准模型

  7. 作者还介绍了一个新颖的数据集——Raven IQ test,用于评估 MLLMs 的非语言推理能力

  8. 作者认为 MLLMs 是实现人工通用智能(AGI)的关键一步,并展望了未来可能面临的挑战和机遇

Kosmos-1完整能力&示例

完整能力

  • 语言任务

    • 语言理解

    • 语言生成

    • OCR-free文本分类

  • 跨模式转移

    • 常识推理

  • 非语言推理

    • 智商测试(Ravev渐进矩阵)

  • 感知语言任务

    • 图像说明

    • 视觉问答

    • 网页问答

  • 视觉任务

    • 零样本图像分类(zero-shot classification, ZSC)

    • 带描述的零样本图像分类

示例 2

- 图像解释(1)-(2)

- 图像问题回答(3)-(4)

- 网页问题回答(5)

- 简单数学计算(6)

- 数字识别(7)-(8)

示例 3

- 图像说明 (1)-(2)

- 图像问题回答 (3)-(6)

- OCR (7)-(8)

- 基于图像的对话 (9)-(11)

示例 4

- 在Raven IQ测试中评估 KOSMOS-1

- Prompt 由平面图像矩阵和口头指令组成

- 我们将每个候选图像分别附加到提示上,并询问模型是否正确。最终的预测是促使模型产生最高概率的 "是 "的候选答案,使得 KOSMOS-1 具备非语言领域的推理能力

示例 5

- 多模态思维链:使KOSMOS-1首先产生一个理由,然后处理复杂的答题和推理任务

Kosmos-1总结&GPT-4

可以看出,多模态模型让 Kosmos-1 具备了可以理解图片的能力,识别图片内容,学习与图片相关的知识,甚至完成 IQ 测试,越来越向「人」的能力接近。

微软在月初表示其计划向开发人员提供 Kosmos-1,但该论文引用的GitHub页面还没有出现包括 Kosmos 的特定代码,会在 GPT-4 发布后一并更新吗?

GPT-4 除了能理解图像,还有声音和视频。也就是说,万事万物都可以被其理解和输出,我们又向 AGI(通用人工智能)迈进了一步,在有生之年可能会进入人和 AI 共存的世界,AI 可以直接通过摄像头和扬声器和人类沟通,越来越像「人」甚至超越「人」。

未来是像流浪地球2这样充满摄像头的世界,还是充满人造人的西部世界?

Image

这样的世界很难想象,我们只能不断提升自己的能力来面对,驾驭 AI 而不是被 AI 淘汰

Twitter avatar for @starzqeth

starzq.eth⛩️ @starzqeth

TL;DR 1. ChatGPT会替代大量职位,我们需要具备差异化能力:想象力、决策和沟通能力 2. 传统的人才培养体系将失效,我们需要为自己设计培训系统 3. 2023将是 solopreneur(个体企业家)元年,个人创作者必须升级自己 下面我将详细介绍 2/21

1:08 PM ∙ Feb 6, 2023


100Likes7Retweets

欢迎来推特一键三连。我会定期分享案例与思考,AI和NFT这类科技如何为企业、创作者和消费者带来改变

Twitter avatar for @starzqeth

starzq.eth⛩️ @starzqeth

本周值得关注的big thing: GPT-4 发布 目前的GPT-3.5只能理解文字,所以之前推荐的Youtube摘要工具只能基于有字幕的视频 而GPT-4是多模态模型,可以同时理解图像、声音、文本和视频。也就是说,万物皆可作为输入和输出 改变人类的通用人工智能要来了吗?本文带你从已发布的Kosmos-1模型略窥一二👇

Image

12:45 AM ∙ Mar 13, 2023


174Likes38Retweets

Thanks for reading Web3Brand! Subscribe for free to receive new posts and support my work.

Loading...
highlight
Collect this post to permanently own it.
Web3Brand | Empower Global Individuals logo
Subscribe to Web3Brand | Empower Global Individuals and never miss a post.