环球热讯:一个 AI 驱动百万个 API!微软提出多任务处理模型 TaskMatrix,机器人和物联网终于有救了

2023-04-01 07:15:51 来源:量子位

通往 AGI 的路究竟怎么走,微软有了新想法——

基于 ChatGPT 这类大模型的强大理解能力,将输入的任何信号拆解成一个个可完成的任务,交给其他的 AI 和程序完成。

简单来说,就像是建了一座司令塔,每个大模型都能成为其中的 " 大脑 " 指挥官,其他专门解决某类任务的模型,则听它调令——


(相关资料图)

这样一来,不限定某个 AI,所有大模型都能使用这套方法。

能解决什么问题?

人类只需要提需求,AI 从自动做 PPT、Word 和 Excel 三件套(Office 自动化),到驱动机器人完成各种智能任务,都能搞定。

这个最新的研究名叫TaskMatrix,据微软表示,它能直接驱动数百万个用于完成任务的 AI 和 API。

论文还引用了 OpenAI CEO 奥特曼那句 AI 版摩尔定律:

宇宙中的智能数量每 18 个月翻一番。

一起来看看 TaskMatrix 是怎样工作的。

AI" 司令塔 " 如何工作?

这是 TaskMatrix 的整体工作流程:

从架构图来看,TaskMatrix 可以被分为四部分:

多模态对话基础模型(MCFM):与用户对话并了解需求,从而生成 API 可执行代码以完成特定任务

API 平台:提供统一 API 格式,存储数百万个不同功能的 API,允许扩展和删除 API

API 选择器:负责根据 MCFM 生成的内容推荐 API

API 执行器:调用 API 并执行生成代码,给出结果

简单来说,MCFM 负责生成解决方案,API 选择器从 API 平台中选取 API,随后 API 执行器基于 MCFM 生成的代码调用 API,并解决任务。

其中,为了统一 API 管理,API 平台又给 API 统一了文档格式,包含以下五个部分:

API 名称(提供 API 摘要,避免与其他 API 混淆),参数列表(包含输入参数和返回值等),API 描述(功能描述),组合指令(如何组合多个 API 完成复杂用户指令)

例如这是 " 打开本地文件 "API 的文档格式:

据微软介绍,搭建 TaskMatrix 的原因,从学术角度来说主要有两点。

其一,扩大 AI 适用范围,如通过扩展 API 来提升可完成任务的类型和数量;其二,便于进一步提升 AI可解释性,通过观察 AI 分配任务的方式就能理解它的 " 思路 "。

能完成什么任务了?

目前从已经搭建好的 TaskMatrix 部分来看,它能完成的任务已经非常广泛。

小到文字、图像信息的基础信息处理,大到控制机器人平台、接入物联网这种通用平台任务,TaskMatrix 都能搞定。

先来看看图像处理任务。

TaskMatrix 解读用户想要完成的任务后,就能通过对话的方式,搞定 PS(把老人背景 P 成白的)、解读图像、文生图、草图转真实图像、抠图等一系列现实生活中常见的图像处理操作:

如果说这些都还太常见,基于 TextMatrix 还能搞定真 · 图像扩展,基于一小角扩展到一整张图的那种,而不仅仅是采用平铺的方式。例如输入一朵花:输出一片花田:再来看看文字处理任务。

以往需要手动改 AI 写过的方案,如今直接将问题抛给 AI,它就能完成,例如具体修改某个特定的步骤。

(像不像被甲方一点点催改文件的样子?只是如今你变成了甲方)

以后生成文章,就是连插图都配好的那种:

当然,既然是微软的研究,少不了调用 Office 系列的 API,包括做 PPT 这种活,如今交给 AI 来做就行:再进一步到通用任务上,之前一直存在瓶颈的机器人和物联网等平台,如今 TaskMatrix 也给出了解决通用任务的方案。

家里接入 AI 后,和它对话就能完成你想要的各种琐碎任务,包括定闹钟、查看天气等:

属实是解放人类生产力了。

你想好把它用在哪里了吗?

论文地址:

https://arxiv.org/abs/2303.16434

标签:

Copyright ©  2015-2022 东方公益网版权所有  备案号:沪ICP备2020036824号-8   联系邮箱:562 66 29@qq.com