Please enable JavaScript.
Coggle requires JavaScript to display documents.
AGENT AI: SURVEYING THE HORIZONS OF MULTIMODAL INTERACTION - Coggle Diagram
AGENT AI: SURVEYING THE HORIZONS OF MULTIMODAL INTERACTION
引言
背景
大型基础模型
:包括LLM和VLM,LLM可以潜在地处理复杂的以前被认为是人类专家或特定领域算法所专有的任务,例如,从
数学推理
(Imani等人,2023年; Wei等人,2022年; Zhu等人,2022年)到
回答专业法律问题
(Blair-Stanek等人,2023年; Choi等人,2023年;Nay等人,2022年);
生成用于机器人和游戏AI的复杂计划的可能性
(Liang等人,2022; Wang等人,2023 a,B; Yao等人,2023 a; Huang等人,2023 a)
具体化AI
:利用LLM来执行
任务规划
,通过将自然语言指令分解成自然语言形式或Python代码的子任务序列,然后使用低级控制器来执行这些子任务。此外,结合
环境反馈
以改善任务表现(Huang等人,2022 b),(Liang等人,2022),(Wang等人,2023 a),以及(Ikeuchi等人,2023年)的报告。
交互式学习
:Agent AI可以与用户的实时交互中学习,(1)
基于反馈的学习
:AI基于直接用户反馈来调整其响应(Li等人,2023 b; Yu等人,2023 a;帕拉赫等人,2023年;查等人,2023年; Wake等人,2023年a、B、c);(2)
观察式学习
:观察用户交互并进行隐式学习,用户频繁地提出类似的问题或以特定的方式与AI交互,AI可能会调整其响应以更好地适应这些模式。
动机:大语言模型(LLM)和视觉语言模型(VLM)使得创造符合整体理想的新型人工智能代理成为可能。(1)
OpenAI在2023年
的报告中的GPT4,LLM能够解读真实世界语言数据的细微差别,通常能够达到与人类专业知识相当甚至超越人类专业知识的能力;(2)
Xi等人,2023年
的报告,LLM可以被扩展为充当各种环境中的代理,当与特定知识和模块配对时执行复杂的动作和任务;(3)
Wu等人,2023年; Meta等,2022年
的报告,这些场景的特征在于复杂的推理、对代理人的角色及其环境的理解沿着多步规划,这些场景测试代理人在其环境约束内做出高度细致和复杂决策的能力。
智能体AI学习
Agent系统(零样本和少样本)
Agent基础设施
Agent模块:1)环境感知和任务规划,2)Agent学习,3)记忆,4)一般Agent行为预测和5)认知
策略与机制
模仿学习(IL):利用专家数据来模仿有经验的代理人或专家的行为。
文本学习:少样本提示(One-shot/Few-shot)是指通过在提示中提供少量的示例来引导模型理解任务并生成预期的输出。这种方法适用于模型需要特定模式或结构输出的任务,提高模型特定任务的性能。
Agent系统中的优化
空间优化:考虑代理如何在物理空间内操作以执行任务。这包括机器人之间的协调、资源分配和保持有组织的空间。
时间优化:关注代理如何随时间推移执行任务。这包括任务调度、排序和时间轴效率。例如,优化机器人手臂的轨迹是有效地优化连续任务之间的移动的示例。
传统RGB:(Padalkar等人,2023;Brohan等人,2023)研究主要解决数据稀缺问题的大规模数据集。为了提高样本复杂性,数据增强技术也被广泛研究(Zeng等人,2021;Rao等人,2020;Haarnoja等人,2023;Lifshitz等人,2023)。
强化学习(RL):一种基于其行为所获得的奖励(或惩罚)来学习状态和行为之间的最佳关系的方法。
数据收集和效率:基于RL的策略学习(直接学习一个策略(policy),该策略能够告诉智能体在给定状态下应采取的最佳行动以最大化累积奖励。)需要大量数据,复杂情景需要更细致的决策,并从更广泛的情况中学习,最近的方向是加强数据生成,以支持策略学习。
长序列问题:动作序列长度的增加,由于
行动和回报之间的关系模糊
,即所谓的
学分分配问题
,以及需要探索的
状态数量的增加
,需要大量的时间和数据。对于
长时间且复杂任务
的典型方法是将它们分解成
一系列子目标
,并应用预先训练的策略来解决每个子目标。该思想被称为
(高层次)任务和(低层次)运动规划
的(TAMP)框架,任务规划需要识别高级动作的序列,运动规划涉及找到物理上一致的、无碰撞的轨迹以实现任务规划的目标。最近研究使用LLM用于执行高级任务规划,而低级控制用基于RL的策略来解决
奖励函数设计:需要对任务性质的深入理解,通常需要基于专家经验来制作函数。几项研究探索了LLM/VLM在设计奖励函数中的应用。
不同领域的交互式AI策略
,扩展了使用经过训练的代理调用大型基础模型的范例,该代理积极寻求
收集用户反馈,动作信息,有用的知识
以进行生成和交互。有时,LLM/VLM模型不需要再次训练,通过在测试时为代理
提供改进的上下文提示
来提高它们的性能。另一方面,它总是涉及
知识/推理/常识/推理交互式建模
,通过三重系统的组合,一是
从多模型查询执行知识检索
,二是
从相关代理执行交互式生成
,三是
训练一个新的
,信息丰富的自监督训练或预训练,采用强化学习或模仿学习改进的方式。
Agent基础模型(预训练和微调级别)
智能体AI新范式和框架
Agent Transformer
定义:除视觉和语言外,增加代理令牌(Agent token),在概念上,Agent令牌被
用来为Agent行为保留模型的输入和输出空间的特定子空间
。在
训练代理使用特定工具(如图像生成或图像编辑模型)或其他API调用
时,可以使用代理令牌。将代理令牌与视觉和语言令牌相结合,以生成用于训练多模态代理AI的统一接口。
优点:(1)模型可以被容易地定制为难以用自然语言表示的非常具体的代理任务(例如,控制器输入或其他具体动作);(2)通过访问代理令牌的概率,可以更容易地理解模型为什么采取或不采取特定的行动;(3)某些领域,如医疗保健和法律,有严格的数据隐私要求;(4)相对较小的代理Transformer可能比较大的专有语言模型便宜得多。
创建
定义领域内的目标:训练主体Transformer模型,需明确定义代理
在每个特定环境中的目标和行动空间
,包括确定代理需要执行的特定任务或操作,并为每个任务或操作分配唯一的代理令牌。这样可以提高训练数据质量,减少对基础模型生成的或人工注释数据的依赖。
持续改进:持续监控模型性能和收集反馈,确保该模式不会使偏见或不道德的结果永久化,需要仔细检查训练数据,定期检查输出中的偏差,并在必要时训练模型以识别和避免偏差。
LLM和VLM模型:使用LLM或VLM模型来引导Agent的组件,LLM对任务规划执行力好,并且逻辑推理能力强。诸如
CLIP
的VLM((Radford等人,2021)提供了一种语言对齐的通用视觉编码器,并提供了零触发视觉识别能力。例如,现有技术的开源多模态模型诸如
LLaVA
(Liu等人,2023c)和
指令BLIP
(Dai等人,2023)依赖于冻结的CLIP模型作为视觉编码器。
(1)利用
现有的预训练模型和预训练策略
,
引导
智能体有效地理解重要的模态,如文本或视觉输入;(2)支持足够的
长期任务规划能力
;(3)建立一个记忆框架,以便对
新学习到的知识
进行编码,并在以后检索;(4)允许利用环境反馈有效地训练代理人,使其了解应采取哪些行动。
标题:智能体人工智能:多模式交互视野综述
不同领域和应用中感知和行动的Agent AI系统:
摘要:使多模态AI系统更具有交互性的方法是将它们体现为物理和虚拟环境中的代理。Agent AI是一种能够感知视觉、语言和其他环境数据,并能产生有意义行动的交互式系统。这种系统对于创建复杂和上下文感知的AI至关重要,能够感知用户动作、人类行为、环境对象等,并据此做出响应。通过结合外部知识、多感官输入和人类反馈,Agent AI能够预测并执行具体的行动。
智能体人工智能集成
无限AI智能体
人工智能代理系统通常具有以下能力:1)
预测建模
:可以预测可能的结果,或根据历史数据和趋势建议下一步。例如,它们可以预测文本的延续、问题的答案、机器人的下一个动作,或者场景的解决方案。2)
决策
:可以根据自己的推理做出决策。通常,代理人会根据最有可能实现指定目标的方式来做出决策。对于推荐系统等AI应用,代理可以根据其对用户偏好的推断来决定推荐什么产品或内容。3)
处理歧义
:可以通过基于上下文和训练推断最可能的解释来处理歧义输入。但是,会受到它们的训练数据和算法的范围的限制。4)
持续改进
:虽然一些人工智能代理有能力从新的数据和交互中学习,但许多大型语言模型在训练后不会持续更新它们的知识库或内部表示。他们的推断通常仅基于截至其上次训练更新时可用的数据。
例子:用于多模态和跨现实不可知集成的增强的交互代理,人工智能代理需要
为每个新任务收集大量的训练数据
,这对于许多领域是昂贵的或不可能的。本研究开发了一个
无限代理
,它学习从一般的基础模型(例如,GPT-X、DALL-E)到用于在物理或虚拟世界中的场景理解、生成和交互式编辑的新颖领域或场景。机器人技术中的这种无限代理的一个应用是RoboGen(Wang等人(2023),作者提出了一个自动运行任务建议、环境生成和技能学习循环的流水线。RoboGen致力于将嵌入大型模型的知识转移到机器人技术中。
通过集成Agent AI框架,大型基础模型能够更深入地理解用户输入,形成复杂的自适应人机交互系统。LLM和VLM的突现能力在生成式AI、具身AI、用于多模型学习的知识扩充、混合现实生成、文本到视觉编辑、用于游戏或机器人任务中的2D/3D模拟的人类交互中不可见。
Agent AI与大型基础模型
偏见和包容性:包容性是指用于
确保代理的响应和交互
对来自不同背景的广泛用户具有包容性、尊重性和敏感性的措施和原则。
偏见
训练数据:基础模型是从互联网上收集的大量文本数据上训练的,包括书籍、文章、网站和其他文本来源。这些数据反映人类社会中存在的偏见,模型会无意中学习这些偏见。这包括与种族、性别、族裔、宗教和其他个人属性有关的偏见。
历史和文化偏见:训练数据通常包括来自各种文化的历史文本或材料。
语言和上下文限制:语言模型可能难以理解和准确表示语言中的细微差别,例如讽刺、幽默或文化引用。
政策和准则、过度泛化、持续监控和更新、扩大主导观点、道德和包容性设计、用户指南
减少偏见的方法:(1)多样化和包容性的训练数据;(2)偏差检测和纠正;(3)道德准则和政策;(4)多样化的表现;(5)偏差缓解;(6)文化敏感度;(7)可访问性:确保AI代理可供不同能力的用户访问,包括残疾用户。这可能涉及到加入一些功能,使
视觉、听觉、运动或认知障碍的人
更容易进行交互;(8)基于语言的包容性:各种语言和方言;(9)道德和尊重的互动;(10)用户反馈和适应;(11)遵守包容性准则
数据隐私和使用:数据收集、使用和目的;存储和安全性;数据删除和保留;数据可移植性和隐私政策;匿名化
幻觉(hallucinations):人工智能系统生成的与现实世界事实或用户输入不一致的内容。幻觉可以分为两类,内在的和外在的。内在幻觉是与原始材料相矛盾的幻觉,而外在幻觉是当生成的文本包含原始材料中最初没有包含的额外信息时。怎么样降低幻觉率?通过
检索附加的源材料
并
提供检查所生成的响应与源材料之间的矛盾的机制
来寻求增强语言生成。VLM也会出现幻觉现象,由于过度依赖于训练数据中物体和视觉线索的同时出现。
可解释性
模仿学习Imitation Learning→解耦Decoupling
:传统(IL)模仿学习,代理通过模仿专家的行为来学习策略,但这种方法在面对看不见的情况时可能难以泛化。为解决这个问题,提出使用
无限内存代理
,从专家数据中学习策略,改善对不可见环境空间的探索和利用。但这不总是最好的方法,建议
学习一个带有上下文提示或隐式奖励函数的代理
,它可以捕获专家行为的关键方面。Agent AI背后的关键思想:(1)
收集物理世界专家演示作为状态-动作对的无限代理
,其中“状态”描述专家在做出动作时的环境或情境,“动作”是专家在该状态下所执行的具体行为。状态-动作对是训练代理的基础数据,代理将通过学习这些数据来模仿专家的行为。(2)
模仿代理生成器的虚拟环境
:在虚拟环境中,代理通过模仿专家的状态-动作对来学习如何执行任务。这个环境允许代理在没有实际风险的情况下尝试和犯错,从而学习如何更好地执行任务。
解耦Decoupling→泛化Generalization
:解耦表示代理不依赖于特定任务的奖励函数,而是通过学习专家演示中的状态-动作对来掌握策略。解耦不依赖于特定的奖励函数,使得代理能够将在一个任务中学到的策略应用到其他相关任务中,提高泛化能力。代理能够将在一个领域学到的知识迁移到其他领域,只需最小的调整
(迁移学习)
。解耦将
学习奖励函数的过程
与
学习最优策略的过程
分开,可以更灵活地处理不同的任务和环境
(学习过程的分离)
。
泛化Generalization→紧急行为Emergent Behavior
:多个简单组件的相互作用可以导致复杂行为的出现。
增强推理:通过额外的工具,技术或数据来增强AI的自然推理能力
Human-in-the-Loop (HITL):在人类判断至关重要的领域,例如道德考量、创造性任务或模棱两可的场景,引入人类输入来增强人工智能的推理尤其有用。
实时反馈集成
算法增强
跨领域知识转移:利用一个领域的知识或模型来改进另一个领域的推理在专业领域内产生输出时尤其有用。例如,为语言翻译开发的技术可能会应用于代码生成,或者来自医疗诊断的见解可以增强机器的预测性维护。
数据丰富
特定使用情形的定制:特定应用或行业量身定制AI的推理能力涉及在专门数据集上训练AI或微调,如法律的分析、医疗诊断或金融预测。
伦理和偏见考虑
持续学习和适应
人工智能的紧急能力:目前建模实践要求开发人员为每个领域准备
大型数据集
,以
微调/预训练
模型;然而,如果领域是新的,这个过程成本高昂,甚至不可能。为了解决这个问题,我们建立了
交互式代理
,利用
通用基础模型(ChatGPT,Dall-E,GPT-4等)的知识记忆
。
智能体AI分类
具体化Agent
交互式Agent:指可以与世界交互的代理,这是一个比行动代理更广泛的代理类别。
行动Agent:是指在模拟的物理环境或真实的世界中需要执行物理动作的主体。将动作代理大致分为两类:游戏AI和机器人。在游戏AI中,代理将与游戏环境和其他独立实体进行交互。在这些环境中,自然语言可以实现代理和人类之间的顺畅通信。根据游戏的不同,可能会有一个特定的任务要完成,提供一个真正的奖励信号。
通用代理区域:(1)主要主题:多模态智能体AI,通用智能体AI ;(2)次要主题:智能体,动作智能体,基于智能体的智能体,视觉和语言智能体,知识和推理智能体,游戏,机器人,医疗保健等智能体;(3)扩展主题:视觉导航,仿真环境,重排,抽象基础模型,VR/AR/MR,虚拟视觉和语言。
仿真和环境Agent:(1)Habitat提供了3D室内环境,其中人类和机器人代理可以执行诸如导航、指令跟随和问题回答之类的各种任务;(2)VirtualHome支持在3D室内环境中操纵物体的人类化身;(3)Overcooked-AI一种设计用于研究人类和AI之间的合作任务的基准环境。
生成式Agent
AR/VR/混合现实Agent:通过促进创建者和构建工具之间的交互来帮助构建最终的虚拟环境。
目标:(1)向场景添加交互式3D内容;(2)向对象添加任意行为和交互规则,允许用户在最小提示的情况下创建自己的VR规则;(3)通过使用多模态GPT 4-v模型,从一张纸上的草图生成整个水平几何结构,以及其他涉及视觉AI模型的模型链;(4)使用扩散模型在场景中重新纹理化内容;(5)从简单的用户提示创建自定义着色器和视觉特效。
知识与逻辑推理Agent
神经象征Agent
知识Agent:从两个方向对获取的知识系统进行推理:
隐式推理和显式推理
。
隐式推理
指在
没有明确指示或提示
情况下,系统通过内部的逻辑和已有的知识来推导出结论。例如细粒度对齐模型,IRRA模型利用自注意力和交叉注意力机制构建视觉和文本表示之间的关系,实现有效的隐式模态间和模态内细粒度关系学习。
显式推理
指系统在
明确的指示或提示
下进行的推理过程。对给定信息的直接处理和分析,需要模型理解和执行具体的任务指令。
逻辑Agent:指专门用于处理逻辑推理任务的组件或子模块。
情感推理Agent:使代理以增加的情感和同理心行动,同时最小化社交不适当或攻击性输出。
LLM和VLM Agent
Agent AI应用程序任务
机器人
LLM/VLM机器人Agent
任务规划和技能训练
:基于
任务和运动规划(TAMP)
系统,首先计算
高级任务计划
,然后通过
低级机器人控制(技能)
实现这些计划。LLM的高级语言处理能力已证明
解释指令
并将它们
分解成机器人动作步骤的能力
,实现任务规划技术;
技能训练
使用LLM/VLM用于
设计奖励函数
的用途(Yu等人,2023 a; Katara等人,2023年; Ma等人,2023年),生成数据以促进策略学习(Kumar等人,2023; Du等人,2023),或者
作为奖励功能的一部分
(Sontakke等人,2023年)的报告。与RL和IL等训练框架一起,这些将有助于开发高效的机器人控制器。
现场优化
:由于意外和不可预测的环境条件,在机器人中执行长任务步骤可能会很困难。因此,在机器人领域的一个重大挑战涉及通过将任务计划与实时环境数据集成来动态地适应和改进机器人技能。通过整合环境信息和在任务计划或控制器级别调整机器人的动作来寻求实现基于环境的机器人执行。
多模态系统
:将LLM和VLM技术作为
输入信息的编码器
。特别地,修改这些基础模型以
处理多模态信息
的显著趋势。
会话Agent
:模型处理并生成模仿人类对话的响应,使机器人能够参与有意义的对话。
导航Agent
:基于
地图的路径规划和用于创建环境地图的同步定位与地图绘制(SLAM)
等核心方面。一个代表性的任务是
对象导航
(Chaplot等人,2020 a; Batra等人,2020年; Gervet等人,2023年; Ramakrishnan等人,2022; Zhang等人,2021),其中机器人
使用对象名称而不是地图坐标进行导航
,需要在环境中对对象名称进行视觉基础。此外,最近研究
在基础模型之上
,在零发射的基础上,在完全不熟悉的新环境中导航机器人的技术,即所谓的
零发射对象导航
(Gadre等人,2023年; Dorbala等人,2023; Cai等,2023年)的报告。另外,
视觉语言导航(VLN)
(安德森等人,2018 a)是一种代表性的任务,该任务涉及
在以前看不见的真实世界环境中通过自然语言指令来导航代理
(Shah等人,2023 a; Zhou等人,2023 a; Dorbala等人,2022; Liang等人,2023; Huang等人,第2023段b)。VLN会解译句子,而非物件名称,例如“go to bathroom on your left”。因此它需要更高的功能性来解析输入文本(Wang等人,(2019年版)。
(1)视觉运动控制:指视觉感知和运动动作的整合,以有效地执行机器人系统中的任务;(2)语言条件性操纵:需要机器人系统
基于语言指令解释和执行
任务的能力;(3)技能优化:最近的研究强调了LLM在机器人任务规划中的有效性。然而,任务的最佳执行,特别是那些涉及物理交互(如抓取)的任务,需要对环境有更深的理解,而不仅仅是解释人类指令。例如,机器人抓取需要精确的接触点(Wake等人,2023 e)和手臂姿势(Sasabuchi等人,2021)以有效地执行后续动作。
实验和结果
该管道由两个模块组成:
任务规划和参数化
。在任务规划中,系统被
输入语言指令
和
工作环境
的描述。指令沿着一组预定义的机器人动作和输出规范一起被编译成提供给ChatGPT的综合提示,然后
生成一系列分解的任务及其文本描述
。值得注意的是,我们采用了一种少镜头的方法,ChatGPT没有针对此任务进行过训练,这在适用性方面具有优势,因为它消除了依赖于硬件的数据收集和模型训练的需要。此外,输出的文本描述使用户能够
根据需要检查和调整结果
,这对于安全可靠的操作是至关重要的。
低层次的控制策略,实际操作需要详细的参数。
例如,抓取类型对于在将内容物倒出的同时搬运容器是至关重要的,在模拟器中经常忽略这样的参数。因此,在机器人系统中,用户需要直观地演示每个动作,视觉系统从视频中提取这些参数。值得注意的是,机器人系统不是为精确复制人类运动而设计的(即,遥控操作),而是处理变化的真实世界条件,诸如对象位置的变化。例如,用于避免碰撞的航路点(Wake等人,2023 a),抓握类型(Wake等人,2023 e)和上肢姿势(Sasabuchi等人,2021年; Wake等人,2021年a))。
越来越多研究表明,VLMs和LLM在
符号任务规划方面
具有很好的能力
(例如,要做什么)
。然而,每个任务都需要
低级别的控制策略(例如,如何做)
来实现
环境之间的成功交互
。虽然
强化学习和模仿学习
是以
数据驱动的方式学习策略
的有前途的方法,但另一种有前途的方法是
通过现场演示直接从人那里获得策略
,这种方法称为
从观察中学习
(Wake等人,2021 a; Ikeuchi等人,0)。
例子:使用GPT-4V(Vision)在多模态输入环境中扩展了上述任务规划器(图15),人类执行的动作旨在被机器人复制。该pipeline获取演示视频和文本,然后输出一系列机器人动作。
视频分析器
是了解视频中人类所执行的动作。我们使用了GPT-4V,并提供了一个提示,以生成典型的人与人交流风格的文本指令。第二张图将视频输入到视频分析器中,视频被固定时间段裁剪为5帧图像,输入GPT-4V中输出一段描述性文字,用户可以针对这段文字进行反馈。
场景分析器
基于指令和视频数据的第一帧(或环境的图像)将期望的工作环境编译成文本信息。该环境信息包括GPT-4V所识别的
对象名称的列表、对象的可抓取属性以及对象之间的空间关系
。第三张图显示了我们的场景分析器的示例输出,基于给定的文本指令和环境信息,任务规划器输出任务序列。
机器人导航的具体Agent
:视觉语言导航(VLN)是指在真实的三维环境中,通过导航一个具体化的智能体来执行自然语言指令的任务。
健康
(1)
诊断Agent
:最初的结果已经表明可以通过利用大规模的网络数据来训练卫生保健知识的LMM(Li等人,2023年f月);(2)
知识检索Agent
:在医学背景下,模型幻觉特别危险,甚至可能导致严重的患者伤害或死亡,这取决于错误的严重程度。因此,使用
Agent来更可靠地检索知识的方法
(Peng等人,2023)或以基于
检索方式生成文本
(Guu等人,2020年)是有希望的方向。将
诊断Agent与医学知识检索Agent配对
具有显著减少幻觉的潜力,同时提高诊断对话代理的响应的质量和精确性;(3)远程医疗和远程监控:初级临床医生花费大量时间筛选患者消息、报告和电子邮件,而这些信息通常与他们无关或不需要查看。Agent可以帮助分类来自医生、患者和其他医疗保健提供者的消息,并帮助向各方突出重要消息,这一点具有很大的潜力。通过使用代理人工智能系统能够与患者、临床医生和其他人工智能代理进行协调。
当前的医疗能力
图像理解
:现代多模式试剂(如GPT-4V)在医疗保健背景下的当前能力和局限性。虽然GPT-4V拥有医院护理中涉及的设备和程序的重要内部知识,但它并不总是对用户提出的更多规定性或诊断性询问做出响应。
视频理解
:首先,研究了VLM在临床空间中识别重要患者护理活动的能力。其次,探讨了VLMs在更多技术视频(如超声)中的使用。具体而言,GPT-4V在医院护理和医疗视频分析方面的一些当前功能和局限性。
在医疗领域,LLM和VLM可以作为诊断Agent,患者护理助理,甚至治疗辅助工具
游戏Agent
人机互动:传统的互动模式主要是一维的,NPC以预设的方式对玩家的输入做出反应。通过采用LLM和VLM技术,游戏系统可以分析和学习人类行为,以提供更人性化的交互。
基于Agent的博弈分析
NPC行为:在游戏中,非玩家角色(NPC)的行为主要由开发人员精心制作的预定义脚本决定。利用LLM来诱导NPC行为的自主性和适应性,使互动更加细致入微。AI驱动的NPC可以从玩家行为中学习,适应不同的策略,并提供更具挑战性和更少可预测性的游戏体验。通过处理大量的文本,LLM可以学习模式并生成更多样化和更人性化的响应。它们可以用来创建动态对话系统,使与NPC的互动更具吸引力,更不可预测。
游戏场景合成
多模态Agent(Multimodal Agents)
:
视频和语言理解和生成
视频语言生成
:视频字幕或视频故事讲述是为视频帧流生成连贯句子序列的任务。该领域的一个重要目标是创建一个能够有效地对帧序列进行编码并生成主题连贯的多句段落的Agent感知文本合成模型。
视频理解
:将图像理解的范围扩展到动态视觉内容,这涉及对视频中的帧序列的解释和推理,通常与伴随的音频或文本信息结合。视频理解包括视觉和语言内容的时间对齐、长帧序列的处理,以及对随时间展开的复杂活动的解释。对于音频,Agent可以处理口语、背景噪音、音乐和语音语调,以理解视频内容的情绪、设置和微妙之处。
实验和结果
知识密集型Agent
:
视觉语言Transformer Agent
:从字幕训练视觉语言转换器”(VLC)模型,专门用图像-字幕对进行了预训练。
(1)
知识密集型Agent
:如INK(Park等人,2022年)和KAT(Gui等人,2022 a),结合了由
人类注释的所需知识
以支持知识密集型检索任务的密集型神经知识任务;(2)
多模态智能体
:Chameleon (Lu et al., 2023) 和MM-React (Yang et al., 2023c);(3)
视觉指令调整
:VCL(Gui等人,2022 b)、Mini-GPT 4(Zhu等人,2023)、MPLUG-OWL(Ye等人,2023 b)、LSKD(Park等人,2023 c)生成映像级指令调优数据集。
图像语言理解和生成
:是指用语言解释给定图像中的视觉内容并生成相关语言描述的任务。多模态智能体能够
识别图像中的物体,理解它们的空间关系,生成关于场景的精确描述语句
,并利用推理技能来处理知识密集型视觉推理。这不仅需要物体识别能力,还需要对空间关系、视觉语义的深刻理解,以及将这些视觉元素映射到语言结构并整合世界知识的能力。
视频语言实验
GPT-4V的音频视频语言Agent
:整合了视觉、音频和语音,用于对视频的细微差别和精确理解。下面比较了两种Agent,(1)video-instruction tuned model(Li等人,2023 g)提供了准确的内容,但缺乏全面性和细节,缺少具体的行动,如有条不紊地使用扫帚测量树的高度;(2)GPT-4V只使用帧标题创建视频摘要,但这个有明显的错误。但当加入音频后,设法准确地描述了内容,甚至捕捉到了详细的物理动作,如“将扫帚柄垂直于身体并将其向下旋转。
GPT-4V修饰的多模式Agent
:使用
StackOverflow获取初始Question
,然后使用“
Bing search
”API检索与问题对应的
相关视频和音频
。接下来,使用GPT-4V来获取
相关的文本信息和高层视频描述
。另一方面,通过
ASR将关键帧音频转换为关键帧的低级段描述
。最后,使用GPT-4V生成令人信服的“幻觉”,作为视频问答任务的硬否定查询。我们支持视频当前帧中的交互和问题回答,以及对整体高级视频描述的摘要。在推理过程中,我们还通过网络搜索结合联合收割机外部知识信息,以提高回答能力。
为了用于视频理解,在
时间上扩展并微调InstructBLIP
(Dai等人,2023)用于视频字幕。
NLP Agent
遵循LLM Agent的指示:
通用LLM Agent:许多人-机-交互代理的关键组件,例如“Autogen”(Wu等人,2023)和“Retrive What You Need”(Wang等人,2023 g)。
实验和结果
在每个时期,阶段1和阶段2交替执行。在阶段1期间,读者模型的参数保持固定,并且仅更新知识选择器的权重。相反,在阶段2期间,读者模型的参数被调整,而知识选择器的权重保持冻结。
LLM Agent
改进Agent的推理和规划
将系统和人的反馈结合起来:不断学习和适应不同反馈来源的能力确保代理始终提供帮助并与用户需求保持一致。
工具使用和知识库查询:强调了将外部知识库、网络搜索或其他有用工具集成到人工智能Agent的推理过程中的重要性。
跨模式、领域和现实的Agent AI
跨领域理解Agent
:现有的LLM和VLM在不同领域之间表现出显着差异,但人类拥有解释各种来源的图像和视频的能力,包括真实世界,视频游戏和专业领域。
跨模态和跨现实的交互式Agent
跨模态理解Agent
:由于缺乏包含视觉、语言和智能体行为的大规模数据集,多模态理解是创建通用人工智能智能体的重大挑战。一般地,用于AI Agent的训练数据的模态是特定的。这导致现代多模态系统使用冻结子模块的组合。例如,Flamingo(Alayrac等人,2022)、BLIP-2(Li等人,2023 c)和LLaVA(Liu等人,2023 c),这些都是
冻结LLM和冻结视觉编码器
。这些子模块在单独数据集上单独训练,然后训练自适应层以将视觉编码器编码到LLM嵌入空间中。使用冻结LLM和视觉编码器的策略需要改变。实际上,当
机器人和视觉语言任务联合调整视觉编码器和LLM
时,在机器人领域内采取动作的最新视觉语言模型RT-2的性能显著改进。
模拟到现实的转换
:
"模拟现实"问题
:由于模拟和现实之间的这种差异,在模拟中训练的模型在应用于现实世界时通常难以很好地执行。解决这个问题的办法:(1)
域随机化
:
一种训练模型的技术
,同时
随机地改变仿真环境中的参数
(例如,物体外观、传感器噪声和光学特性)来预测真实世界的不确定性和变化(Tobin等人,(2017年版);(2)
领自适应/域转移
:一种通过
用大量模拟图像和较小的真实世界图像集
训练模型来
弥合模拟域和真实世界域之间的差距
的技术。在实际设置中,不成对的图像到图像转换方法,例如CycleGAN、RL-CycleGAN、RetinaGAN;(3)
仿真改进
:真实感仿真是拟真转换的关键。一部分是通过
系统识别技术实现
的(Zhu等人,2017年c; Allevato等人,2020),其目的是
识别模拟参数以模拟真实世界环境
。另一部分
使用真实感模拟器
在基于图像的强化学习中将是有效的。
Agent AI的持续和自我改进
基础模型生成的数据
LLM指令微调
:指令调整的方法可以被看作是一种知识提炼的形式,其中较大的LLM用作较小的学生模型的教师模型。
视觉-语言对
:最近研究试图通过自动生成视觉内容的字幕和其他文本来增加视觉-语言模型可用的预训练数据的多样性。
基于人的交互数据:利用大量的Agent-人类交互来训练和改进Agent的未来迭代,有三种策略
人类偏好学习
:在与用户交互期间,代理系统可以用几个不同的模型输出提示用户,并允许用户选择最佳输出。
安全训练(red-teaming)
:指拥有一个专门的对手团队(人类或计算机),试图利用和暴露Agent AI系统中的弱点和漏洞。核心原则是发现一致的方法来诱导不需要的代理输出,以便模型可以在明确纠正这种行为的数据上进行训练。
额外的训练数据
:人类-Agent交互的最简单用法是
使用交互示例本身
作为代理未来迭代的训练数据。这通常需要
过滤策略
来
区分成功的代理示例和不成功的交互示例
。过滤可以是基于规则的(例如,达到某个期望的最终目标状态),基于模型的(例如,将成功的交互与不成功的交互进行分类),或者在事后检查或修改交互示例之后手动选择。
基于基础模型的人工智能代理具有从多个不同数据源学习的能力,这允许用于训练的数据的更灵活的源。这样做的两个关键结果是(1)可以使用用户和基于人的交互数据来进一步细化和改进代理,以及(2)可以使用现有的基础模型和模型工件来生成训练数据。
Agent Dataset and Leaderboard
“VideoAnalytica”数据集:音频视频语言预训练数据集。
多智能体游戏的“CuisineWorld”数据集