Please enable JavaScript.

Coggle requires JavaScript to display documents.

AGENT AI: SURVEYING THE HORIZONS OF MULTIMODAL INTERACTION - Coggle Diagram

- - - - 文本学习：少样本提示（One-shot/Few-shot）是指通过在提示中提供少量的示例来引导模型理解任务并生成预期的输出。这种方法适用于模型需要特定模式或结构输出的任务，提高模型特定任务的性能。
      - Agent系统中的优化
        
        空间优化：考虑代理如何在物理空间内操作以执行任务。这包括机器人之间的协调、资源分配和保持有组织的空间。
        
        时间优化：关注代理如何随时间推移执行任务。这包括任务调度、排序和时间轴效率。例如，优化机器人手臂的轨迹是有效地优化连续任务之间的移动的示例。
      - 传统RGB:(Padalkar等人，2023；Brohan等人，2023)研究主要解决数据稀缺问题的大规模数据集。为了提高样本复杂性，数据增强技术也被广泛研究(Zeng等人，2021；Rao等人，2020；Haarnoja等人，2023；Lifshitz等人，2023)。
    - - 数据收集和效率：基于RL的策略学习（直接学习一个策略（policy），该策略能够告诉智能体在给定状态下应采取的最佳行动以最大化累积奖励。）需要大量数据，复杂情景需要更细致的决策，并从更广泛的情况中学习，最近的方向是加强数据生成，以支持策略学习。
      - 长序列问题：动作序列长度的增加，由于行动和回报之间的关系模糊，即所谓的学分分配问题，以及需要探索的状态数量的增加，需要大量的时间和数据。对于长时间且复杂任务的典型方法是将它们分解成一系列子目标，并应用预先训练的策略来解决每个子目标。该思想被称为（高层次）任务和（低层次）运动规划的（TAMP）框架，任务规划需要识别高级动作的序列，运动规划涉及找到物理上一致的、无碰撞的轨迹以实现任务规划的目标。最近研究使用LLM用于执行高级任务规划，而低级控制用基于RL的策略来解决
      - 奖励函数设计：需要对任务性质的深入理解，通常需要基于专家经验来制作函数。几项研究探索了LLM/VLM在设计奖励函数中的应用。
- - - - 定义领域内的目标：训练主体Transformer模型，需明确定义代理在每个特定环境中的目标和行动空间，包括确定代理需要执行的特定任务或操作，并为每个任务或操作分配唯一的代理令牌。这样可以提高训练数据质量，减少对基础模型生成的或人工注释数据的依赖。
      - 持续改进：持续监控模型性能和收集反馈，确保该模式不会使偏见或不道德的结果永久化，需要仔细检查训练数据，定期检查输出中的偏差，并在必要时训练模型以识别和避免偏差。
- - - - 偏见
        
        训练数据：基础模型是从互联网上收集的大量文本数据上训练的，包括书籍、文章、网站和其他文本来源。这些数据反映人类社会中存在的偏见，模型会无意中学习这些偏见。这包括与种族、性别、族裔、宗教和其他个人属性有关的偏见。
        
        历史和文化偏见：训练数据通常包括来自各种文化的历史文本或材料。
        
        语言和上下文限制：语言模型可能难以理解和准确表示语言中的细微差别，例如讽刺、幽默或文化引用。
        
        政策和准则、过度泛化、持续监控和更新、扩大主导观点、道德和包容性设计、用户指南
      - 减少偏见的方法：（1）多样化和包容性的训练数据；（2）偏差检测和纠正；（3）道德准则和政策；（4）多样化的表现；（5）偏差缓解；（6）文化敏感度；（7）可访问性：确保AI代理可供不同能力的用户访问，包括残疾用户。这可能涉及到加入一些功能，使视觉、听觉、运动或认知障碍的人更容易进行交互；（8）基于语言的包容性：各种语言和方言；（9）道德和尊重的互动；（10）用户反馈和适应；（11）遵守包容性准则
    - - 模仿学习Imitation Learning→解耦Decoupling：传统（IL）模仿学习，代理通过模仿专家的行为来学习策略，但这种方法在面对看不见的情况时可能难以泛化。为解决这个问题，提出使用无限内存代理，从专家数据中学习策略，改善对不可见环境空间的探索和利用。但这不总是最好的方法，建议学习一个带有上下文提示或隐式奖励函数的代理，它可以捕获专家行为的关键方面。Agent AI背后的关键思想：（1）收集物理世界专家演示作为状态-动作对的无限代理，其中“状态”描述专家在做出动作时的环境或情境，“动作”是专家在该状态下所执行的具体行为。状态-动作对是训练代理的基础数据，代理将通过学习这些数据来模仿专家的行为。（2）模仿代理生成器的虚拟环境：在虚拟环境中，代理通过模仿专家的状态-动作对来学习如何执行任务。这个环境允许代理在没有实际风险的情况下尝试和犯错，从而学习如何更好地执行任务。
      - 解耦Decoupling→泛化Generalization ：解耦表示代理不依赖于特定任务的奖励函数，而是通过学习专家演示中的状态-动作对来掌握策略。解耦不依赖于特定的奖励函数，使得代理能够将在一个任务中学到的策略应用到其他相关任务中，提高泛化能力。代理能够将在一个领域学到的知识迁移到其他领域，只需最小的调整（迁移学习）。解耦将学习奖励函数的过程与学习最优策略的过程分开，可以更灵活地处理不同的任务和环境（学习过程的分离）。
      - 泛化Generalization→紧急行为Emergent Behavior：多个简单组件的相互作用可以导致复杂行为的出现。
    - - Human-in-the-Loop (HITL)：在人类判断至关重要的领域，例如道德考量、创造性任务或模棱两可的场景，引入人类输入来增强人工智能的推理尤其有用。
      - 实时反馈集成
      - 算法增强
      - 跨领域知识转移：利用一个领域的知识或模型来改进另一个领域的推理在专业领域内产生输出时尤其有用。例如，为语言翻译开发的技术可能会应用于代码生成，或者来自医疗诊断的见解可以增强机器的预测性维护。
      - 数据丰富
      - 特定使用情形的定制：特定应用或行业量身定制AI的推理能力涉及在专门数据集上训练AI或微调，如法律的分析、医疗诊断或金融预测。
      - 伦理和偏见考虑
      - 持续学习和适应
- - - - 任务规划和技能训练：基于任务和运动规划（TAMP）系统，首先计算高级任务计划，然后通过低级机器人控制（技能）实现这些计划。LLM的高级语言处理能力已证明解释指令并将它们分解成机器人动作步骤的能力，实现任务规划技术；技能训练使用LLM/VLM用于设计奖励函数的用途（Yu等人，2023 a; Katara等人，2023年; Ma等人，2023年），生成数据以促进策略学习（Kumar等人，2023; Du等人，2023），或者作为奖励功能的一部分（Sontakke等人，2023年）的报告。与RL和IL等训练框架一起，这些将有助于开发高效的机器人控制器。
      - 现场优化：由于意外和不可预测的环境条件，在机器人中执行长任务步骤可能会很困难。因此，在机器人领域的一个重大挑战涉及通过将任务计划与实时环境数据集成来动态地适应和改进机器人技能。通过整合环境信息和在任务计划或控制器级别调整机器人的动作来寻求实现基于环境的机器人执行。
      - 多模态系统：将LLM和VLM技术作为输入信息的编码器。特别地，修改这些基础模型以处理多模态信息的显著趋势。
      - 会话Agent：模型处理并生成模仿人类对话的响应，使机器人能够参与有意义的对话。
      - 导航Agent：基于地图的路径规划和用于创建环境地图的同步定位与地图绘制（SLAM）等核心方面。一个代表性的任务是对象导航（Chaplot等人，2020 a; Batra等人，2020年; Gervet等人，2023年; Ramakrishnan等人，2022; Zhang等人，2021），其中机器人使用对象名称而不是地图坐标进行导航，需要在环境中对对象名称进行视觉基础。此外，最近研究在基础模型之上，在零发射的基础上，在完全不熟悉的新环境中导航机器人的技术，即所谓的零发射对象导航（Gadre等人，2023年; Dorbala等人，2023; Cai等，2023年）的报告。另外，视觉语言导航（VLN）（安德森等人，2018 a）是一种代表性的任务，该任务涉及在以前看不见的真实世界环境中通过自然语言指令来导航代理（Shah等人，2023 a; Zhou等人，2023 a; Dorbala等人，2022; Liang等人，2023; Huang等人，第2023段b）。VLN会解译句子，而非物件名称，例如“go to bathroom on your left”。因此它需要更高的功能性来解析输入文本（Wang等人，（2019年版）。
    - - 该管道由两个模块组成：任务规划和参数化。在任务规划中，系统被输入语言指令和工作环境的描述。指令沿着一组预定义的机器人动作和输出规范一起被编译成提供给ChatGPT的综合提示，然后生成一系列分解的任务及其文本描述。值得注意的是，我们采用了一种少镜头的方法，ChatGPT没有针对此任务进行过训练，这在适用性方面具有优势，因为它消除了依赖于硬件的数据收集和模型训练的需要。此外，输出的文本描述使用户能够根据需要检查和调整结果，这对于安全可靠的操作是至关重要的。
      - 低层次的控制策略，实际操作需要详细的参数。例如，抓取类型对于在将内容物倒出的同时搬运容器是至关重要的，在模拟器中经常忽略这样的参数。因此，在机器人系统中，用户需要直观地演示每个动作，视觉系统从视频中提取这些参数。值得注意的是，机器人系统不是为精确复制人类运动而设计的（即，遥控操作），而是处理变化的真实世界条件，诸如对象位置的变化。例如，用于避免碰撞的航路点（Wake等人，2023 a），抓握类型（Wake等人，2023 e）和上肢姿势（Sasabuchi等人，2021年; Wake等人，2021年a））。
      - 越来越多研究表明，VLMs和LLM在符号任务规划方面具有很好的能力（例如，要做什么）。然而，每个任务都需要低级别的控制策略（例如，如何做）来实现环境之间的成功交互。虽然强化学习和模仿学习是以数据驱动的方式学习策略的有前途的方法，但另一种有前途的方法是通过现场演示直接从人那里获得策略，这种方法称为从观察中学习（Wake等人，2021 a; Ikeuchi等人，0）。
      - 例子：使用GPT-4V（Vision）在多模态输入环境中扩展了上述任务规划器（图15），人类执行的动作旨在被机器人复制。该pipeline获取演示视频和文本，然后输出一系列机器人动作。视频分析器是了解视频中人类所执行的动作。我们使用了GPT-4V，并提供了一个提示，以生成典型的人与人交流风格的文本指令。第二张图将视频输入到视频分析器中，视频被固定时间段裁剪为5帧图像，输入GPT-4V中输出一段描述性文字，用户可以针对这段文字进行反馈。场景分析器基于指令和视频数据的第一帧（或环境的图像）将期望的工作环境编译成文本信息。该环境信息包括GPT-4V所识别的对象名称的列表、对象的可抓取属性以及对象之间的空间关系。第三张图显示了我们的场景分析器的示例输出，基于给定的文本指令和环境信息，任务规划器输出任务序列。
      - 机器人导航的具体Agent：视觉语言导航（VLN）是指在真实的三维环境中，通过导航一个具体化的智能体来执行自然语言指令的任务。
  - - - 图像理解：现代多模式试剂（如GPT-4V）在医疗保健背景下的当前能力和局限性。虽然GPT-4V拥有医院护理中涉及的设备和程序的重要内部知识，但它并不总是对用户提出的更多规定性或诊断性询问做出响应。
      - 视频理解：首先，研究了VLM在临床空间中识别重要患者护理活动的能力。其次，探讨了VLMs在更多技术视频（如超声）中的使用。具体而言，GPT-4V在医院护理和医疗视频分析方面的一些当前功能和局限性。
  - - - 视频语言生成：视频字幕或视频故事讲述是为视频帧流生成连贯句子序列的任务。该领域的一个重要目标是创建一个能够有效地对帧序列进行编码并生成主题连贯的多句段落的Agent感知文本合成模型。
      - 视频理解：将图像理解的范围扩展到动态视觉内容，这涉及对视频中的帧序列的解释和推理，通常与伴随的音频或文本信息结合。视频理解包括视觉和语言内容的时间对齐、长帧序列的处理，以及对随时间展开的复杂活动的解释。对于音频，Agent可以处理口语、背景噪音、音乐和语音语调，以理解视频内容的情绪、设置和微妙之处。
    - - 知识密集型Agent：
      - 视觉语言Transformer Agent：从字幕训练视觉语言转换器”（VLC）模型，专门用图像-字幕对进行了预训练。
      - （1）知识密集型Agent：如INK（Park等人，2022年）和KAT（Gui等人，2022 a），结合了由人类注释的所需知识以支持知识密集型检索任务的密集型神经知识任务；（2）多模态智能体：Chameleon (Lu et al., 2023) 和MM-React (Yang et al., 2023c)；（3）视觉指令调整：VCL（Gui等人，2022 b）、Mini-GPT 4（Zhu等人，2023）、MPLUG-OWL（Ye等人，2023 b）、LSKD（Park等人，2023 c）生成映像级指令调优数据集。
  - - - 在每个时期，阶段1和阶段2交替执行。在阶段1期间，读者模型的参数保持固定，并且仅更新知识选择器的权重。相反，在阶段2期间，读者模型的参数被调整，而知识选择器的权重保持冻结。
    - - 改进Agent的推理和规划
      - 将系统和人的反馈结合起来：不断学习和适应不同反馈来源的能力确保代理始终提供帮助并与用户需求保持一致。
      - 工具使用和知识库查询：强调了将外部知识库、网络搜索或其他有用工具集成到人工智能Agent的推理过程中的重要性。