首页研究报告机构研究人工智能星海系列:人形机器人与AI大模型之RobotAI的Transformer之旅
壹方

文档

3580

关注

1

好评

0
PDF

星海系列:人形机器人与AI大模型之RobotAI的Transformer之旅

阅读 709 下载 69 大小 4.41M 总页数 54 页 2024-11-17 分享
价格:¥ 9.90
下载文档
/ 54
全屏查看
星海系列:人形机器人与AI大模型之RobotAI的Transformer之旅
还有 54 页未读 ,您可以 继续阅读 或 下载文档
1、本文档共计 54 页,下载后文档不带水印,支持完整阅读内容或进行编辑。
2、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
4、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。
民生证券星海系列:MINSHENG SECURITIES人形机器人与AI大模型之Robot+AI的Transformer之旅2024年11月07日》从Transformer到多模态大模型的演进与应用。Transformer不仅在语言推荐维持评级处理上广泛应用,还扩展至图像、视频、音频等多模态任务。诸如StableDiffusion、VideoPoet和MusicLM等模型展现了其强大的生成能力,推动了多模态大模型(MLLM)的发展。》机器人现实世界至数据化的突破:RT-2、RoboCat与MimicGen,RT-2通过大规模的视觉-语言预训陈,将视觉识别与低级机器人控制结合,实现了机器人在复杂任务和未见环境中的强大泛化能力。RoboCat则基于Gato模型,展示了多任务和多具身平台上的自我迭代学习能力,能够快速适应新任务并生成跨任务策略。英伟达的MimicGen自动生成大量模仿学习数据,有效减少了人工干预,提升了机器人学习的效率。分析师李哲)》特斯拉FSD,端到端算法成为主流,数据为关键。2020年FSD引入执业证书:S0100521110006lizhe yj@mszq.comTransformer模型,走向了数据驱动的模型范式,2024年初FSDV12完全采用分析师罗松神经网络进行车辆控制,从机器视觉到驱动决策都将由神经网络进行控制。FSD执业证书:S0100521110010V12能够模拟人类驾驶决策,成为自动驾驶领域全新发展路径。luosong@mszq.com》英伟达Robocasa:具体智能关键节点,首次论证real-sim-real。通过升级模拟平台并构建模拟框架,基于厨房场景和原子任务、复合任务、真实世界三相关研究1.一周解一惑系列:轮胎模具需求稳步增长,个场景收集行为数据集并进行结果评估。说明模拟器的丰富多样性以及视觉和物出海空间广阔-2024/10/20理真实性显著改善了模拟效果,实验结果首次论证了rea-sim-real可行。后续演绎:在机器人rea-sim-real可行,证明存在scaling law的基础内有望新设产线-2024/10/13上,持续推荐可执行任务的泛化能力,迈向真正的AG1智能化:1)李飞飞Rekep:3.一周解一惑:A1驱动+产业转移,PCB曝光一种针对机器人操作任务的新型空间和时间约束表示方法,提供了一种三任务闭设备受益-2024/09/304.一周解一惑系列:复盘日本拖拉机历史,大环的解决方案。通过关键点约束解构机器人行为,将操作行为分为多阶段,并构拖占比提升大所趋-2024/09/21建子目标约束和路径约束,基于此提出一种三任务闭环的解决方案。同时,融入5.扬帆系列:船舶需求分析(二):干散货船大型视觉模型和视觉-语言模型,利用VLM和GPT-4o生成Rkep约束,避免需求与测算-2024/09/18了手动指定Rekep的需要。2)1x世界模里:首证扩展定律,能通过大量学习理解周围环境。通过大量的真实数据学习和模拟,机器人能够预测复杂的物体互动,理解周围环境,并灵活应对日常任务。1x的进展首次在机器人上证明了扩展法则。3)GR-2的高效动作预测与泛化能力。由字节跳动研究团队开发的第二代机器人大模型,凭借大规模视频预训练和多模态学习技术,展示了卓越的泛化能力与多任务通用性。4)数字表亲:机器人训练法优化,以更低的成本获取更好的泛化能力。在保留数字李生优势的基础上,数字表亲表现出了更强的适应能力和鲁棒性,成功实现了从模拟以到现实的零样本迁移,为机器人学习在复杂、多变的真实环境中的应用开辟了新的可能性。投资建议:1)关注算法训练中,需要使用的传感器公司,如视觉方案奥比中光,力学方案安培龙;2)关注同步受益的机器人本体公司,如总成方案三花智控、拓普集团;丝杆公司北特科技、五洲新春、贝斯特、双林股份、震裕科技等:3)关注其他产业链可延伸公司。风险提示:机器人算法迭代进步速度不及预期,人形机器人落地场景实际需求不及预期本公司具备证券投资咨询业务资格,请务必阅读最后一页免责声明证券研究报告民生证券MINSHENG SECURITIES行业深度研究/机械目录1 Transformer模型的演进:从语言翻译到多模态智能的前沿探索31.1开篇:Robot+AI的核心时间线与关键节点结论31.2 Transformer网络架构的提出………3461.5 Scaling Law的存在………62机器人现实世界至数据化的突破:RT-2、RoboCat与MimicGen.…82.1谷歌RT-2:具身智能学习…82.2英伟达MimicGen:自动化数据生成系统23谷歌RoboCat:多任务具身智能…153特斯拉FSD:端到端算法成为研究主流,数据集成为关键…18183.2FSD的前世今生……193.3FSD架构变革:Transformer模型的l入.203.4FSD端到端:感知决策一体化…………214端到端算法成为研究主流,数据集成为关键4.1端到端算法:直接连接数据输入与控制指令输出234.2端到端算法相比传统的技术架构的优势…244.3自动驾驶端到端算法迁移至人形机器人的优势264.4机器人端到端算法的关键问题…………………274.5特斯拉grok模型:模拟思维链思考过程……295英伟达Robocasa:具体智能关键节点,首次论证rea-sim-real5.1英伟达Rob0Caa:基于厨房场景的模拟数据收集………316.1李飞飞团队Rkep:一种针对机器人操作任务的新型空间和时间约束表示方法,提供了三任务闭环的解决方案366.3字节GR-2:高效动作预测与泛化能力……436.4数字表亲:机器人训练法优化,以更低的成本获取更好的泛化能力7投资建议…518风险提示.51插图目录52本公司具备证券投资咨询业务资格,请务必阅读最后一页免责声明证券研究报告民生证券MINSHENG SECURITIES行业深度研究/机械1 Transformer模型的演进:从语言翻译到多模态智能的前沿探索1.1开篇:Robot+A1的核心时间线与关键节点结论下图是机器人和transformer模型结合的重点时间线及关键节点突破。图1:Robot+A的核心时间线与关键节点2023年12月:谷RoboCat2024年9月:1 x Robot World Model资料来a源:Anthony Brohan《RT-2:Vision-Language-Action Models Transfer Web Knowledge to RoboticControl),Ajay Mandlekar (MimicGen:A Data Generation System for Scalable Robot Learning using HumanDemonstrations>,Konstantinos Bousmalis RoboCat:A Self-Improving Generalist Agent for RoboticManipulation),tesla,Tianyuan Dai (ACDC Automated Creation of Digital Cousins for Robust PolicyLearning),Jack Monas (1x world model),Chi-Lam Cheang (GR-2:A Generative Video-Language-ActionModel with Web-Scale Knowledge for Robot Manipulation),Soroush Nasiriany (RoboCasa:Large-ScaleSimulation of Everyday Tasks for Generalist Robots,Wenlong Huang,Li Fei-Fei (ReKep:Spatio-TemporalReasoning of Relational Keypoint Constraints for Robotic Manipulation》,民生证券研究院1.2 Transformer网络架构的提出2017年,Google的Brain团队发布了一篇文章"Attention Is All You Need",这篇文章中提出了Transformer网络结构。其一开始的提出是为了解决翻译问题,仅仅依赖于注意力机制就可处理序列数据,从而摈弃了RNN或CNN。这个新的网络结构,刷爆了各大翻译任务,同时创造了多项新的记录(英-德的翻译任务,相比之前的最好记录提高了2个BLEU值)。而且,该模型的训练耗时短,并且对大数据或者有限数据集均有良好表现。本公司具备证券投资咨询业务资格,请务必阅读最后一页免责声明证券研究报告民生证券MINSHENG SECURITIES行业深度研究/机械图2:Transformer核心架构资料来源:Ashish Vaswani Noam Shazeer《Attention Is All You Need》,民生证券研究院模型的核心架构的示意图如上。Transformer模型的架构就是一个seq2seq架构,由多个Encoder Decoder堆叠而成.在此示意图中,Encoder和Decoder都包含6个block。Transformer将所有的单词向量化,通过矩阵编译的方法开始翻译以及预测,在翻译上一个词的同时对后续的单词进行预测,达到语句通顺的效果。其实际上是一个编码器-解码器结构,其中编码器将原始语言的句子作为输入并生成基于注意力的表征,而解码器关注编码信息并以回归方式生成翻译的句子,和之前的RNN相同。不同的是,Transformer模型引入了注意力机制和残差链接,也就是所谓“Attention Is All You Need”,最终输出结果。Transformer的意义体现在它的长距离依赖关系处理和并行计算,而这两点都离不开其提出的自注意力机制。首先,Transformer引入的自注意力机制能够有效捕捉序列信息中长距离依赖关系,相比于以往的RNNs,它在处理长序列时的表现更好。而自注意力机制的另一个特点时允许模型并行计算,无需RNN一样t步骤的计算必须依赖t~1步骤的结果,因此Transformer结构让模的计算效率更高,加速训练和推理速度。图3:自注意力机制示意图资料来源:Ashish Vaswani,,Noam Shazeer《Attention Is All You Need》,民生证券研究流1.3语言、图片、视频大模型的出现本公司具备证券投资咨询业务资格,请务必阅读最后一页免责声明证券研究报告民生证券MINSHENG SECURITIES行业深度研究/机械语言,图片,视频大模型以大语言模型为基础,将强大的大语言模型作为大脑来执行多模态任务。但山M只能理解离散文本,在处理多模态信息时不具有通用性。另一方面,大型视觉基础模型在感知方面进展迅速,但推理方面发展缓慢。这两者的优缺点形成了巧妙的互补。由于上述不同点中的互补性,单模态LLM和视觉模型同时朝着彼此运行,结合上部分的图像、视频和音频等等模态,最终带来了MLLM的新领域。形式上,它指的是基于LLM的模型,该模型能够接收多模态信息并对其进行推理。从发展人工通用智能的角度来看,MLLM可能比LLM向前迈出一步。ML山M更加符合人类感知世界的方式,提供了更用户友好的界面(可以多模态输入),是一个更全面的任务解决者,不仅仅局限于NLP任务。图4:MLLM的模里结构只Figure 2:The general model architecture of MM-LLMs and the implementation choices for each component.资料来源:Duzhen Zhang《MM-LLMs:Recent Advances in MultiModal Large Language Models》,民生证券研究院上图包含了通用多模态模型结构的五个组件部分,以及每个组件部分的常用选择。Modality Encoder:负责将不同模态的输入数据编码为模型可理解的表示,目前技术可以实现输入图片、视频、音频文件,对于图像而言,可能涉及到将像素数据转换成一个特征向量,该向量捕捉了图像中的重要信息;Input Projector:将不同模态的输入数据映射到供享的语义空间,这意味着无论输入数据的形试如何,它们都会被转换成一个统一的格式,以便模型可以在一个统一的框架中处理它们:LLMS:大型语言模型,用于处理文本数据,可以将不同模态的信息对齐到一个共同的语义空间中,整合由前面两个部分转换后输入的信息,融合后再生成一个统一的、丰富的语义表示,可能是相应的指导性文本或脚本,与专门的生成模型协同工作,实现高质量的图片和音频生成:Output Projector:将模型生成的输出映射回原始模态的空间,如果模型的输出是文本,那么输出投影器将确保生成的文本与输入数据的语义空间相匹配:Modality Generator:根据输入数据生成对应的输出数据,将模型的内部表本公司具备证券投资咨询业务资格,请务必阅读最后一页免责声明证券研究报告民生证券MINSHENG SECURITIES行业深度研究/机械示转换成最终的输出形式,如生成图像、文本或音频。多模态理解主要是前三个部分。(模态对齐)训练期间,encoder,LLMBackbone和generator一般保持冻结。主要优化输出和输出的projector。由于Projector是轻量级的模块,MM-LLMs中可以训练的参数比例和总参数相比非常小(2%左右),模型的总体参数规模取决于L山M部分。由此,Transformer模型随着L小M的广泛应用而成为了目前多模态大模型的核心思想和目前较为先进的网络架构。截至2024年10月,中国移动在多模态大模型领域取得了显著进展,其九天善智多模态基座大模型表现尤为突出。该模型可以处理长文本的智能化解析,全双工语音交互,拥有高质量的视频与图像处理能力,可以对结构化数据做深度洞察。1.4多模态、跨模态大模型的难点其一是异质化数据的处理与整合存在困难:多模态大模型中,由于输入输出的数据具有多样性,面临的主要问题包括数据的异质性导致的表示难题、不同模态间的数据转换挑战、确定模态间元素联系的对齐问题、多模态信息的有效融合难点,以及如何在不同模态间进行知识迁移的协同学习挑战。需要综合应用多元化多样化的模型对其进行处理,将各个异质性的数据再整合规划,才能真正读懂要求,输其二是训练过程挑战重重:获取跨多个模态的充足数据可能非常困难和昂贵,且数据可能会偏向于某些模态,导致模型产生偏见,从而导致模型偏向于数据量更多或特征更强的模态,导致模型产生偏见;同时由于特定于模态的编码器通常分别训练,他们声称的表示是存在差异的,对投影对齐模块的有效学习过于依赖。1.5 Scaling Law的存在在这其中,值得关注的是语言模型的scaling law。大模型的Scaling Law是OpenA1在2020年提出的概念,可以概括为“预测即压缩、压缩即泛化、泛化即智能”将大语言模型用在别的领域之后,从计算理论的角度,联合压缩多模态数据理应获得比单模态更好的理论最优压缩器。对于所有的模态来说,他们都必须要服从的scaling law是,随着数据规模的提升,模型的表现也会随之提升,如果法则正确,那么要想使得模型更好,只需要搭建好算法和框架,不断收集数据就可以了。一旦证明scaling law的存在和有效性,就可以预测模型性能与规模的关系,投入恰当规模的数据集,使得计算资源可以更高效的应用。多模态模型会变得更加可预测和可计算,其不确定性就极大的降本公司具备证券投资咨询业务资格,请务必阅读最后一页免责声明证券研究报告民生证券MINSHENG SECURITIES行业深度研究/机械低了。图5:Scaling Law的效果图示425639483224271010ComputeDataset SizeParametersPF-days,non-embeddingtokensnon-embedding资料来源:Jared Kaplan《Scaling Laws for Neural Language Models》,民生证券研究號在此基础上,本文想要按时间线和核心milestone贡献,来帮助大家拆解最近1年时间,robot的transformer结合之旅是怎么演进的,从而去探讨真正前沿的,以transformer为基础的模型到底会去往何处。本公司具备证券投资咨询业务资格,请务必阅读最后一页免责声明证券研究报告7民生证券MINSHENG SECURITIES行业深度研究/机械2机器人现实世界至数据化的突破:RT-2、RoboCat与MimicGen2.1谷歌RT-2:具身智能学习2.1.1提出的问题与研究意义大语言模型可以实现流畅的文本生成、问题解决、创意写作以及代码生成,视觉-语言模型(V心M)则能够实现开放词汇的视觉识别。以上能力对于现实环境中的通用型机器人非常有用,然而它们如何获得这些能力还是未知。如何将大型预训练的视觉-语言模型直接集成到低级机器人控制中,以促进泛化并实现紧急语义推理,成为了机器人下一步发展的方向。Google提出的RobotTransformer(RT)系列使用了更大规模的语言模型和更多的具身智能任务数据,在大量具身智能任务中获得较好效果。其中T-1算法使用预训练的EfficientNet-B3网络初始化,以机器人状态和历史图片作为输入,通过EfficientNet特征提取后直接输出动作。图6:RT-1结构概览ActionRT-1TokenLeamer资料来源:Anthony Brohan《RT-1:ROBOTICS TRANSFORMER FOR REAL-WORLD CONTROL AT SCALE),民生证券研究院RT-1将机器人动作的每个维度进行均匀离散化,并将动作词元化,然后使用监督学习的损失进行训练。为了使视觉·语言模型能够控制机器人,还差对动作控制这一步。该研究采用了非常简单的方法:他们将机器人动作表示为另一种语言,即文本token,并与Web规模的视觉-语言数据集一起进行训练。图7:机器人动作数字token化对机器人的动作编码基于Brohan等人为RT-1模型提出的离散化方法,如下图所示,该研究将机器人动作表示为文本字符申,这种字符串可以是机器人动作okn编号的序列,例如「1128912415101127217刊,Pes 2资料来源:Anthony Brohan《RT-1:ROBOTICS TRANSFORMER FOR REAL-WORLD CONTROL AT SCALE),民生证券研究院本公司具备证券投资咨询业务资格,请务必阅读最后一页免责声明证券研究报告民生证券MINSHENG SECURITIES行业深度研究/机械RT-2在机器人任务上展示了更强的泛化能力,以及对超出其接触的机器人数据之外的语义和视觉的理解.RT-2在RoboticTransformer1(RT-1)的基础上进行,直接训练视觉-语言模型以实现开放词汇视觉问答和视觉对话,输出低级机器人动作,同时解决其他互联网规模的视觉语言任务。相较于RT-1,RT-2模型在机器人理解新任务,并通过执行基本推理来响应用户命令,例如推理物体类别或高级描述等方面具有更大的优势。2.1.2核心方法与进步:以预训练为基础升级泛化能力与RT-1模型的泛化能力相比,RT-2的目标是训练机器人从观测到动作的端到端模型,并且从大规模视觉-语言模里型预训练模型中学习泛化知识。最终,G00ge提出一个在机器人轨迹数据和互联网级别的视觉语言任务联合微调视觉-语言模型的学习方式。这类学习方法产生的模理型被称为视觉-语言-动作(WLA)模型,具有泛化到新对像的能力、解释命令的能力以及根据用户指令思维推理的能力。RT-2算法整体使用大规模预训练的视觉-语言模型结构,模里参数可以达到55B的参数量,远超RT-1的参数规模,同时利用大规模预训练视觉-语言模里模型中编码的丰富视觉问答知识来帮助具身模型的训练。RT-2将输出的动作进行和RT-1相同的离散化操作后将词元动加入视觉-语言模型原先的词表中,可以把动作词元视为另外一种语言进行处理,无需改变原有视觉-语言模型结构设计。由于T-2已经在海量的视觉问答任务中进行预训练,在对图片和任务指令的理解上有更加丰富的经验,在任务集合上具有更强的泛化能力。RT-2能够运用其大规模预训练的视觉问答经验进行泛化,在现实世界的任务中进行推广,实现推理、理解和识别。例如在下图的拾取、移动、放置等具体任务中,智能体能够精准识别任务需求并且以过往训练经验为基础准确地完成。本公司具备证券投资咨询业务资格,请务必阅读最后一页免责声明证券研究报告民生证券MINSHENG SECURITIES行业深度研究/机械图8:RT-2能够推广到各种需要推理、符号理解和人类识别的现实世界情况move apple toplace●range1nDenver Nuggetsmove cup to thewine bottlee coke can to资料来a源:Anthony Brohan《RT-2:Vision-Language-Action Models Transfer Web Knowledge to RoboticControl》,民生证券研究豌RT-2的核心方法是采用视觉-语言-动作模型(VLA)与联合微调。具体步骤如下:步骤一:RT-2通过Vision Transformer (ViT)提取图像特征,把动作tokens转化为语言token5,将相应动作转化为动作字符串(例如“1128912415101”)。在此过程中,机器人动作被离散化为多个参数(如位移和旋转),每个参数映射为预定义的token.。这些token被嵌入到模型的语言字典中,与自然语言token共用同一表示空间。步骤二:RT-2将任务指令和图像信息结合,通过de-tokenize转化为具体的机器人动作序列。此过程使用大语言模型(LLM)解析任务,像自然语言处理那样,动作模块使用token izer来处理这串token转成对应的机器人动作,将视觉信息和任务指令解码为具体的机器人动作序列(如平移和旋转参数),进而分析这串字符串对应的开始符、命令、停止符。步骤三:在执行任务的过程中,模型同步实时进行联合微调(Co-Fine-Tuning):机器人根据传感器和摄像头反馈的最新图像信息,判断任务执行的状态和完成情况。如果任务执行过程中出现误差或环境发生变化,模型会利用新的视觉数据重新规划动作,直至任务完成。总而言之,语言模型负责持续理解任务场景和需求,而动作模块根据视觉反馈实时调整操作,确保任务利完成。完成训练与微调后,RT-2被部署到机器人系统中,并具备了在复杂环境下执行多任务的能力,实现高效的闭环控制。本公司具备证券投资咨询业务资格,请务必阅读最后一页免责声明证券研究报告10民生证券MINSHENG SECURITIES行业深度研究/机械图9:RT-2全流程概览RT-2Co-Fine-Tune资料来源:Anthony Brohan《RT-2:Vision--Language-Action Models Transfer Web Knowledge to RoboticControl》,民生证券研究豌2.1.3核心结论+未来进展RT-2展示了视觉-语言模里(VLMs)可以转变为强大的视觉-语言-动作(VLA)模理,通过结合VLM预训练和机器人数据,直接控制机器人。RT-2基于PLM-E和PL山-X的两种VLA模型,提高了机器人策略的完成率,并且继承了视觉语言数据预训练的优势,具有更好的泛化能力和涌现能力。这不仅是对现有视觉-语言模型的有效改进,也展示了通用型机器人的发展前景。未来的机器人能够进行推理、解决问题,并进行高级规划和低级指令控制,在现实世界中执行大量多样化的任务。RT-2也具有局限性。该模型对于泛化能力的强化并没有提高机器人执行新动作的能力,智能体知识学会了以新的方式部署学习到的技能。同时,由于高频控制的设置应用场景,实时推断可能成为主要瓶颈。未来工作的方向主要集中于如何通过新的数据收集范式(如人类视频)获得新技能,同时开发出更多的开元模型以支撑高速率和低成本的运作。2.2英伟达MimicGen:自动化数据生成系统2.2.1 MimicGen:用于大规模机器人学习的数据生成系统MimicGen是一个用于大规模机器人学习的数据生成系统,目的是解决机器人学习过程中人工数据收集成本高、时间耗费大的问题。当前基于模仿学习的机器人研究依赖大量的人工演示数据来训练模型,但这些数据的收集非常昂贵。MimicGen提出了从少量人类演示数据中自动生成大规模、多样化的演示数据集的系统。该系统通过将人类演示数据适应于新场景,生成多达50,000条演示数据,覆盖18项任务,从而显著降低了人工数据收集的需求。这一方法能够幼加速机器人学习的进展,使得机器人能够在复杂场景中表现出本公司具备证券投资咨询业务资格,请务必阅读最后一页免责声明证券研究报告民生证券MINSHENG SECURITIES行业深度研究/机械更强的泛化能力,尤其是在长时间任务和高精度任务(如多部件装配、咖啡准备)中表现出色。研究结果表明,利用MimicGen生成的数据进行模仿学习能够取得与传统人工数据收集相媲美的效果。图10:MimicGen从原始人类演示数据到生成的广泛数据集的过程Small set of humanLarge,broad dataset generateddemonstrationsautomatically with MimicGenMimicGen资料来源:Ajay Mandlekar《MimicGen:A Data Generation System for Scalable Robot Learning usingHuman Demonstrations》,民生证券研究院2.2.2核心方法与进步:数据分割与重组MimicGen的设计来源于模仿学习与数据增强两个技术背景。模仿学习是一种通过观察人类示范来训练机器人的方法。MimicGen利用这一理念,通过生成多样化的示范来扩展模仿学习的应用范围。数据增强技术被广泛应用于提高模型的泛化能力。通过对现有数据进行变换或修改来生成新训练样本的技术,旨在提高模型的泛化能力和鲁棒性。常见的数据增强方法包括旋转、缩放、平移等,这些变换可以在不改变数据标签的情况下生成新的样本。MimicGen的核心方法是数据分割与重组。将少量人类演示数据分割成以物体为中心的子任务,然后在新的场景中通过空间变换和轨迹生成,自动生成新的演示数据。传统方法中,数据生成通常基于静态场景的回放,或通过复杂的模拟器进行大量数据收集.而MimicGen的创新点在于,它提出了一种简单但有效的策略,通过“对象中心片段”的变换和拼接,将少量的人类演示数据转化为大规模的多样化数据。这种方法可以直接融入现有的模仿学习管道中,适用于各种长时间、高精度的任务,并且能够生成比单纯回放方法更加多样和有效的数据。本公司具备证券投资咨询业务资格,请务必阅读最后一页免责声明证券研究报告12民生证券MINSHENG SECURITIES行业深度研究/机械图11:MimicGen数据分割与重组示意图Parse source demonstrations into segmentsPipeline for generating new trajectories资料来源:Ajay Mandlekar《MimicGen:A Data Generation System for Scalable Robot Leaming using Human2.2.3核心结论:主要测试任务成功率大幅提升通过对比使用MimicGen生成的数据集与传统人类示范数据集的结果可以得出,机器人在使用MimicGen生成的数据集后成功率显著上升。研究团队通过对MimicGen的实验,评估了其在不同任务中的表现,具体测验任务主要包括StackThree(堆叠三个物体)、Square(方形物体插入和对济)、Threading(机器人在穿线或穿孔时的精细操作能力)、Kitchen(长时间多步骤任务)等十项。图12:MimicGen主要测试任务(a)Stack Three(b)Sqan(c)Threading(d)3 Pe.Assembly(e)Pick Place(f)Kitchen(g)Coffee Prep(h)Mobile Kitchen(i)Gear Assembly(j)Frame Assembly资料来a源:Ajay Mandlekar《Mimic Gen:A Data Generation System for Scalable Robot Learning usingHuman Demonstrations》,民生证券研究院结果显示使用MimicGen后机器人成功率显著提升,例如“"Square”任务的成功率从11.3%提升至90.7%,“Threading“任务的成功率从19.3%提升至98.0%。本公司具备证券投资咨询业务资格,请务必阅读最后一页免责声明证券研究报告13民生证券MINSHENG SECURITIES行业深度研究/机械图13:MimicGen主要测试任务结果TaskSourceDoD2StackStack Three07±0.992.7±1.986.7±3.4Square113±0.990.7±1.973.3±3.449.3±25Threading193±3.498.0±1.660.7±2.538.0±3.3Coffee100.0±0.090.7±2.5773±0.9Three Pc.Assembly1.3±0.982.0±1.662.7±2.5133±3.8Hammer Cleanup593±5.7100.0土0.062.7±47Mug Cleanup12.7±2580.0±4.964.0±3.3Kitchen54.7±8.4100.0±0.076.0±4300±00533±1.9Pick PlaceCoffee Preparation127±3.497.3±0.942.0±0.0Mobile Kitchen20±0.046.7±18.4Nut-and-Bolt AssemblyGear Assembly14.7±5.298.7±1.974.0±2.856.7±19Frame Assembly10.7±6.882.0±4.368.7±3.436.7±2.5资料来a源:Ajay Mandlekar《MimicGen:A Data Generation System for Scalable Robot Learning usingHuman Demonstrations》,民生证券研究院2.2.4 MimicGen未来潜力:生成训练数据,减少人工干预MimicGen在机器人系统(尤其是机械臂)中的应用潜力巨大。通过利用少量人类演示(少于200个),MimicGen可自动生成超过50,000个覆盖18种任务的高质量数据,有效减少人工干预,提升生产效率。其灵活性使其能够适应不同机器人硬件和复杂操作环境,为工业自动化、医疗和服务机器人等领域提供广泛的应用前景。MimicGen的核心优势包括:显著提升任务表现、良好的广泛适应性、跨物体和硬件适用性、适用于复杂移动操作任务、模拟器无关,精度表现卓越、支持非专家演示。图14:MimicGen操作机械臂完成毫米级精度接触任务示意图资料来源:Ajay Mandlekar《MimicGen:A Data Generation System for Scalable Robot Learning usingHuman Demonstrations》,民生证券研究院MimicGen依赖于任务开始时已知的对象位姿和操作步骤,这在完全未知或动态环境中存在局限性。此外,仅通过任务成功与否来筛选生成数据,可能导致数据集存在偏差,影响模型泛化能力。其应用场景主要限于准静态任务,并假设新对本公司具备证券投资咨询业务资格,请务必阅读最后一页免责声明证券研究报告民生证券MINSHENG SECURITIES行业深度研究/机械象与已有对像同类,限制了其在动态环境和异构对象上的推广能力。未来研究应进一步提升系统对复杂场景的理解和分割能力,减少对人类参与的依赖。扩展MimicGen在更多物体类别、机器人硬件和任务类型中的应用能力。图15:MimicGen能够适应不同的机械臂10 human demos1000 generated demos 1000 generated demos1000 generated demos(Panda)Sawyer)资料来源:Ajay Mandlekar《MimicGen:A Data Generation System for Scalable Robot Learning usingHuman Demonstrations》,民生证券研究院2.3谷歌RoboCat:多任务具身智能2.3.1 RoboCat:多任务、多具身通才智能体在机器人领域,如何大规模利用异构机器人数据仍然是机器人领域的难题,大多数现实中的机器人学习研究集中于一次开发一个任务的智体。在机器人技术领域,近期研究专注于通过训练有语言条件的Transformer策略来解决具有相同观测和动作空间的多个简单、视觉多样化的任务,从而弥合大型预训练语言模型和视觉基础操作之间的差距。Google曾经提出RobotTransformer,采集了移动机器人完成日常任务的轨迹片段,构成了真实移动机器人的专家数据集,包含了700多个任务,如移动物体、拉开抽屉、开罐子等,学习到的策略在新的任务指令上有一定的泛化能力。图16:RT数据收集和评估场景b(c)(d)资料来源:Anthony Brohan《RT1:ROBOTICS TRANSFORMER FOR REAL-WORLD CONTROL AT SCALE)民生证券研究院本公司具备证券投资咨询业务资格,请务必阅读最后一页免责声明证券研究报告15
文档评分
    请如实的对该文档进行评分
  • 0
发表评论

特惠

限量优惠活动

正在火热进行

站长

添加站长微信

领取运营礼包

下载

便携运营智库

立即下载APP

导航

运营工具导航

AI工具导航

AI

AI运营助手

帮助

帮助中心

常见问题

顶部