首页研究报告机构研究人工智能多模态大模型:开放世界理解
汤白小白

文档

2032

关注

1

好评

0
PDF

多模态大模型:开放世界理解

阅读 635 下载 74 大小 6.49M 总页数 0 页 2025-01-06 分享
价格:¥ 9.90
下载文档
/ 0
全屏查看
多模态大模型:开放世界理解
还有 0 页未读 ,您可以 继续阅读 或 下载文档
1、本文档共计 0 页,下载后文档不带水印,支持完整阅读内容或进行编辑。
2、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
4、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。
多模态大模型:开放世界理解谢春宇/360多模态团队负责人DataFunSummit 2024ataFun.1背景2图文多模态大模型CONTENT3360多模态大模型探索4业务落地实践ataFun.什么是大模型大参数大算力大数据ataFun.什么是大模型大数据大参数大算力ataFun.背景360口人工智能AG1,我们需要什么?ChatGPT的发布标志着自然语言处理技术迈入了一个全新的阶段。自2022年底亮相以来,它凭借其惊人的语言about otters.连贯、深度的对话,甚至创作诗歌、撰写文章,展现出了前所未有的创造力和理解力。这一突破不仅激发了公众对于AI技术的兴趣,还加速了科技界对通用人工智能(AGI)的研究步伐。在教育、写作、娱乐等多个领域,ChatGPT的应用潜力正在被不断挖掘。教育工作者利用它辅助教学,作家借Once upon a time助它激发灵感,企业则将其融入客户服务,提高了效率SFT与体验。同时,ChatGPT也引发了关于AI伦理、隐私保护及就业市场变革的广泛讨论,促使社会各界思考如何M在享受AI红利的同时,建立相应的监管框架,确保技术的健康发展。总之,ChatGPT的出现不仅是技术上的革RM新,更是对人类社会未来发展路径的一次深刻启示。ataFun.背景口人工智能AG引,我们需要什么?GPT4做为新一代的GPT模型增加了对视觉模态输入的支持,这意味着它能够理解图像并进行相应的自然语言生成增加了多模态能力的GPT4也带来了应用层面的更多可能GPT-4V增强的视觉能力分析和理解图像内容,提供描述、识别对象,甚至解释场景·根据图像生成创意文本格式·翻译图像中的文本,强大的OC能力GPT-40具备原生多模态能力支持文本、音频、图像任意组合性能提升,更快的响应速度ataFun.背景口视觉能力是通用人工智能AG引需必备的基础能力一人类智能本身高度依赖于视觉感知理解世界情境感知交互能力学习能力识别物体预测运动ataFun.视觉-语言跨模态学习·Vision-language cross modal learning,亦称为VLP(Vision-Language Pretrain)、VLM(Vision-LanguageText SpaceIMAGE QUERYCorrelation AnalysisTEXT QUERYSemantic SpaceSemantic Space(using original features)(using CCA representation)CCA SpaceLi,Yingming.Ming Yang,and Zhongfei Zhang."Multi-view representation leaming:A survey from shallow methods to deep methods."arXiv preprintarv:1610.01206120160.ataFun.视觉-语言跨模态学习Data Sizeaussie pupEncoder5B5BI TT:Encoder1.8B0.4BALIGN21BASIC22ataFun.视觉-语言跨模态学习中文图文跨模态模型R2D2图文跨模态学习带来的基于内容的图文互检能力对于互联网搜索来说具有非常重要的落地价值,来自于360搜索的实际业务需求非常强烈。.mataFun.视觉-语言跨模态学习中文图文跨模态模型R2D22300万训练数据,在中文图文检索任务上达到SOTA[mge-to-Text RetrievalText-to-Image RetrievalR@1R@5R@10CLIPWT-B87169.003950897CLIPVT-L 30]77.397.2FILIPWT-872191.395857.584390.6819FILIPVT-1 (4190699676.997.4930WukongViT-B990942VukongyT-L[2】927954R2D2VIT-B9325297.3940956100084.496.7958CLIPWT-R68797593397.3866CLIPVT-L [30]22862FILIPVT-B52781.394.376613969222486596667.0914VukongyT-L[12】944双塔base+单塔head的混合模试R2D2VT-878190379.397.198.779.196.5916专门针对数据噪声设计的momentum-updated encoder456589691CLIPWT-B73.0802CLIPVT-L [30]69.9FILIPVT-842567.2760FILIPVT-L (41]54175.882844.969077.5WukongViT-B47.5786367717570Wukongyrr-L (12)61680.586.1725802R2D2VIT-B568821728802R2D2VTT-L654847[1]Xie Chunyu,et al.CCMB:A Large-scale Chinese Cross-modal Benchmark[C]//Proceedings of the 31st ACM Intemational Conference onataFun.Multimedia.2023:4219-4227.视觉-语言跨模态学习中文图文跨模态模型R2D2·伴随着算法和模型,我们一同开源了对应的图文跨模态Data Size数据集Zero,包含2.5亿中文图文对数据基于用户点击CTR筛选,数据质量更高ZERO25亿The Zero benchmark is entirely openand freely accessible.WARNING:This large-scale benchmark is built for research purposes only to enablelarge-scale model training for a broad range of researchers and other interestedcommunities,and is not suitable for any real-world production or application.1亿Overview3000万https://zero.so.comataFun.1背景2图文多模态大模型CONTENT3360多模态大模型探索4业务落地实践ataFun.图文多模态大模型LMM的研发回顾LMM=Large Multimodal Model,之前亦称为MLLM(Multimodal Large Language Model),目前也有小部分工作为了强调视觉能力将其称为LVM(Large Vision Model)。LMM是在单文本模态的语言模型LM基础上发展起来的研究方向,旨在解决纯文本语言模型LLM只能理解文本输入的先天缺陷,赋予大模型对多模态信息混合输入的理解和处理能力,在此基础上可以再进一步实现多模态信息的混合输出能力·相关的研究路线主要分为两条:一条是原生多模态路线,模型设计从一开始就专门针对多模态数据进行适配设计,代表接层将预训川练的视觉专家模型与预训练的语言模型链接起来,代表性的工作有23年1月Saleforce的BLIP-2,以及近期原生多模态路线KOSMOS-1GeminiGPT-403-1-202312-6-20235-14-2024闭源闭源闭源MLLMFlamingoBLIP-2LLaVAQwen-VL11-15-20221-30-20234-17-20238-15-20234-15-20246-25-2024单模态专家模型闭源开源缝合路线开源开源开源开源ataFun.图文多模态大模型路线选择训练成本:A100卡*月原生多模态路线的理论上限更高,但对应的是训练成本远高于缝合路线:PALM-E19845缝合路线因为可以复用各个单模态领Flamingo1305域的已有成果,因此具有很经济的训IDEFICS478练成本优势。PAU406137CogVLM少数的巨头机构采用的是原生多模态路线,其它绝大多数企业和学界研究CoCa580机构采用的是缝合路线SimVLM2900500010000150002000025000SimVLMCoCaCogVLMIDEFICSFlamingo PALM-E■卡+月290580137406478130519845ataFun.
文档评分
    请如实的对该文档进行评分
  • 0
发表评论

特惠

限量优惠活动

正在火热进行

站长

添加站长微信

领取运营礼包

下载

便携运营智库

立即下载APP

导航

运营工具导航

AI工具导航

AI

AI运营助手

帮助

帮助中心

常见问题

顶部