定制报告-个性化定制-按需专项定制研究报告
行业报告、薪酬报告
联系:400-6363-638
《AI大模型行业深度:行业现状、应用情况、产业链及相关公司深度梳理-240909(43页).pdf》由会员分享,可在线阅读,更多相关《AI大模型行业深度:行业现状、应用情况、产业链及相关公司深度梳理-240909(43页).pdf(43页珍藏版)》请在本站上搜索。
1、 1/43 2024 年年 9月月 9 日日 行业行业|深度深度|研究报告研究报告 行业研究报告 慧博智能投研 AI大模型大模型行业行业深度:深度:行业现状行业现状、应用情况应用情况、产业链产业链及及相关公司相关公司深度梳理深度梳理 随着人工智能技术的迅猛发展,AI 大模型已经成为全球科技竞争的焦点、未来产业的关键赛道以及经济发展的新动力,展现出巨大的发展潜力和广阔的应用前景。目前,AI 大模型的应用落地引发行业关注。技术的持续进步促使 AI 大模型的应用逐步从云端向终端设备延伸,同时,从通用模型向针对特定行业的定制化解决方案转变,其商业潜力和对行业的影响不断增强。此外,国内外企业在大模型领域
2、的竞争日趋激烈,伴随着性能的显著提升和应用场景的持续拓展,AI 技术正在经历快速的发展,同时推动着产业的深层次变革。本文将深入探讨 AI 大模型的相关话题,分析当前行业的现状以及我国 AI 大模型面临的挑战。同时,我们将简要概述 AI 大模型产业链的结构。随后,我们将详细分析 AI 大模型的应用场景,探讨企业如何将业务与 AI 技术相结合,以及 AI 大模型在实际应用中的落地途径。最后,我们将分析国内外公司在 AI大模型领域的基本情况。根据以上内容展望未来发展趋势。希望通过这些内容,能够帮助大家更深入地理解 AI 大模型。目录目录 一、行业概述.1 二、行业现状.7 三、国内 AI 大模型行业
3、应用痛点及解决方案.13 四、产业链分析.17 五、AI 大模型应用落地方式.19 六、国内外大模型.35 七、发展趋势展望.42 八、参考研报.43 一、一、行业行业概述概述 1、AI 大模型定义大模型定义 AI 大模型是指在机器学习和深度学习领域中,采用大规模参数(至少在一亿个以上)的神经网络模型,AI 大模型在训练过程中需要使用大量的算力和高质量的数据资源。2/43 2024 年年 9月月 9 日日 行业行业|深度深度|研究报告研究报告 2、AI 大模型主要特征大模型主要特征 AI 大模型具有泛化性(知识迁移到新领域)、通用性(不局限于特定领域)以及涌现性(产生预料之外的新能力)特征。以
4、 ChatGPT 为代表的 AI 大模型因其具有巨量参数和深度网络结构,能学习并理解更多的特征和模式,从而在处理复杂任务时展现强大的自然语言理解、意图识别、推理、内容生成等能力,同时具有通用问题求解能力,被视作通往通用人工智能的重要路径。3、AI 大模型分类大模型分类 3/43 2024 年年 9月月 9 日日 行业行业|深度深度|研究报告研究报告 按模态划分,大模型可分为自然语言处理(按模态划分,大模型可分为自然语言处理(NLP)大模型,视觉()大模型,视觉(CV)大模型、多模态大模型等。)大模型、多模态大模型等。按照部署方式划分,按照部署方式划分,AI 大模型主要分为云侧大模型和端侧大模型
5、两类。大模型主要分为云侧大模型和端侧大模型两类。云侧大模型由于部署在云端,其拥有更大的参数规模、更多的算力资源以及海量的数据存储需求等特点;端侧大模型通常部署在手机、PC 等终端上,具有参数规模小、本地化运行、隐私保护强等特点。具体而言,云侧大模型分为通用大模型和行业大模型;端侧大模型主要有手机大模型、云侧大模型分为通用大模型和行业大模型;端侧大模型主要有手机大模型、PC 大模型。大模型。从云侧大模型来看,通用大模型具有适用性广泛的特征,其训练数据涵盖多个领域,能够处理各种类型的任务,普适性较强。行业大模型具有专业性强的特点,针对特定行业(如金融、医疗、政务等)的需求进行模型训练,因而对特定领
6、域具有更深的业务理解和场景应用能力。从端侧大模型来看,手机和 PC大模型由于直接部署在设备终端,让用户体验到更加个性化和便捷的智能体验。4/43 2024 年年 9月月 9 日日 行业行业|深度深度|研究报告研究报告 当前当前 AI 大模型的应用路线日渐清晰,大致途径为大模型的应用路线日渐清晰,大致途径为“基础大模型基础大模型行业大模型行业大模型终端应用终端应用”。4、AI 大模型行业应用价值大模型行业应用价值 AI 大模型大模型能够能够提升要素效率及数据要素地位。提升要素效率及数据要素地位。目前数据已成为新生产要素。目前数据已成为新生产要素。数字经济是继农业经济、工业经济之后的现阶段主要经济
7、形态,数据要素已成为数字经济时代下的新型生产要素。2019 年十九届四中全会,数字要素首次被增列为生产要素,数据要素地位得到确立。我国成为首个将数据列为生产要素的国家。数据从企业内部到外部的流通过程中可以创造三次价值:1、数据支撑业务贯通;2、数据推动企业数智决策;3、数据资源流通交易赋能社会创造额外价值。5/43 2024 年年 9月月 9 日日 行业行业|深度深度|研究报告研究报告 AI 大模型技术进步提升生产要素使用效率。大模型技术进步提升生产要素使用效率。基于生产函数模型,AI 大模型的技术进步对生产函数的影响如图所示,且当前的大模型技术进步对经济增长的影响仍成发散态势,即 ABBCC
8、D。AI 大模型的应用从改变数据要素的生成方式和企业经营决策驱动方式两大维度提升了数据要素在生产要素组合中的占比地位。5、大模型发展大模型发展以以 Transformer 为技术基座为技术基座 当前主流大模型普遍是基于 Transformer 模型进行设计的。Transformer 模型在 Google 团队 2017 年论文Attention Is All You Need中被首次提出,Transformer 的核心优势在于具有独特的自注意力(Self-attention)机制,能够直接建模任意距离的词元之间的交互关系,解决了循环神经网络(RNN)、卷积神经网络(CNN)等传统神经网络存在的
9、长序列依赖问题。相较于 RNN,Transformer 具有两个显著的优势。1)处理长序列数据:RNN 受限于循环结构,难以处理长序列数据。Self-attention机制能够同时处理序列中的所有位置,捕捉全局依赖关系,从而更准确地理解、表示文本含义。2)实现并行化计算:RNN 作为时序结构,需要依次处理序列中的每个元素,计算速度受到较大限制,而 Transformer 则可以一次性处理整个序列,大大提高了计算效率。6/43 2024 年年 9月月 9 日日 行业行业|深度深度|研究报告研究报告 Transformer 由两类组件构成:Encoder(编码器)和 Decoder(解码器)。通常
10、,Encoder 结构擅长从文本中提取信息以执行分类、回归等任务,而 Decoder 结构则专用于生成文本。实际上,两类组件可以独立使用,当前主流大模型中,诞生了以 BERT 为代表的 Encoder-only 架构、以 T5 为代表的 Encoder-decoder 架构、以 GPT 为代表的 Decoder-only 架构的大规模预训练语言模型。6、大模型商业模式、大模型商业模式 大模型收费模式可以总结为大模型收费模式可以总结为 API、订阅、广告、定制化四种。、订阅、广告、定制化四种。首先,大模型最常见的商业模式基本遵循软件行业的 SaaS(Software as a Service),
11、通用大模型通常会采取 API 模式,根据 tokens/调用次数/产出内容量等计价,大模型形成 AI 产品后,可以采用订阅制,按月/季/年向用户收取使用费。同时,AI 产品若具备一定程度的流量价值,能够吸引商家投放广告,从而收取广告费。此外,服务内容可以不限于大模型本身,针对付费能力强的企业客户,部分厂商会提供软硬件一体的定制化解决方案,称之为MaaS(Model as a Service)。从从 AI 产品商业化程度来看,产品商业化程度来看,B 端变现模式更加清晰,端变现模式更加清晰,C 端大多数产品仍然以免费为主。端大多数产品仍然以免费为主。根据量子位智库,面向 B 端的 AI 产品从通用
12、场景到垂直赛道分布较均匀,收入模式以会员订阅和按需付费为主,商 7/43 2024 年年 9月月 9 日日 行业行业|深度深度|研究报告研究报告 业模式较为清晰,虽然(纯 B 端)市场占比只有 31%,但 80%以上的产品均能实现营收。C 端 AI 产品以智能助手以及图像生成类的生产力工具为主,虽然用户量大(纯 C端占比 50%以上),但近 50%的产品当前仍未有明确的收入模式,以免费为主。纵观海内外的大模型厂商,纵观海内外的大模型厂商,OpenAI 确立了最为经典的大模型商业模式,主要包括确立了最为经典的大模型商业模式,主要包括 ChatGPT 订阅、订阅、API 调用、战略合作三种营收方式
13、。调用、战略合作三种营收方式。1)ChatGPT 订阅:OpenAI 向 C 端提供生产力解放工具 ChatGPT,并以付费订阅模式变现,针对 ChatGPT Plus 会员收取每月 20 美元的订阅费。2)API 调用:而对于模型使用灵活性要求更高的用户,提供 API 服务,基于模型的调用量(tokens)或者产出内容量(如图片张数、时长)收费。3)战略合作:此外,公司与微软建立了密切合作关系,ToC,OpenAI 模型能力嵌入微软的生成式 AI 工具,如 GitHub、Office、Bing 等;ToB,微软 Azure 是 OpenAI 的独家云服务提供商,Azure 全球版企业客户可以
14、在平台上直接调用 OpenAI 模型。OpenAI 绝大多数收入来自前两项,绝大多数收入来自前两项,ChatGPT 订阅和订阅和 API 调用。调用。二、二、行业现状行业现状 1、国内外企业争先发布国内外企业争先发布 AI 大模型,大模型,AI 大模型性能持续快速提升大模型性能持续快速提升 全球大模型竞争中,全球大模型竞争中,OpenAI、Anthropic、谷歌、谷歌三大厂商为第一梯队,三大厂商为第一梯队,OpenAI 先发推出 GPT-4,在2023 年基本稳定在行业龙头地位,而 Anthropic 凭借 Claude、谷歌凭借 Gemini 后发,可以看到,2024 年以来,三家大模型能
15、力呈现互相追赶态势。目前,OpenAI、微软、谷歌、百度、阿里、字节跳动、讯飞等国内外企业争先发布自己的大模型。大模型的能力最初仅限于文字问答,此后逐渐引入图像理解、文生图能力,并通过 GPTStore 拓展功能,形成了 AI Agent 雏形,近期 GPT-4o则实现了具备情感的互动。大模型的能力提升推动应用迅速向具备记忆、推理、规划、执行等能力的 AI Agent 演进。AI 大模型性能持续快速提升。大模型性能持续快速提升。以衡量 LLM 的常用评测标准 MMLU为例,2021 年底全球最先进大模型的 MMLU5-shot 得分刚达到 60%,2022 年底超过 70%,而 2023 年底
16、已提升至超过 85%。以 OpenAI为例,2020 年 7 月推出的 GPT-3 得分 43.9%,2022年 11 月推出的 GPT-3.5 提升至 70.0%,2023 年 3月和 2024 年 5 月推出的 GPT-4、GPT-4o 分别提升至 86.4%和 87.2%。谷歌目前性能最佳的大模型Gemini 1.5 Pro 得分达到 85.9%。开源模型性能不容小觑,2024 年 4 月推出的 Llama370B 得分已经达到 82.0%。8/43 2024 年年 9月月 9 日日 行业行业|深度深度|研究报告研究报告 2、开、闭源共存以满足不同应用开发需求开、闭源共存以满足不同应用开
17、发需求 双线竞争下,闭源模型和开源模型齐头并进。双线竞争下,闭源模型和开源模型齐头并进。与软件开发和分发类似,基于代码开发的 AI 大模型也面临着闭源或开源模型源代码和训练数据的选择。闭源模型:能力优于开源,是模型基础能力上限持续突破的主阵地。闭源模型:能力优于开源,是模型基础能力上限持续突破的主阵地。2023 年 3 月,OpenAI 发布最新大模型 GPT-4,其不仅具备对图文输入生成应答文字等多模态能力,还在上下文窗口容量、推理能力等方面实现突破,GPT-4由此成为了最强大模型。随后,谷歌发布 Gemini 1.0 及更新后的 Gemini 1.5 Pro,把上下文窗口容量再次提升。进入
18、 2024 年,Anthropic发布最新大模型 Claude3,其在模型理解能力(MMLU)、推理能力(GPQA)等再次实现突破,得分超过 GPT-4 和 Gemini 1.0 Ultra,成为目前能力最强的大模型。出于商业竞争、安全等因素的考量,这些模型仍均为闭源模型。对比它们与开源模型在基准测试中的得分,闭源模型表现明显更为突出。头部大模型公司正凭借科研实力、人才、算力资源等优势,成为推动模型基础能力持续实现突破的主要力量。基于闭源模型的应用通过基于闭源模型的应用通过 API 实现,同时实现,同时 API 能力提升、价格下降。能力提升、价格下降。基于闭源模型的应用开发通过连接闭源模型 A
19、PI 的形式实现。API 接口允许用户将模型功能集成到自己的应用程序或服务中,实现数据的输入输出和模型功能的调用。随着模型不断更新迭代,模型 API 的能力也正持续进化。以 OpenAI 为例,其大模型 API 已完成多次更新,并支持微调功能,逐步为用户提供能力更强、更易用的 API 服务。其中,最新的 GPT-4o API 实现速度提高 2 倍,价格便宜 50%,调用模型的速率限制较 GPT-4-Turbo提高 5 倍。价格方面,GPT API 价格呈现随模型能力提升而下降的趋势,最新的 GPT-4o API 输入和输出百万 tokens 的价格分别为 5、15 美元,仅为 GPT-4 AP
20、I 的 16.7%和 25%。9/43 2024 年年 9月月 9 日日 行业行业|深度深度|研究报告研究报告 开源模型:与闭源模型差距缩小,基于开源模型的应用通过开源模型:与闭源模型差距缩小,基于开源模型的应用通过 fine-tuning 实现。实现。类比于互联网时代开源操作系统 Linux和安卓在大量开发人员贡献代码、报告错误等社区共建中实现发展,人工智能时代开源模型也正在社区群策群力、共同开发的支持下,实现模型能力的逐步提升。根据 ARK 基金统计的开源和闭源模型在五样本 MMLU 语言理解基准测试中的得分对比,开源模型与闭源模型的测试得分差距正不断缩小。在应用开发层面,以 LLaMA
21、为例,通过继续预训练和指令微调的方式,应用开发者能利用自有数据对开源模型进行微调,从而获得与应用更匹配的底层大模型。10/43 2024 年年 9月月 9 日日 行业行业|深度深度|研究报告研究报告 当前海外市场中,OpenAI 和谷歌闭源模型领先,Meta凭借开源模型 Llama 系列模型独树一帜;国内市场中,百度、月之暗面等坚持闭源模型,阿里、商汤、智谱、百川、零一万物等互联网大厂或初创公司开源与闭源兼具。3、政策驱动政策驱动中国中国 AI 大模型产业发展大模型产业发展 近年来,我国始终高度重视人工智能发展机遇和顶层设计,发布多项人工智能支持政策,国务院于 2017年发布新一代人工智能发展
22、规划。科技部等六部门也于 2022 年印发关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见对规划进行落实。2024 年政府工作报告中提出开展“人工智能+”行动。伴随人工智能领域中大模型技术的快速发展,我国各地方政府出台相关支持政策,加快大模型产业的持续发展。当前,北京、深圳、杭州、成都、福建、安徽、上海、广东等地均发布了关于 AI 大模型的相关政策。具体来看,北京着力推动大模型相关技术创新,构建高效协同的大模型技术产业生态;上海强调打造具备国际竞争力的大模型;深圳重点支持打造基于国内外芯片和算法的开源通用大模型,支持重点企业持续研发和迭代商用通用大模型;安徽从资源方面着手吸引大
23、模型企业入驻;成都着力推动大模型相关技术创新,重点研发和迭代 CV 大模型、NLP 大模型、多模态大模型等领域大模型以及医疗、金融、商务、交通等行业大模型;杭州支持头部企业开展多模态通用大模型关键技术攻关、中小企业深耕垂直领域做精专用模型。11/43 2024 年年 9月月 9 日日 行业行业|深度深度|研究报告研究报告 12/43 2024 年年 9月月 9 日日 行业行业|深度深度|研究报告研究报告 4、国内国内模型百花齐放,互联网大厂、初创公司、科技企业均有代表性模模型百花齐放,互联网大厂、初创公司、科技企业均有代表性模型产品型产品 国内模型技术辨识度不高,据 SuperCLUE 测评结
24、果榜单,头部的国内模型在得分上相差并不显著。在国内主流的模型中,互联网厂商和科技企业在大模型上起步较早,如百度在 GPT-4 发布的后一天即 23年 3 月 15 日发布文心一言,23 年 3 月 29 日 360智脑 1.0 发布,23 年 4 月通义千问上线,23 年 5 月 6日讯飞星火 1.0发布。进入 24 年,初创公司的大模型产品得到了更广泛的关注,例如 24 年 3 月月之暗面更新 Kimi 智能助手 200 万字的上下文支持能力,直接引发了百度、360 等厂商对长上下文的适配。同月阶跃星辰 STEP 模型发布,其 STEP2 宣称为万亿参数 MoE 模型,直接对标 GPT-4
25、的参数(一般认为是 1.8T 参数的 MoE),在大多数国内模型以千亿参数为主的环境下,将参数量率先提升到万亿级别。4 月,MiniMax 也发布了万亿参数 MoE 架构的 abab6.5。5、国内、国内 AI 大模型大模型产业产业市场规模市场规模 根据中商产业研究院的数据,2020 年到 2023 年,大模型产业的市场规模从 15 亿元快速增长到 147 亿元,年复合增速约 114%,其中 2023 年元年同比增速为 110%。13/43 2024 年年 9月月 9 日日 行业行业|深度深度|研究报告研究报告 6、国内通用国内通用 AI 大模型用户规模快速增长大模型用户规模快速增长 国内 A
26、I 大模型随着功能性能不断提升,下游客户使用意愿有所提升,相应的用户规模快速增长。从月度活跃数据来看,部分国内 AI 大模型的月活用户规模由 2023 年的十万级别快速提升到 2024年的百万级别。2024年,字节跳动开发的豆包大模型和百度开发的文心一言的月活用户规模都超过 1000 万人。从每日访问量数据来看,Kimi 和文心一言的网页访问量已经稳定在十万次级别,其中 Kimi 网页的访问量自年初以来有较大幅度增长。三三、国内国内 AI 大模型行业应用痛点及解决方案大模型行业应用痛点及解决方案 1、AI 大模型行业应用痛点大模型行业应用痛点(1)算力、数据不足算力、数据不足 14/43 20
27、24 年年 9月月 9 日日 行业行业|深度深度|研究报告研究报告 大模型算力需求巨大:大模型算力需求巨大:根据预测,随着大模型的不断开发和应用,全球的算力消耗将呈现指数级增长,2030 年智能算力需求为 52.5ZFlops,是全球算力最主要的需求增长动力。国产服务器供给不足,进口面临卡脖子:国产服务器供给不足,进口面临卡脖子:在供给方面,算力供给的核心取决于 GPU 芯片,然而由于发展基础差异,我国 GPU 芯片市场长期被海外企业垄断,并且受中美贸易摩擦影响,近年来也面临着限制进口的卡脖子问题。大模型对数据要求高:大模型对数据要求高:需求方面来看,大模型的训练对数据的需求特征主要体现数据体
28、量足够庞大和数据质量足够优秀,其中数据质量有表现在准确性和连贯性等方面。此外,当前随着多模态大模型的不断应用发展,大模型对数据的需求特征也呈现多模态化的特点。数据供给面临枯竭:数据供给面临枯竭:在供给方面,当前训练 AI 大模型的数据来源则主要有四种。当前绝大部分 AI 大模型企业主要采用公开数据或付费的行业数据库,这些数据一方面质量参差不齐,另一方面当前也逐渐面临数据枯竭的问题;而大模型企业想要获得更质量的数据则只能选择企业私有数据或真实世界感知数据,但都面临着数据获取难度大或者成本高的问题。(2)人才缺失与法规风险人才缺失与法规风险 我国在 AI 大模型面临人才短缺问题,无论是人才数量还是
29、质量都与发达国家有明显差距。当前我国人工智能人才缺口已超过 500 万,供需比例失衡,且预计到 2030 年这一缺口将超过 400 万。同时,顶尖 15/43 2024 年年 9月月 9 日日 行业行业|深度深度|研究报告研究报告 算法人才不足,全球最具影响力学者榜单中美国学者数量是中国学者的五倍。这些问题对大模型研发及整个人工智能行业的快速发展构成了挑战。当前当前 AI 大模型存在:大模型存在:1)数据安全和隐私问题:数据安全和隐私问题:大模型的训练和应用需要处理大量数据,其中可能包含敏感或个人信息。现有的数据保护法律法规可能难以完全覆盖大模型相关的数据使用场景,特别是在跨境数据传输、数据匿
30、名化处理等方面,存在法律空白或不足。2)监管与技术创新矛盾:监管与技术创新矛盾:当前我国大模型主要实施备案制度,以规范和监管大模型的开发和使用。然而,技术的快速迭代和复杂性使得备案审批过程可能变得缓慢和繁琐,影响到大模型的研发和市场应用速度。3)责任归属和伦理问题:责任归属和伦理问题:当前大模型已逐步逼近图灵测试的极限,且部分企业已将大模型技术应用于复活逝者等敏感行业,造成社会争议。未来随着 AI 大模型技术的突破,相关矛盾将进一步突出和加剧。4)知识产权(知识产权(IP)问题:)问题:大模型的开发涉及大量代码、算法、数据集等知识产权。此外,如何处理由 AI 生成的内容的版权,也成为一个挑战。
31、(3)市场认知不准及行业市场认知不准及行业 know-how 不足不足 在企业调研访谈中发现市场对 AI 大模型行业应用的认知不准确也是当前 AI 大模型行业应用推进过程中企业面临的主要痛点,这种认知不准确则分为两类极端:1)认知严重不足:部分群体或企业并不认可AI 大模型的能力,故选择不采购相应服务;2)认知预期过高:客户对 AI 大模型能力有较高预期,采购应用后发现无法达成预期失望;从目前来看,由于 AI 大模型的火爆,认知预期过高的群体甚至可能超过认知不足的群体,从而对 AI 大模型的实际应用落地造成巨大的阻碍。16/43 2024 年年 9月月 9 日日 行业行业|深度深度|研究报告研
32、究报告 对于 AI 大模型的行业应用,除了 AI 大模型本身的能力提升,最重要的便在于如何实现应用落地,并且真正有用。应用程序算法本身难度并不大,不同企业的应用产品之间的差异点在于软件内核体现出的企业对行业 know-how 的积累和深度,这需要长时间和丰富的实践案例的积累。2、AI 大模型行业应用痛点解决方案大模型行业应用痛点解决方案 为了应对算力不足的问题,为了应对算力不足的问题,可以采取以下几种方式:首先,租用算力租用算力是一种主流且灵活性高的解决方案,其成本相对较低;其次,合作建设算力中心合作建设算力中心也是一个有效的策略,可以自主或与硬件厂商共建,满足特定算力需求,例如科大讯飞与华为
33、的合作;最后,优化算法优化算法,关注应用场景,减少对算力的需求,也是一个可行的方法。面对数据缺乏的问题,面对数据缺乏的问题,可以采取多种策略。如:购买数据购买数据是当前企业获取非公开数据的主要途径;其次,与企业合作与企业合作也是一种获取数据的有效方式;最后,布局现实传感布局现实传感,获取真实数据,可以为企业提供更全面的数据支持。为了应对人才缺失的挑战,为了应对人才缺失的挑战,可以采取与高校合作与高校合作,如科大讯飞联合成渝多所高校,共同推进 AI 专业人才的培养;其次,举办开发者大赛举办开发者大赛,如百度、华为通过悬赏的方式举办大赛,吸引高技术人才。为了应对法规风险,产权风险,数据安全风险以及
34、伦理及合规风险,为了应对法规风险,产权风险,数据安全风险以及伦理及合规风险,可以采取以下措施:增加隐性数字水印以应对产权风险;建立安全风控机制及保护措施以应对数据安全风险;在方向选择或数据筛选过程中直接过滤不合规信息以应对伦理及合规风险。通过这些策略,可以有效地降低各种风险,确保企业的合规性和安全性。为了解决市场认知不准确的问题,为了解决市场认知不准确的问题,应积极推进市场化应用推进市场化应用的落地,并塑造企业案例塑造企业案例,以提高市场对企业的准确理解和认知。17/43 2024 年年 9月月 9 日日 行业行业|深度深度|研究报告研究报告 针对行业针对行业 know-how 不足的问题,不
35、足的问题,可以通过与头部企业合作来积累 know-how,聘请行业专家,与第与第三方行业咨询公司合作三方行业咨询公司合作,以及构建行业生态合作体系构建行业生态合作体系,以促进 know-how的获取和应用。四四、产业链分析、产业链分析 大模型的技术架构可分为基础层、技术层、能力层、应用层和终端层五个层次:基础层:涉及硬件基础设施和数据、算力、算法模型三大核心要素。基础层:涉及硬件基础设施和数据、算力、算法模型三大核心要素。随着 AI 大模型规模的不断扩大,对计算资源的需求也在增加。因此,高性能的硬件设备、海量场景数据、强大的算力基础和升级迭代的算法模型成为了支持 AI 大模型发展的关键。深度学
36、习模型的不断升级和迭代,增强了 AI 算法的学习能力;同时,开源模式将使 AI 大模型成为海量应用、网络和服务的基础。技术层:技术层:AI 大模型的技术层主要涉及模型构建。大模型的技术层主要涉及模型构建。目前,Transformer 架构在 AI 大模型领域占据主导地位,如 BERT、GPT 系列等。AI 大模型包括 NLP 大模型、CV 大模型、多模态大模型等。这些模型采用预训练和微调的策略,先在大量无标注数据上学习语言或图像的基本表示,然后针对特定任务进行微调。能力层、应用层及用户层:在基础层和技术层的支持下,能力层、应用层及用户层:在基础层和技术层的支持下,AI 大模型拥有了文字、音频、
37、图像、视频、大模型拥有了文字、音频、图像、视频、代码、策略、多模态生成能力等,代码、策略、多模态生成能力等,具体应用于金融、电商、传媒、教育、游戏、医疗、工业、政务等多个领域,为企业级用户、政府机构用户、大众消费者用户提供产品和服务。1、基础层:基础层:AI 高性能芯片不断升级,高性能芯片不断升级,AI 大模型产业生态体系将不断完善大模型产业生态体系将不断完善 在大模型场景下,AI 高性能芯片主要用于大模型的训练环节,芯片性能的强弱直接影响大模型的性能和表现。在全球 AI 高性能芯片市场中,英伟达的芯片产品采用最前沿半导体工艺和创新 GPU 架构保持行 18/43 2024 年年 9月月 9
38、日日 行业行业|深度深度|研究报告研究报告 业的领先地位。目前,英伟达的 A100芯片在主流 AI 大模型训练中占据重要市场份额,H100 虽性能强劲但难以获取。AI 高性能芯片未来将不断迭代升级,持续推动大模型性能和能力的提升。在国内,AI高性能芯片近年来发展速度加快。其中,华为昇腾主要包括 310 和 910两款主力芯片,其中昇腾 910采用了 7nm 工艺,最高可提供 256TFLOPS 的 FP16计算能力,其能效比在行业中处于领先水平。寒武纪是中国具有代表性的另一本土 AI 芯片厂商,公司先后推出了思元 290和思元 370芯片及相应的云端智能加速卡系列产品、训练整机。未来,随着全球
39、 AI 高性能芯片不断迭代升级,也将持续推动大模型性能和能力的提升。2、能力层、应用层及用户层能力层、应用层及用户层:企业企业 AI+与与+AI 的的战略选择战略选择 随着大模型能力的不断增强,随着大模型能力的不断增强,AI 的作用不断深化,生成式的作用不断深化,生成式 AI 新的应用不断被解锁。新的应用不断被解锁。通过对 AI 在搜索、电商零售、办公、金融法律、影视游戏,医药、教育、汽车等行业应用前景的分析,能够认为,AI 应用的落地节奏或与行业数字化程度成正比,能够看到 AI 大模型在互联网(搜索+广告营销)、办公、金融等领域率先迎来“iPhone 时刻”。“AI+”是以 AI 技术为核心
40、,重构现有业务;“+AI”是以现有业务为核心,借助 AI 降本增效,是改进而非重建。从结果来看,“AI+”企业在智慧城市等特定领域获得商业成功,但互联网(例如谷歌、百度的搜索,头条的推荐,阿里的广告)、金融等行业通过已有业务+AI 提升了效率。在当前大模型主导的创新周期中,大模型的应用模式仍然是许多企业关注的焦点。企业需要决定是选择“AI+”(以 AI 技术为核心,重构现有业务)还是“+AI”(以现有业务为核心,借助 AI 降本增效)?对于大模型应用模式的选择可以从两个方面考虑:首先,要考虑首先,要考虑 AI 在企业全业务流程价值链中所占比例。在企业全业务流程价值链中所占比例。如果 AI 在该
41、赛道全业务流程价值链中所占比例很小,比如只有 10%,则更容易从“+AI”切入。因为要从“AI+”切入,企业需要先将剩下的 90%业务补足,而在产业链深耕多年的竞争对手很可能已经补足了这 90%。相比之下,如果 AI 占据全业务价值链的较大比例,“AI+”将有更大的发展空间。例如,在电商领域,可能更适合从“+AI”切入。因为即使没有AI 技术,商家仍然可以通过提供更优质的产品和服务来取胜。这是因为 AI 在电商全业务价值链中所占 19/43 2024 年年 9月月 9 日日 行业行业|深度深度|研究报告研究报告 比例较低,而用户、渠道和产品等因素更为关键。大模型在电商领域更多地用于降低成本和增
42、加效率,例如自动生成营销文案、图像快速检索和智能语音客服等。其次,要考虑企业业务中其次,要考虑企业业务中 AI 是否具备护城河。是否具备护城河。如果 AI在业务中没有护城河或者门槛很低,选择“+AI”更适合持续发展。因为一旦传统企业认识到 AI 的价值,也开始采用“+AI”策略,其他企业很容易赶上来。在这种情况下,创业公司选择“AI+”可能难以生存。相反,如果 AI 在业务中形成了较高的护城河,“AI+”也许会产生创业机会。即使 AI 只占全产业链的一小部分,比如 30%,但这 30%却具有非常高的门槛。后来进入市场的传统企业即使在其余 70%上取得优势,也难以突破这 30%的高门槛。因此,提
43、前入局并占据了 30%份额的企业仍能持续经营,这也是“AI+”模式的机会所在。综上,本轮“+AI”和“AI+”都可能获得可观的价值,“+AI”赋能众多传统业务,比如电商的阿里和京东、办公软件的微软和金山办公等,因为有自身发展需求、具备商业价值的海量数据。“AI+”更可能重塑行业,例如在数据更私密、算法壁垒更高、定制化程度较高的自动驾驶等关键领域。五五、AI 大模型应用大模型应用落地落地方式方式 从 2022 年 11 月 OpenAI 发布 ChatGPT 以来,科技巨头积极推出各类应用来吸引客户。目前比较主流的应用包括:1)聊天机器人:具备语言问答、文本生成、图像理解与生成等功能,代表性产品
44、包括 20/43 2024 年年 9月月 9 日日 行业行业|深度深度|研究报告研究报告 ChatGPT、谷歌 Gemini、字节豆包、百度文心一言等。2)编程工具:具备自动代码生成、代码分析与错误检测、实时编程建议等功能,代表性产品包括 Github Copilot、谷歌 Alpha Code2 等。3)生产力工具:通常提供文档理解、文字生成、图片生成、数据分析与处理等功能,代表性产品包括微软Copilot、谷歌 Gemini for Workspace、金山办公 WPS AI。1、从从 Chatbot 到到 AI Agent,个人助理重塑手机应用生态,个人助理重塑手机应用生态 AI 大模型
45、的能力进步推动大模型的能力进步推动 Chatbot 在在 C 端广泛端广泛“出圈出圈”。Chatbot(聊天机器人)通过自动化方式来处理和回复用户输入,可以模拟人类对话,通过文字或语音与用户进行实时交互。2010年代,随着 NLP等技术的发展,Chatbot 已经在客服、营销、企业信息服务等领域得到了广泛应用。然而,由于语言理解及生成能力有限,Chatbot 的落地范围局限在 B 端特定服务型场景,并未诞生具有广泛影响力的 C 端产品。2022 年 12 月,ChatGPT 在文本生成、代码生成与修改、多轮对话等领域展现了大幅超越过去AI 问答系统的能力,标志着 Chatbot 行业进入 AI
46、 大模型时代。此后,Chatbot 作为 C 端用户体验大模型门槛最低的产品,成为大模型厂商的“标配”,谷歌 Bard、百度文心一言、阿里通义千问等产品在2023 年纷纷推出。在文字在文字对话功能之外,对话功能之外,Chatbot 功能随着功能随着 AI 大模型能力的发展而迅速丰富。大模型能力的发展而迅速丰富。过去一年,各大模型厂商的 Chatbot 产品普遍新增了图像理解、文生图功能,并且新增应用插件商店以拓展 Chatbot 功能。以ChatGPT 为例,2023 年 9 月,OpenAI 将 DALL-E3 整合到 ChatGPT中,从而支持文生图功能。2024 21/43 2024 年
47、年 9月月 9 日日 行业行业|深度深度|研究报告研究报告 年 1 月,OpenAI 正式上线应用商店 GPTStore,当时用户已经创建超过 300 万个 GPTs,主要的 GPTs涵盖图像生成、写作、科研、编程/软件开发、教育、生产力工具和生活七大类别。GPTStore 取代了此前的插件商店(2024 年 3 月关闭),用户不仅可以在平台上分享自己创建的 GPTs,还可以从其他人那里获取各种 GPTs,形成丰富的 GPTs 生态系统。GPTStore 定制版本可以针对特定任务或行业进行优化,允许用户与外部数据(如数据库和电子邮件)进行简洁的交互。2024 年 5 月,随着 OpenAI 更
48、新 GPT-4o 模型,ChatGPT 能够识别用户语音的感情,并输出语音,实现如同与真人对话一般的沉浸式体验。Chatbot 逐渐向逐渐向 AI Agent 演进。演进。AI Agent 是指大模型赋能的,具备规划、记忆、工具、行动能力的智能体。Chatbot 的演进方向是智能化和自动化程度逐渐提升,需要人类参与的程度逐渐下降,逐渐过渡到人与 AI 协作的 Copilot,最终形态是 AI Agent,Agent 只需要人类的起始指令和结果的反馈,具有自主记忆、推理、规划和执行的全自动能力,执行任务的过程中并不需要人的介入。从从 Chatbot 向向 AI Agent 的演进过程中,手机应用
49、生态或将发生改变。的演进过程中,手机应用生态或将发生改变。手机或是向 AI Agent 演进率先落地的硬件载体,发挥 AI 个人助理的作用。AI 个人助理可以记住生活和工作中的各种信息,如下周的晚餐计划或工作会议的内容,并自动整理和索引这些信息;可以帮助用户完成例如安排约会、预订旅行、点餐、播放音乐、回答问题等各种任务。落地过程中,手机应用生态或将从目前以应用商店+APP 的模式转变为 AgentStore+Agent 的模式,手机厂商可能都会发布自己的 AgentStore。22/43 2024 年年 9月月 9 日日 行业行业|深度深度|研究报告研究报告 (1)AI 手机:手机:AI 大模
50、型驱动软硬件升级大模型驱动软硬件升级 手机已经成为 AI 大模型在 C端落地的重要设备。去年底至今,随着三星 Galaxy S24、Google Pixel 8等重要产品上市,及苹果 WWDC 推出 Apple Intelligence,手机 AI 的功能逐渐清晰。目前语音助手、目前语音助手、修图、写作助手等功能成为主流。修图、写作助手等功能成为主流。以三星今年 1月发布的 GalaxyS24 为例,该机型搭载自研大模型 Samsung Gauss,具备实时翻译/圈选搜图/生成式编辑/笔记助手等功能。软件方面,基于 OneUI6.1 系统,强化虚拟助手 Bixby,为用户提供丰富多样的应用服务
51、。据 Techweb,Google 有望在 10 月推出 Pixel9系列,预计将搭载基于最新Gemini 模型的 AI 助手,执行复杂的多模态任务。芯片方面,下半年将发布的骁龙 8Gen4较上一代产品有望进一步支持 AI 应用。23/43 2024 年年 9月月 9 日日 行业行业|深度深度|研究报告研究报告 2024 年 6 月举行的苹果 WWDC2024 大会推出全新个人化智能系统 Apple Intelligence,由苹果端侧大模型、云端大模型、ChatGPT 共同组成,算力足够下依赖终端,复杂场景则使用私密云计算或ChatGPT,能够 1)增强 Siri 理解能力,配备多轮对话、总
52、结信息、屏幕内容感知、应用智能交互等能力,2)提供邮件智能回复、通知整理,备忘录和通话录音/撰写/摘要等功能,3)支持图像生成/智能修图等功能,4)ChatGPT 4o 将融入 siri 和 writingtools,作为云端备选模型。Apple Intelligence 核心能力包括文生文、文生图、跨 App交互与个人情境理解,并需要以 OpenAI ChatGPT4o 作为云端备选模型,配备上了目前已有的大部分 AI 功能。苹果通过 Siri,把 AI 当作手机不同 App之间联系的工具,而不是像此前三星和谷歌的 AI 应用更侧重于让 AI 去完成单一特定任务。苹果让 Siri 在未来成为
53、应用分发入口和流量入口,以超过 13 亿台用户基数生态去提供好的产品解决方案。IDC 认为,新一代 AI 智能手机需拥有至少 30TOPS 性能的 NPU,能够在手机上运行 LLMs,符合标准的 SoC包括 Apple A17 Pro、Media Tek Dimensity 9300、Qualcomm Snapdragon8 Gen 3 等。此类手机在 2023 年下半年开始进入市场。硬件方面,硬件方面,1)SoC:AI 引擎升级、NPU算力提升,SoC 进一步升级确定性强;2)存储:手机 RAM 升级至 24GB LPDDR5X,相较当前主流的 8GB LPDDR4X,成本提升 300%;3
54、)电源:电池/电源管理芯片升级,但弹性相对较小;4)光学:AI 推动屏下摄像头应用取得突破。软件方面,新一代 AI 智能手机在系统架构和应用方面更加注重个性化、场景化服务需求。软件方面,与功能机和前代智能机相比,新一代软件方面,与功能机和前代智能机相比,新一代 AI 智能手机更加注重场景化服务能力。智能手机更加注重场景化服务能力。前代智能机在功能机的基础上增加了手机 OS 和内嵌语音助手,并针对用户不同需求推出独立 APP 进行响应。新一代AI 手机在大模型和原生化服务组件库的基础上,提供用户可定义的智能体开发平台和专属智能体,实现AI 文本/AI 图像/Al 语音/Al 视频等功能,满足用户
55、健康管理/生活服务/角色扮演/高效办公/游戏助手等场景化需求。24/43 2024 年年 9月月 9 日日 行业行业|深度深度|研究报告研究报告 据 IDC,全球 AI 手机 2024 年出货量有望同比增长 233%至 1.7 亿台。中国 AI 手机所占份额自 2024 年以后会迅速增长,预计 2024年中国市场 AI 手机出货量为 0.4 亿台,2027 年将达到 1.5 亿台,且 AI 手机渗透率有望在 2027 年超过 50%。能够认为,AI 手机以其智能化、个性化的特点,有望吸引更多用户进行换机升级,从而引领新一轮的换机潮。(2)AR/VR:AI 大模型交互能力,看好智能眼镜等轻量级大
56、模型交互能力,看好智能眼镜等轻量级 AR 发展机遇发展机遇 AI 大模型有望提升大模型有望提升 AR/VR 交互能力,加速其进入主流市场。交互能力,加速其进入主流市场。据 IDC,2023 年,AR/VR 产品全球出货量 675 万台,同比-23%。随着苹果 VisionPro 发布,AR/VR/MR 出货量在 2024 年有望温和复苏。AI 大模型的出现驱动语音助手、物体识别和生活助理等功能赋能 AR/VR 设备,提升了用户与虚拟环境的互动质量,据 VR 陀螺(2024/6/5),Meta 雷朋智能眼镜出货量已超百万副,AI 大模型的出现有望加速 AR/VR 技术进入主流市场的步伐。25/4
57、3 2024 年年 9月月 9 日日 行业行业|深度深度|研究报告研究报告 语音助手、物体识别、生活助理等语音助手、物体识别、生活助理等 AI 功能已在功能已在 AR/VR 产品中广泛出现。产品中广泛出现。语音助手功能让 AR 眼镜能够通过上下文语义理解与用户进行更自然的交流,如李未可 MetaLensS3 通过大型语言模型 AI 系统提供闲聊和建议。物体识别技术使 AR 眼镜能够识别现实世界中的物体,例如 Meta雷朋智能眼镜引入建筑识别和菜单翻译功能。此外,生活助理功能与用户的社交生活深度绑定,提供聊天回复、邮件整理、购物建议等个性化服务。这些 AI 功能的融合不仅提升了用户体验,还预示着
58、 AR/VR 产品将更加智能化,为用户提供更便捷和个性化的服务。随着技术的不断进步,预计未来 AR/VR 设备将实现更复杂的多模态 AI 应用,进一步增强其作为下一代计算平台的潜力。2、生产力工具的生产力工具的 AI 化推动新一轮化推动新一轮 PC 换机周期换机周期 生产力工具、沟通工具及协作工具经历了生产力工具、沟通工具及协作工具经历了 PC 时代、移动互联网时时代、移动互联网时代的演进,正在进入代的演进,正在进入 AI 时代。时代。微软、谷歌与金山办公等公司以 AI 大模型对原有的生产力工具应用进行升级,通常提供文档理解、文字生成、图片生成、数据分析与处理等等功能,提升用户生产力。26/4
59、3 2024 年年 9月月 9 日日 行业行业|深度深度|研究报告研究报告(1)办公:微软、谷歌引领产品矩阵全面办公:微软、谷歌引领产品矩阵全面 AI 化化 微软是全球生产力工具的领导企业,围绕企业业务与管理流程,已经形成了布局完整的产品矩阵,目前微软是全球生产力工具的领导企业,围绕企业业务与管理流程,已经形成了布局完整的产品矩阵,目前正主导生产力工具的正主导生产力工具的 AI 化。化。微软的产品矩阵覆盖企业办公、客户关系管理、资源管理、员工管理、低代码开发等业务环节,微软已经围绕这些业务环节,推出相应的 Copilot 产品,对原有产品进行 AI 大模型赋能。从 Copilot 时点来看,微
60、软首先在主力产品 Office 套件上线 Copilot,然后逐步在企业业务与管理流程的 Dynamics 套件、开发相关的 PowerPlatform条件、员工管理的 Viva 套件上线 Copilot。Copilot 正以“通用助手”为切入点,重塑微软生产力工具矩阵,向数据协同、功能联动的方向发展。目前办公场景 Office、企业业务流程场景 Dynamics 下的 Copilot 已明确单品收费标准。微软的 Copilot 产品分为和家庭两大场景。工作场景方面:工作场景方面:1)面向企业办公场景推出 Copilot for Microsoft 365,根据微软 FY3Q24(对应日历季度
61、 1Q24)业绩会,近 60%的财富 100 强企业正在使用。2)面向企业流程中的财务、销售和客服场景,分别推出 Copilot for Finance/Sales/Service;3)面向云运营和管理场景,推出 Copilot for Azure;4)面向 IT 安全场景,推出 Copilot for Security;5)此外,微软推出 Copilot Studio 支持用户自定义Copilot,根据 1Q24 业绩会,已有 3万名用户使用。家庭应用方面:家庭应用方面:1)面向 C 端用户办公场景推出 Copilot Pro;2)面向 Win11和部分 Win10 推出Copilot fo
62、r Windows,支持通过任务栏上或键盘上的 Copilot 按钮进行快速访问;3)在 Bing 搜索、Edge 浏览器推出 Copilot。谷歌将谷歌将 Gemini 大模型内置在其大模型内置在其 2B 云端办公套件云端办公套件 Workspace 中。中。谷歌将 Gemini for Workspace 的功能定义为:1)写作,例如生成项目计划、提案、简报等、以及优化文本;2)整理,例如通过简单描述创建项目跟踪表格;3)创建图像;4)联系,例如在视频通话中创建自定义背景,提高声音和视频质量;5)无代码创建应用。金山办公金山办公 WPS 已陆续在主要产品上线已陆续在主要产品上线 WPS A
63、I 服务。服务。WPSAI 已经覆盖文字、演示、PDF、表格、智能文档、智能表格、智能表单等产品,涵盖了金山办公的主要产品。此外,金山办公发布了 WPSAI 企业版,推出 AIHub(智能基座)、AIDocs(智能文档库)、CopilotPro(企业智慧助理)三大功能。(2)编程:编程:AI 协助编程开发,提高开发效率与质量协助编程开发,提高开发效率与质量 AI 编程工具在功能上具有高度相似性,主要包括自动代码生成、代码分析与错误检测、实时编程建议。编程工具在功能上具有高度相似性,主要包括自动代码生成、代码分析与错误检测、实时编程建议。AI 工具的应用极大地提高了开发效率,自动完成编写样板代码
64、、设置环境和调试等重复性任务,使得开发者能腾出时间进行创造性开发;实时语法与错误检查功能有助于提升代码质量,减少代码调试时间,加快开发过程。Copilot 具备强大的网络搜索和推理决策能力,能回答开发过程中的问题。比如通过自然语言描述需求,Copilot 可以自动生成代码,并提供部署建议。据微软 FY3Q24(对应日历季度 1Q24)业绩会,GitHub Copilot 付费用户数已达到 180 万,环比增速 35%以上,收入同比增长超过 45%。2024 年 5 月微软Build 大会进一步升级 GitHub Copilot,包括 1)更新 Extensions,提升开发者的效率。开发者在编
65、写代码之外花费了 75%的时间用于追踪工作流和撰写文档。Extensions 将所有流程整合在一起,可从Neovim、JetBrains IDE、VisualStudio 和 Visual Studio Code 等多种编辑器实时工作,减少上下文切换,开发者只需专注于核心代码。2)推出 Copilot Workspace,提高团队使用 GitHub 管理项目的效率,提供清晰的代码变动可视化界面,增强项目掌控感。3)推出 Copilot connectors,便于开发者用第三方 27/43 2024 年年 9月月 9 日日 行业行业|深度深度|研究报告研究报告 数据和应用定制 Copilot,提
66、升开发效率。例如,开发者可以用西班牙语语音要求 Copilot 用 Java 编写代码,或询问 Azure 资源的可用性。(3)PC:AIPC24 年下半年渗透率有望持续提升年下半年渗透率有望持续提升 AIPC=边缘算力边缘算力+内置大模型。内置大模型。目前 AIPC 定义众多,芯片厂商、PC品牌厂商、第三方机构均各自有自己的定义。广义来说,处理器具有 NPU 提供的边缘算力能力,以及具有内置大模型,就可以称之为一款 AIPC。以联想 4/18 推出的 AIPC 系列产品看,目前 AIPC 主流功能可以分为 8 类,PPT 智能创作、文生图、文档总结、智能问答、AI 识图、会议纪要、智会分身、
67、设备调优,预计 24年底全新一代AIPC 随着处理器升级而推出后,全球 AIPC渗透率有望更快提升。IDC 预计全球预计全球 PC 出货总量稳定增长,出货总量稳定增长,AIPC 渗透率持续提升,渗透率持续提升,2027 年或达年或达 60%。根据 IDC 数据,2023 年全球 PC 出货量约 2.5 亿台,AI-capable PC 出货量 0.25 亿台,市占率约为 10%;2024 年全球PC 出货量 2.75 亿台,AI-capable PC市占率约 19%;预计到 2027 年,全球 PC 出货量为 2.93 亿台,届时 AI-capable PC 市占率有望达到 60%。AIPC
68、下下 NPU 与独立与独立 GPU 方案或将长期共存。同时,方案或将长期共存。同时,AIPC 推动存储规格升级,推动存储规格升级,DRAM 最低最低 16GB、LPDDR 占比或逐渐提高。占比或逐渐提高。硬件级的安全芯片确保隐私安全。硬件级的安全芯片确保隐私安全。根据联想和 IDC 联合发布的AIPC 产业(中国)白皮书,AIPC需要设备级的个人数据和隐私安全保护,除了个性化本地知识库提供本地化的个人数据安全域以及本地闭环完成隐私问题的推理之外,还可能引入硬件级的安全芯片在硬件层面确保只有经过授权的程序和操作才能读取、处理隐私数据。此外联想等厂商也同样在自研 AI 芯片(如联想拯救者 Y700
69、0P、Y9000P、Y9000X、Y9000K 四款新品笔记本搭载的搭联想自研 AI 芯片LA 系列芯片),实现智能的整机功耗分配。28/43 2024 年年 9月月 9 日日 行业行业|深度深度|研究报告研究报告 3、AI 大模型推动具身智能技术加速迭代大模型推动具身智能技术加速迭代 具身智能(具身智能(Embodied AI)属于人工智能领域的分支,典型应用为自动驾驶和机器人。)属于人工智能领域的分支,典型应用为自动驾驶和机器人。具身智能是泛指具有物理身体可以与外界环境进行自主交互的 AI 智能载体。类似于人的自主性,即通过五官(感知)、大脑(规划决策)、小脑(运动控制)完成一系列的行为,
70、具身智能的行动一般也基于:(1)感知并理解与物理世界交互获得的信息、(2)实现自主推理决策、(3)采取相应行动进行交互。目前典型的具有较大落地场景的具身智能应用包括自动驾驶和机器人,最具代表性产品如特斯拉的 FSD 自动驾驶系统和 Optimus 人形机器人等。过去一年,过去一年,AI 大模型助力具身智能的感知、决策等技术进展。大模型助力具身智能的感知、决策等技术进展。从从自动驾驶来看:受益于自动驾驶来看:受益于 AI 大模型发展,大模型发展,感知和决策层快速迭代。(感知和决策层快速迭代。(1)感知层:)感知层:过去传统的自动驾驶感知技术主要系“2D 直视图+CNN”,核心是识别周遭的障碍物是
71、什么及其大小和速度,效率和精度低。特斯拉 2022 年 10 月公布的 Occupancy Network 大模型(基于 BEV+Transformer 的延申),通过计算物体的空间体积占用来构建具有空间、时序的 4D“实时地图”,获得更加连续、稳定的感知结果。有利于解决障碍物无法识别从而消失问题;同时地图以自车为中心坐标系构建,更好的统一了感知和预测的框架。(2)决策层:)决策层:过去的决策算法基于一条条事先设定的 rule-based 的规则,在不同场景下触发行为准则,因此难以解决长尾瓶颈问题。特斯拉决策算法采用交互搜索模型,机器可以自主预测周围环境个体的交互轨迹,并对每一种交互带来的风险
72、进行评估,最终分步决定采取何种策略,让车辆实现更快、更灵活、更拟人的决策行为。(3)控制层:控制层:由于汽车的自由度较低,自动驾驶的控制算法主要依据决策模型输出指令,控制线控底盘等部件进行转向、刹车,从而操控汽车驾驶。目前特斯拉目前特斯拉 FSDV12 全面转向端到端架构(一个大模型实现全面转向端到端架构(一个大模型实现从感知到控制),开始推进商业落地,代码仅从感知到控制),开始推进商业落地,代码仅 2000 多行,全面摒弃多行,全面摒弃 V11 版本超过版本超过 30 万行由工程师万行由工程师编写编写 C+代码。代码。从人形机器人来看:技术难度远高于自动驾驶,运动控制算法或是关键之一。(从人
73、形机器人来看:技术难度远高于自动驾驶,运动控制算法或是关键之一。(1)感知层:)感知层:人形机器人的外部感知(获取外部环境信息)主要包括视/听/触觉,内部感知(获取自身状态信息)主要是对身体的状态和姿态控制。特斯拉 FSD 的视觉感知 Occupancy Network,可以复用在机器人上,有利于加速机器人多模态感知的发展。(2)决策层:)决策层:LLM/VLM/VLA 等通用大模型的不断发展和扩大运用,有望帮助提升机器人的语义和视觉理解能力、问题和任务拆解和推理能力。(3)控制层:)控制层:机器人,特别是人形机器人的自由度较高,让灵巧手/机械臂完成一系列复杂的任务以及控制直立行走/跑跳等动作
74、需要具备较强的逻辑推理能力,然而大部分运控算法仍处于发展初期,指令生成速度慢且简单,这也是机器人发展亟待突破的关键之一。特斯拉的人形机器人在特斯拉的人形机器人在 2022 年年 10 月时只能实现缓慢行走与挥手,月时只能实现缓慢行走与挥手,2023 年年 12 月已经可以流畅的行走与抓取鸡蛋等物品,显示出运控能力的迭代加快。月已经可以流畅的行走与抓取鸡蛋等物品,显示出运控能力的迭代加快。29/43 2024 年年 9月月 9 日日 行业行业|深度深度|研究报告研究报告 英伟达升级了 Issac 机器人平台,从训练、仿真、推理三方面赋能机器人行业发展。在自动驾驶方面,英伟达同样也推出了 Driv
75、e 平台。1)训练平台:)训练平台:用于训练机器人的基础模型。包含英伟达推出的“Project GR00T”人形机器人通用模型、以及其他主流的 VLM/LLM 等生成式 AI 通用基础模型,可以在此基础上进行感知、决策、规控等方面训练和强化学习。2)仿真平台:)仿真平台:在 Omniverse 基础上打造了机器人仿真平台 Isaac SIM。在数字孪生环境中,实现和真实环境一样的开发和测试效果,如获取真实环境中难以得到的数据,可以加快开发流程和减少开发成本。3)端侧平台:)端侧平台:机器人本体的部分做了低功耗高性能的嵌入式计算平台,以及感知、决策规划等的 AI 算法增强的应用部署。如英伟达推出
76、的Jetson Thor SoC片上系统开发硬件,内置了下一代 Blackwell GPU(此前英伟达也推出过针对汽车的DRIVE Thor 套件),带宽达到 100GB/s,AI 计算性能达到 800TFLOPs。AI 大模型的运用正加速高阶智大模型的运用正加速高阶智能驾驶的发展,能驾驶的发展,特别是在感知端,特斯拉的 FSD 很好证明了 AI 大模型可以更大程度提升机器视觉对摄像头输入的图像信息的处理能力,完善视觉感知。而结合激光雷达的多感知融合方案,在远距离感知和探测精度上具备优势,随着激光雷达的价格快速下探到千元机水平,以及 AI 大模型加强算法对点云等稀疏特征数据处理能力,多感知融合
77、长期依旧有希望成为高阶智驾的主流方案。机器人方面,机器人方面,垂直类场景机器人如无人运送机、扫地机器人、工厂机械臂等在加速渗透,但通用型人形机器人由于其多模态感知、高精准运控、以及对泛化和涌现能力等要求高,受限于软件难度和硬件高成本压力,或尚难以在短期内实现快速降本及大规模应用。特斯拉研发的 Optimus 人形机器人作为行业内关注度极高的机器人产品,我们预计将首先量产应用于工厂和仓库,从事较为清晰可控的拣选搬运工作,未来才会逐渐迭代扩大应用场景。据特斯拉在 2024 年股东大会上的计划,到 2025 年将有超过 1000个甚至几千个具有一定程度自主性的 Optimus 在特斯拉工作,未来应用
78、规模会不断扩大。30/43 2024 年年 9月月 9 日日 行业行业|深度深度|研究报告研究报告 4、大模型是推动云计算发展的大模型是推动云计算发展的“锚锚”31/43 2024 年年 9月月 9 日日 行业行业|深度深度|研究报告研究报告 AI 大模型是云计算业务的大模型是云计算业务的“锚锚”,云厂商以大模型为重要底座,推动云计算业务向,云厂商以大模型为重要底座,推动云计算业务向 MaaS 转型。转型。目前已有多家科技巨头将大模型能力部署在云端,或以私有化部署方式提供给企业用户,以模型 API 调用费、模型托管服务费、按项目收费的定制化解决方案等形式获得收入。海外,微软推出了 Azure
79、OpenAI,谷歌推出了 VertexAI,英伟达推出了 AI Foundations;国内,阿里、百度、字节跳动、腾讯等公司均推出了基于自有云服务的 MaaS 模式,商汤等公司也推出了基于自有 AIDC 和大模型能力的 MaaS 服务。其中,大模型的来源包括厂商自身训练的闭源模型和开源模型,以及第三方开源模型。以微软 Azure 为例,用户可选择 OpenAI 的闭源模型,微软自己的开源模型 Phi 系列,以及 Llama 等第三方开源模型。AI 开始拉动云计算收入增长。开始拉动云计算收入增长。以微软为例,从 2Q23到 1Q24 的四个季度,AI 分别贡献 Azure 及其他云服务收入增速
80、的 1%/3%/6%/7%。谷歌在 4Q23、1Q24 业绩会上表示,AI 对谷歌云的贡献不断提升,对垂直整合的 AI 产品组合的需求强劲,这为谷歌云在每个产品领域创造新的机会。亚马逊在 1Q24 业绩会上表示,基础设施建设与 AWS AI 功能正在重新加速 AWS 的增长率。生成式 AI 和模型训练需求驱动,AI 收入占百度 AI 智能云收入在 4Q23/1Q24 分别达到 4.8%/6.9%,其中大部分收入来自模型训练,但来自模型推理的收入快速增长。32/43 2024 年年 9月月 9 日日 行业行业|深度深度|研究报告研究报告 大模型降价吸引客户上云。大模型降价吸引客户上云。2024
81、年 5 月,字节、阿里云、百度、科大讯飞和腾讯相继宣布降价策略,调低面向 B 端市场的大模型 API 调用费用。大模型 API 降价得益于算力芯片性能的提升与推理部署的优化,其目的在于吸引客户使用公有云,购买云厂商的计算、存储、网络和安全等基础产品。5、大模型赋能搜索和广告等互联网传统业务大模型赋能搜索和广告等互联网传统业务 搜索、广告是互联网厂商的代表性传统业务,AI 大模型赋能业务效果提升。AI 从算法优化广告推送机制、广告内容生成两方面助力互联网公司广告业务。微软推出 Copilotin Bing,Google 发布生成式搜索体验(Search Generative Experience
82、,SGE),提供更精准、更个性、更智能的搜索结果。其中,微软Bing 借力 GPT 模型能力,市场份额有所提升。(1)广告:广告:AI 算法优化推送机制,生成式算法优化推送机制,生成式 AI 实现自动化广告制作实现自动化广告制作 AI 技术通过算法优化推送机制,提高用户流量与广告转化率。技术通过算法优化推送机制,提高用户流量与广告转化率。根据 Meta Ads 公司官网数据,推出Reels 短视频后,得益于人工智能驱动的发现引擎,推送内容与用户偏好更加贴合,Instagram 用户的平均使用时间增加了 24%,超过 40%的广告主选择投递 Reels 形式的广告。Google 应用 AI 技术
83、改进Lens 视觉搜索以及图片文本跨模态多重搜索,Lens21-23 年用户增长四倍,月使用数达到 120亿次。机器学习算法匹配广告和最相关受众,提高广告转化率。机器学习算法匹配广告和最相关受众,提高广告转化率。Meta Ads 引入类似受众和细分定位功能,精确识别并推送广告给最有可能转化的潜在用户,从而显著降低单次增量转化费用中值达 37%。同时,Google 采用 AI 驱动的竞价系统,优化广告排序和出价策略,以促进用户进行购买意向性行为,并通过数据分析生成归因报告,为广告主推荐高效指标,以提高广告转化率和投资回报率。生成式生成式 AI 实现自动化广告制作,提高广告创意表现与营销效果。实现
84、自动化广告制作,提高广告创意表现与营销效果。1)Meta Ads 推出的Advantage+Creative 是一个内置的免费 AI 广告创作工具,它通过文本衍生、背景生成、智能扩图和风格化制作等细分功能,自动化地生成和美化广告内容。广告主仅需提供基础创意和目标受众信息,AI 便能创建多个广告版本,并筛选出最可能吸引目标受众的版本。此外,AI 还能对广告进行细节调整,如亮度、宽高比和文本布局,以提升广告质量。使用 Advantage+Creative 的广告主不仅能够提高广告支出回报率(ROAS)达 32%,而且 77%的广告主表示每周可以节省数小时的工作时间,从而有效降低了广告制作的成本和时
85、间投入。2)Google 运用人工智能技术,根据用户查询上下文实时优化搜索广告,并通过机器学习提升广告视觉效果。其生成式 AI 工具 Performance Max 简化了广告制作流程,自动生成 33/43 2024 年年 9月月 9 日日 行业行业|深度深度|研究报告研究报告 文本和图片。此外,Google 的自动创建素材技术(ACA)和 Demand Gen 广告系列进一步优化广告内容,提高视觉吸引力,有效降低广告主获取客户的成本,其中 CPA中值下降了 17.3%,同时广告转化次数增加了 18%。(2)搜索:引入大模型后,搜索:引入大模型后,Bing 份额提升份额提升 谷歌作为搜索市场的
86、领导者,其市场份额自 2015 年以来在 PC 和移动端均超过 90%。公司最初主要依赖理解式 AI 技术,从 2001 年的拼写纠正系统开始,到 2019 年采用 BERT 优化搜索排名,谷歌不断推进 AI 技术。如今,谷歌已发展出比 BERT 强大 1000倍的多模态、多线程统一大语言模型 MUM,以更深入地理解和组织网络内容。随着搜索总量的增加和用户需求的多元化,有效率、高质量的多模态交互搜索成为发展趋势。随着搜索总量的增加和用户需求的多元化,有效率、高质量的多模态交互搜索成为发展趋势。谷歌为应对搜索总量增长和用户需求多样化,于 2023 年启动了搜索生成式体验(SGE)实验,依托生成式
87、 AI 大模型 Gemini,自动创建搜索内容摘要并提供垂直领域推荐。AI Overviews 作为 SGE 的进阶版本,在2024 年 Google I/O 大会上作为 25 年来最大更新推出,与谷歌核心搜索系统集成,确保结果准确性。尽管 AI Overviews 继承了 SGE 的多功能特性,包括视频搜索和多步骤问题解决,但在推出两周后遭遇质疑,谷歌进行了一些改进。然而,根据 BrightEdge 的调查,AI Overviews 在搜索结果中的使用频率已从最初的 84%降至约 15%。34/43 2024 年年 9月月 9 日日 行业行业|深度深度|研究报告研究报告 微软微软 Bing
88、引入引入 GPT 模型能力开启生成式模型能力开启生成式 Web 搜索新体验,市场份额提升。搜索新体验,市场份额提升。微软为 Bing 搜索引擎引入了基于 GPT模型的 AI 增强型搜索助手 NewBing,后升级为 Copilot,该助手通过提供生成式 Web 搜索体验,帮助 Bing 的市场份额从 2023 年 2 月的 2.8%提升至 2024 年 1 月的 3.4%,并且在新推出的四个月内日活用户超过 1 亿,其中三分之一为新用户。Copilot 的推出使得 Bing 的搜索流量大幅增长,累计支持了 50亿次搜索对话,推动了微软 FY2Q24 季度搜索与广告收入的同比增长近 10%。Pe
89、rplexity AI,一家在,一家在 2022 年年 8 月成立的新兴独角兽公司,致力于开发结合对话和链接功能的自然月成立的新兴独角兽公司,致力于开发结合对话和链接功能的自然语言搜索引擎。语言搜索引擎。截至 2024 年 1 月,该平台的月活跃用户已超过 1000万,且在短短两个月内公司估值翻倍,达到 10 亿美元。Perplexity AI 的产品利用包括 GPT-4o、Claude-3等在内的第三方大型模型,并通过检索增强生成技术(RAG)连接外部知识库,以提高搜索结果的准确性。该搜索引擎能够理解自然语言,支持聊天对话搜索、智能文档管理和文本生成,并能进行多轮对话和预测后续问题。35/4
90、3 2024 年年 9月月 9 日日 行业行业|深度深度|研究报告研究报告 Perplexity AI 为免费用户提供无限次快速搜索和有限的 5 次专业搜索,而 Pro 订阅用户支付 20美元/月或 200 美元/年的费用后,每日可使用 300 次专业搜索。六六、国内外大模型国内外大模型 1、海外、海外:微软微软 OpenAI 与谷歌领先,与谷歌领先,Meta 选择开源的防御性策略选择开源的防御性策略 微软和 OpenAI 是目前大模型技术水平、产品化落地最为前沿的领军者,其对颠覆式创新的持续投入是当前领先的深层原因。谷歌技术储备丰厚,自有业务生态广阔并且是 AI 落地的潜在场景,过去由于管理
91、松散未形成合力,谷歌从 2023 年开始整合 Google Brain 和 Deepmind,目前正在产品化、生态化加速追赶。Meta 选择模型开源的防御性策略,以应对 OpenAI、谷歌等竞争对手的强势闭源模型。(1)微软微软 OpenAI:闭源模型全球领先,大模型产品化处于前沿:闭源模型全球领先,大模型产品化处于前沿 OpenAI 最前沿模型最前沿模型 GPT 系列持续迭代。系列持续迭代。2022 年 11 月,OpenAI 推出的基于 GPT-3.5 的 ChatGPT 开启了 AI 大模型热潮。此后,OpenAI 持续迭代 GPT系列模型:1)2023 年 3 月发布 GPT-4,相比
92、 GPT-3.5 仅支持文字/代码的输入输出,GPT-4 支持输入图像并且能够真正理解;2)2023 年 9 月发布 GPT-4V,升级了语音交互、图像读取和理解等多模态功能;3)2023 年 10 月将 DALLE3 与 ChatGPT结合,支持文生图功能;4)2023 年 11 月发布 GPT-4 Turbo,相比 GPT-4 性能提升,成本降低,支持128ktokens 上下文窗口(GPT-4 最多仅为 32k);5)2024 年 5 月发布其首个端到端多模态模型 GPT-4o,在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉功能上性能更优。
93、GPT-4o 的价格是 GPT-4 Turbo 的一半,但速度是其 2 倍。得益于端到端多模态模型架构,GPT-4o 时延大幅降低,人机交互体验感显著增强。OpenAI 多模态模型布局完整。多模态模型布局完整。在多模态模型方面,除了文生图模型 DALLE3,OpenAI 在 2024 年2 月推出了文生视频模型 Sora,Sora 支持通过文字或者图片生成长达 60秒的视频,远超此前 Runway(18 秒)、Pika(起步 3 秒+增加 4 秒)、Stable Video Diffusion(4 秒)等 AI 视频应用生成时长,此外还支持在时间上向前或向后扩展视频,以及视频编辑。36/43
94、2024 年年 9月月 9 日日 行业行业|深度深度|研究报告研究报告 微软微软 Phi 系列小模型面向开源,将自研系列小模型面向开源,将自研 MAI 系列大模型。系列大模型。微软自研小模型为客户提供更多选择,2023年发布 Phi-1.0(1.3B)、Phi-1.5(1.3B)、Phi-2 模型(2.7B),2024 年开源了 Phi-3 系列,包括 3款语言模型Phi-3-mini(3.8B)、Phi-3-small(7B)和 Phi-3-medium(14B),以及一款多模态模型 Phi-3-vision(4.2B)。此外,据 Theinformation2024 年 5 月报道,微软将
95、推出一款参数达 5000亿的大模型,内部称为 MAI-1,由前谷歌 AI 负责人、Inflection CEO Mustafa Suleyman 负责监督。产品化方面,微软与产品化方面,微软与 OpenAI 将大模型能力对原有的软件产品、云计算业务、智能硬件进行全面升级。将大模型能力对原有的软件产品、云计算业务、智能硬件进行全面升级。1)微软围绕企业办公、客户关系管理、资源管理、员工管理、低代码开发等业务环节具有完整的产品矩阵,2023 年以来推出相应的 Copilot 产品对原有产品进行 AI 大模型赋能,其中产品化最早、最为核心的是面向企业办公场景的 Copilotfor Microsof
96、t 365,以及面向 C 端用户的 Copilot for Windows,以及集成在 Bing 搜索、Edge 浏览器的 Copilot。2)云计算业务方面,Azure 云业务向 MaaS 服务发展,提供算力、模型、数据工具、开发工具等服务。3)智能硬件方面,微软在 2024 年 5月发布 GPT-4o 加持的 Copilot+PC,除微软 Surface 以外,联想、戴尔、惠普、宏碁、华硕等 PC厂商也将发布Copilot+PC 新品。(2)谷歌:闭源模型全球领先,自有业务生态及谷歌:闭源模型全球领先,自有业务生态及 AI 潜在落地空间广阔潜在落地空间广阔 谷歌最前沿的闭源模型从谷歌最前沿
97、的闭源模型从 PaLM 系列切换到系列切换到 Gemini。2022-2023 年,PaLM系列模型是谷歌的主力模型,2022 年 4 月发布的 PaLM、2022 年 10 月发布的 Flan PaLM 以及 2023 年 5 月 I/O 大会发布的PaLM-2 都是谷歌当时的主力大模型。2023 年 12 月,谷歌发布全球首个原生多模态模型 Gemini,包含Ultra、Pro 和 Nano 三种不同大小。根据 Gemini Technical Report,Ultra 版在绝大部分测试中优于GPT-4。2024 年 2 月,谷歌发布 Gemini 1.5 Pro,性能更强,并且拥有突破性
98、的达 100万个 Tokens的长上下文窗口。2024 年 5 月 I/O 大会上,谷歌对 Gemini 再次更新:1)发布 1.5Flash,是通过 API 提供的速度最快的Gemini 模型。在具备突破性的长文本能力的情况下,它针对大规模地处理高容量、高频次任务进行了 37/43 2024 年年 9月月 9 日日 行业行业|深度深度|研究报告研究报告 优化,部署起来更具性价比。1.5Flash 在总结摘要、聊天应用、图像和视频字幕生成以及从长文档和表格中提取数据等方面表现出色。2)更新 1.5Pro。除了将模型的上下文窗口扩展到支持 200 万个 tokens之外,1.5Pro 的代码生成
99、、逻辑推理与规划、多轮对话以及音频和图像理解能力进一步提升。产品化方面,谷歌将大模型能力融入自有软件业务、云计算和智能硬件之中。产品化方面,谷歌将大模型能力融入自有软件业务、云计算和智能硬件之中。1)自有软件业务:谷歌在 2023 年 5 月 I/O 大会上宣布将 PaLM2 应用在超过 25 种功能和产品中,包括 2B 办公套件Workspace、聊天机器人 Bard 等等。随着谷歌主力大模型切换到 Gemini,Workspace 和 Bard 背后的大模型也同步切换。2)云计算:谷歌通过 Vertex AI 和 Google AI Studio 向 MaaS 延伸。VertexAI 是A
100、I 开发和运营(AI Ops)平台,支持组织开发、部署和管理 AI 模型。Google AI Studio 是基于网络的工具,可以直接在浏览器中设计原型、运行提示并开始使用 API。3)智能硬件:2024年下半年,据Techweb,谷歌有望在 10 月推出 Pixel9 系列,预计将搭载基于最新 Gemini 模型的 AI 助手,执行复杂的多模态任务。(3)Meta:Llama 开源模型领先开源模型领先 Meta 凭借凭借 Llama 系列开源模型在大模型竞争中独树一帜,目前已发布三代模型。系列开源模型在大模型竞争中独树一帜,目前已发布三代模型。Meta 在 2023 年 2月、7 月分别推出
101、 Llama 与 Llama2。Llama2,提供 7B、13B、70B 三种参数规模,70B 在语言理解、数学推理上的得分接近于 GPT-3.5,在几乎所有基准上的任务性能都与 PaLM540B 持平或表现更好。2024 年 4 月,Meta 发布 Llama3,Llama3 性能大幅超越前代 Llama2,在同等级模型中效果最优。本次开源参数量为 8B 和 70B 的两个版本,未来数个月内还会推出其他版本,升级点包括多模态、多语言能力、更长的上下文窗口和更强的整体功能。最大的 400B 模型仍在训练过程中,设计目标是多模态、多语言,根据 Meta公布的目前训练数据,其性能与 GPT-4 相
102、当。Meta 基于基于 LLama 系列模型打造智能助手系列模型打造智能助手 MetaAI、雷朋、雷朋 Meta 智能眼镜等硬件产品。智能眼镜等硬件产品。Meta 同时更新基于 Llama3 构建的智能助手 MetaAI,无需切换即可在 Instagram、Facebook、WhatsApp 和Messenger 的搜索框中畅通使用 MetaAI。Llama3 很快将在 AWS、Databricks、Google Cloud、38/43 2024 年年 9月月 9 日日 行业行业|深度深度|研究报告研究报告 Hugging Face、Kaggle、IBM WatsonX、Microsoft A
103、zure、NVIDIA NIM 和 Snowflake 上推出,并得到 AMD、AWS、戴尔、英特尔、英伟达、高通提供的硬件平台的支持。此外,雷朋 Meta 智能眼镜也将支持多模态的 MetaAI。2、国内、国内:格局清晰,闭源追赶格局清晰,闭源追赶 GPT-4,开源具备全球竞争力,开源具备全球竞争力 复盘过去一年国内基础大模型训练企业在大模型技术、产品化和商业化上的进展:1)国内闭源大模型持续追赶)国内闭源大模型持续追赶 OpenAI:23 年中到 23年底的国内主流大模型对标 GPT-3.5,23 年开始对标 GPT-4。例如 2023 年 10 月更新的文心 4.0(Ernie4.0)“
104、综合水平与 GPT4 相比已经毫不逊色”,2024 年 1 月更新的智谱 GLM-4整体性能“逼近 GPT-4”,2024 年 4 月更新的商汤日日新 5.0“综合性能全面对标 GPT-4 Turbo”。2)国内竞争格局逐渐清晰,阵营可分为互联网头部企业、上一轮)国内竞争格局逐渐清晰,阵营可分为互联网头部企业、上一轮 AI 四小龙、创业企业。四小龙、创业企业。互联网头部企业中,目前百度与阿里在模型迭代与产品化上领先,字节跳动拥有领先的 2C 大模型应用豆包,但公开的大模型公司信息较少,腾讯的大模型迭代与产品化稍显落后。商汤是上一代“AI 四小龙”公司中唯一在本轮 AI2.0 浪潮中未曾掉队、持
105、续创新领先的企业。创业公司中布局各有特色:智谱布局完整,开源、闭源模型兼具,2C/2B 并重;月之暗面专注 2C 闭源,以长文本作为差异化竞争点;Minimax 选择MoE 模型,以 2C 社交产品切入;百川智能开源、闭源兼具,2B 为主;零一万物从开源模型切入,目前开源和闭源模型兼具。3)国内开源模型具备全球竞争力。)国内开源模型具备全球竞争力。以阿里 Qwen 系列、百川智能 Baichuan 系列、零一万物的 Yi 系列为代表的国内开源模型成为推动全球开源模型进步的重要力量。39/43 2024 年年 9月月 9 日日 行业行业|深度深度|研究报告研究报告 (1)百度:文心大模型持续迭代
106、,百度:文心大模型持续迭代,B/C 端商业化稳步推进端商业化稳步推进 文心文心 4.0 综合能力综合能力“与与 GPT-4 相比毫不逊色相比毫不逊色”。继 2023 年 3 月发布知识增强大语言模型文心一言后,百度在 2023 年 5 月发布文心大模型 3.5,2023 年 10 月发布文心大模型 4.0。相比 3.5 版本,4.0版本的理解、生成、逻辑、记忆四大能力都有显著提升:其中理解和生成能力的提升幅度相近,而逻辑的提升幅度达到理解的近 3 倍,记忆的提升幅度达到理解的 2 倍多。文生图功能方面,文心 4.0 支持多风格图片生成,一文生多图,图片清晰度提升。据百度创始人、董事长兼 CEO
107、 李彦宏在百度世界 2023 上介绍,文心大模型 4.0综合能力“与 GPT-4 相比毫不逊色”。AI 重构百度移动生态。重构百度移动生态。百度搜索、地图、网盘、文库等移动生态应用以 AI 重构。1)搜索:大模型重构的新搜索具有极致满足、推荐激发和多轮交互三个特点。2)地图:通过自然语言交互和多轮对话,升级为智能出行向导,提升用户出行和决策效率。3)百度网盘与文库:AI 增加创作能力。网盘可以精准定位视频的特定帧,并总结长视频内容,提取关键信息和亮点。文库利用其庞大的资料库,辅助用户进行写作和制作 PPT,成为生产力工具。4)百度 GBI:用 AI 原生思维打造的国内第一个生成式商业智能产品。
108、通过自然语言交互,执行数据查询与分析任务,同时支持专业知识注入,满足更复杂、专业的分析需求。百度 B/C 端商业化稳步推进。根据李彦宏 2024 年 4月在 Create2024 百度 AI 开发者大会上的演讲,文心一言用户数已经突破 2 亿,API 日均调用量也突破 2 亿,服务的客户数达到 8.5 万,利用千帆平台开发的 AI 原生应用数超过 19万。C 端商业化:端商业化:2023 年 10 月推出文心一言 4.0 后,百度开启收费计划,开通会员后可使用文心大模型4.0,非会员则使用 3.5 版本。会员单月购买价格为 59.9 元/月,连续包月价格为 49.9 元/月,文心一言+文心一格
109、联合会员价格为 99元/月。文心一言会员可享受文心大模型 4.0、文生图能力全面升级、网页端高阶插件、App 端单月赠送 600 灵感值等权益,文心一格会员可享受极速生成多尺寸高清图像、创作海报和艺术字、AI 编辑改图修图等权益。B 端落地:端落地:三星 Galaxy S24 5G 系列、荣耀 Magic8.0均集成了文心 API,汽车之家使用文心 API 支持其 AIGC 应用程序。根据百度 4Q23 业绩会,百度通过广告技术改进和帮助企业构建个性化模型,在 40/43 2024 年年 9月月 9 日日 行业行业|深度深度|研究报告研究报告 4Q23 已经实现数亿元人民币的收入,百度预计 2
110、024 年来自 AI 大模型的增量收入将增长至数十亿元人民币,主要来源包括广告和人工智能云业务。(2)阿里巴巴:通义大模型开源闭源兼具,落地行业广泛阿里巴巴:通义大模型开源闭源兼具,落地行业广泛 通义千问通义千问 2.5 中文性能追平中文性能追平 GPT-4 Turbo。通义千问自 2023 年 4 月问世以来,2023 年 10 月发布性能超越 GPT-3.5 的通义千问 2.0,2024 年 5 月发布通义千问 2.5。在中文语境下,2.5 版文本理解、文本生成、知识问答&生活建议、闲聊&对话,以及安全风险等多项能力上赶超 GPT-4。通义践行通义践行“全模态、全尺寸全模态、全尺寸”开源。
111、开源。2023 年 8 月,通义宣布加入开源行列,已陆续推出十多款开源模型。根据阿里云公众号,截至 2024 年 5 月,通义开源模型下载量已经超过 700 万。大语言模型方面,通义开源了参数规模横跨 5 亿到 1100 亿的八款模型:小尺寸模型参数量涵盖 0.5B、1.8B、4B、7B、14B,可便捷地在手机、PC等端侧设备部署;大尺寸模型如 72B、110B 能够支持企业级和科研级的应用;中等尺寸模型如 32B 则在性能、效率和内存占用之间找到最具性价比的平衡点。此外,通义还开源了视觉理解模型 Qwen-VL、音频理解模型 Qwen-Audio、代码模型 CodeQwen1.5-7B、混合
112、专家模型Qwen1.5-MoE。面向 B 端客户,通义通过阿里云服务企业超过 9 万,与诸多行业头部客户达成合作。根据阿里云公众号,截至 2024 年 5 月,通义通过阿里云服务企业超过 9 万、通过钉钉服务企业超过 220 万,现已落地 PC、手机、汽车、航空、天文、矿业、教育、医疗、餐饮、游戏、文旅等领域。面向 C 端用户,通义千问 APP 升级为通义 APP,集成文生图、智能编码、文档解析、音视频理解、视觉生成等全栈能力,打造用户的全能 AI 助手。(3)腾讯:混元大模型赋能自身业务生态实现智能化升级腾讯:混元大模型赋能自身业务生态实现智能化升级 混元已经接入腾讯多个核心产品和业务,赋能
113、业务降本增效。混元已经接入腾讯多个核心产品和业务,赋能业务降本增效。2023 年 9 月,腾讯上线混元大模型。混元已升级为万亿级别参数的 MOE 架构模型。截至 2023 年 9 月,包括腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档、微信搜一搜、QQ 浏览器在内的超过 50个核心业务和产品接入混元大模型;2023 年 10 月超过 180 个内部业务接入混元;2024 年 4 月,腾讯所有协作 SaaS 产品超过400个应用全面接入混元,包括企业微信、腾讯会议、腾讯文档、腾讯乐享、腾讯云 AI 代码助手、腾讯电子签、腾讯问卷等等。(4)字节跳动:豆包大模型赋能内部业务,对话助手
114、“豆包”用户数量居前字节跳动:豆包大模型赋能内部业务,对话助手“豆包”用户数量居前 字节跳动在字节跳动在 2023 年并未对外官宣其大模型,在年并未对外官宣其大模型,在 2024 年年 5 月火山引擎原动力大会上首次公开发布。月火山引擎原动力大会上首次公开发布。字节豆包大模型家族涵盖 9 个模型,主要包括通用模型 pro、通用模型 lite、语音识别模型、语音合成模型、文生图模型等等。字节跳动并未说明模型参数量、数据和语料,而是直接针对应用场景进行垂直细分。豆包大模型在 2023 年完成自研,已接入字节内部 50 余个业务,包括抖音、飞书等,日均处理1200 亿 Tokens 文本,生成 30
115、00 万张图片。2C 产品方面,字节跳动基于豆包大模型打造了 AI 对话助手“豆包”、AI 应用开发平台“扣子”、互动娱乐应用“猫箱”以及 AI 创作工具星绘、即梦等。2B 方面,火山引擎也与智能终端、汽车、金融、消费等行业的众多企业已经展开了合作,包括 OPPO、vivo、小米、荣耀、三星、华硕、招行、捷途、吉利、北汽、智己、广汽、东风本田、海底捞、飞鹤等。(5)商汤:商汤:“云、边、端云、边、端”全栈大模型,全栈大模型,5.0 版本对标版本对标 GPT-4 Turbo 41/43 2024 年年 9月月 9 日日 行业行业|深度深度|研究报告研究报告 商汤日日新商汤日日新 5.0 综合性能
116、对标综合性能对标 GPT-4 Turbo。2023年 4 月,商汤正式发布“日日新 SenseNova”大模型体系,实现 CV、NLP、多模态等大模型的全面布局。2024 年 4 月,商汤日日新 SenseNova 升级至5.0 版本,具备更强的知识、数学、推理及代码能力,综合性能全面对标 GPT-4 Turbo。日日新 5.0 能力提升主要得益三个方面:1)采用 MoE 架构,激活少量参数就能完成推理。且推理时上下文窗口达到200K 左右。2)基于超过 10TBtokens 训练、覆盖数千亿量级的逻辑型合成思维链数据。3)商汤 AI 大装置 SenseCore 算力设施与算法设计的联合调优。
117、商汤推出商汤推出“云、边、端云、边、端”全栈大模型产品矩阵。全栈大模型产品矩阵。1)云端模型即商汤最领先的基础模型系列。2)在边缘侧,商汤面向金融、医疗、政务、代码四个行业推出商汤企业级大模型一体机。一体机同时支持千亿模型加速和知识检索硬件加速,实现本地化部署,相比行业同类产品,千亿大模型推理成本可节约 80%;检索大大加速,CPU 工作负载减少 50%,端到端延迟减少 1.5 秒。3)端侧模型方面,SenseChat-Lite1.8B全面领先所有开源 2B 同级别模型,甚至在大部分测试中跨级击败了 Llama2-7B、13B 模型。日日新 5.0端侧大模型可在中端性能手机上达到 18.3 字
118、/秒的推理速度,在高端旗舰手机上达到 78.3 字/秒,高于人眼 20 字/秒的阅读速度。(6)智谱智谱 AI(未上市):模型布局对标(未上市):模型布局对标 OpenA 智谱最新基座大模型智谱最新基座大模型 GLM-4 整体性能相比整体性能相比 GLM-3 提升提升 60%,逼近,逼近 GPT-4。2024 年 1 月,智谱发布新一代基座大模型 GLM-4,1)基础能力(英文):在 MMLU、GSM8K、MATH、BBH、HellaSwag、HumanEval 等数据集上,分别达到 GPT-494%、95%、91%、99%、90%、100%的水平。2)指令跟随能力:在 IFEval 的 pr
119、ompt 级别上中、英分别达到 GPT-4 的 88%、85%的水平,在Instruction 级别上中、英分别达到 GPT-4 的 90%、89%的水平。3)中文对齐能力:整体超过 GPT-4。4)长文本能力:在 LongBench(128K)测试集上对多个模型进行评测,GLM-4性能超过 GPT-4、Claude2.1。5)文生图:CogView3 在文生图多个评测指标上,相比 DALLE3 约在 91.4%99.3%的水平之间。多模态模型方面,智谱已拥有 CogView 文生图模型。据钛媒体 AGI5 月 6 日报道,智谱正在研发对标Sora 的高质量文生视频模型,预计最快年内发布。智谱
120、开源多个模型版本,智谱开源多个模型版本,2023 年获年获 HuggingFace 全球最受欢迎的开源机构第五名,超过全球最受欢迎的开源机构第五名,超过 OpenAI、Google、微软,也是唯一上榜的中国机构。、微软,也是唯一上榜的中国机构。高精度双语千亿模型 GLM-130B 于 2022 年 8 月发布并开源,模型的部分模型性能优于 GPT-3。类 ChatGPT对话模型 ChatGLM-6B 于 2023 年 3 月开源发布,可在消费级显卡上进行本地部署。2023 年 5 月,智谱 AI 和清华大学 KEG 实验室开源了支持图像、中文和英文的多模态对话模型 VisualGLM-6B,语
121、言模型基于 ChatGLM-6B;图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁,用户最低只需 8.7G 的显存就可以进行本地部署。应用:应用:2B 合作多家企业深度共创,合作多家企业深度共创,2C 构建构建 AGIC 产品矩阵。产品矩阵。2B:据 2024 年 3 月 14 日智谱发布会上介绍,截至 2023 年底,智谱 AI 已拥有超 2000 家生态合作伙伴、超 1000 个大模型规模化应用,另有200 多家企业跟智谱 AI 进行了深度共创,覆盖传媒、咨询、消费、金融、新能源、互联网、智能办公等多个细分场景的多个头部企业。2C:智谱已构建了 AIGC 模型产
122、品矩阵,包括 AI 提效助手智谱清言 ChatGLM、高效率代码模型CodeGeeX、写作助手写作蛙、对话产品小呆对话和文生图模型 CogView 等。(7)月之暗面(未上市):专注月之暗面(未上市):专注 2C 闭源,以长文本作为差异化竞争点闭源,以长文本作为差异化竞争点 42/43 2024 年年 9月月 9 日日 行业行业|深度深度|研究报告研究报告 月之暗面(MoonshotAI)成立于 2023 年 3 月,核心产品是 2C 对话智能助手 Kimi。基础大模型层面,月之暗面训练了千亿级别的通用大模型 moonshot。应用层,2023 年 10 月,月之暗面推出全球首个支持输入 20
123、 万汉字的智能助手产品 Kimi,主打无损记忆以及“长文本(LongContext)”,善于读长文、搜网页,可以用于会议纪要、辅助编程、文案写作等场景。2024 年 3 月 18 日,月之暗面宣布KimiChat 在长文本处理能力上取得了重大突破,没有采用常规的渐进式提升路线,无损上下文输入长度跃升至 200万字。根据 MoonshotAI 公众号介绍,公司研发和技术团队从模型预训练到对齐、推理环节均进行了原生的重新设计和开发,不走“滑动窗口”、“降采样”等技术捷径,攻克了很多底层技术难点。据钛媒体 3 月 18 日报道,Kimi 预计在 2024 年上半年开启商业化;联合创始人周昕宇同时表示
124、,预计2024 年会推出多模态模型及产品。月之暗面重视大模型无损上下文长度,创始人认为长文本是新的计算机内存。月之暗面重视大模型无损上下文长度,创始人认为长文本是新的计算机内存。创始人杨植麟认为,上下文长度就是大模型的内存,它是决定大模型应用最关键的两个因素(参数量和上下文)之一;个性化过程不是通过微调实现,而是通过支持人机互动历史的长上下文来实现的。上下文数量级的提升,能够进一步打开对 AI 应用场景的想象力,包括完整代码库的分析理解、可以自主帮人类完成多步骤复杂任务的智能体 Agent、不会遗忘关键信息的终身助理、真正统一架构的多模态模型等等。2024 年 5 月,Kimi 推出应用商店
125、Kimi+,上线官方推荐、办公提效、辅助写作、社交娱乐、生活实用5 大类,共 23 个 Kimi+,类似 OpenI 的 GPTs、字节跳动的 Coze、百度文心一言的智能体平台、通义千问的“百宝袋”等。七、发展趋势展望七、发展趋势展望 1、数据将成为模型规模继续扩大的瓶颈,合成数据或是关键数据将成为模型规模继续扩大的瓶颈,合成数据或是关键 Epoch 预测,未来训练数据的缺乏将可能减缓机器学习模型的规模扩展。预测,未来训练数据的缺乏将可能减缓机器学习模型的规模扩展。据 Epoch 预测,2030 年到2050 年,将耗尽低质量语言数据的库存;到 2026 年,将耗尽高质量语言数据的库存;20
126、30年到2060 年,将耗尽视觉数据的库存。由于大参数模型对数据量需求的增长,到 2040 年,由于缺乏训练数据,机器学习模型的扩展大约有 20%的可能性将显着减慢。值得注意的是,以上结论的前提假设是,机器学习数据使用和生产的当前趋势将持续下去,并且数据效率不会有重大创新(这个前提未来可能被新合成技术打破)。合成数据是解决数据缺乏的重要途径合成数据是解决数据缺乏的重要途径,但目前相关技术仍需要持续改进。,但目前相关技术仍需要持续改进。理论上,数据缺乏可以通过合成数据来解决,即 AI 模型自己生成训练数据,例如可以使用一个 LLM 生成的文本来训练另一个 LLM。在 Anthropic 的 Cl
127、aude3技术报告中,已经明确提出在训练数据中使用了内部生成的数据。但是目前为止,使用合成数据来训练生成性人工智能系统的可行性和有效性仍有待研究,有结果表明合成数据上的训练模型存在局限性。例如 Alemohammad 发现在生成式图像模型中,如果在仅有合成数据或者真实人类数据不足的情况下,将出现输出图像质量的显著下降,即模型自噬障碍(MAD)。能够认为,合成数据是解决高质量训练数据短缺的重要方向,随着技术演进,目前面临的合成数据效果边际递减问题或逐步解决。2、开源与闭源模型开源与闭源模型未来将形成未来将形成互相博弈和竞争格局互相博弈和竞争格局,AI 初创企业面临生初创企业面临生存挑战存挑战 4
128、3/43 2024 年年 9月月 9 日日行业行业|深度深度|研究报告研究报告 未来,大模型开源将成为趋势,一方面能降低大模型开发者的使用门槛,另一方面也能提高算法的透明度和可信度。开源模式的任何渐进式改进都在蚕食闭源模型的市场份额,未来两者或在相当长一段时间内形成互相博弈和竞争的格局。此外,面对性能优异及其快速增多的衍生开源模型,部分 AI 初创企业可能正在失去存在的意义,市场内自研模型的公司数量或将快速收敛,除了科技巨头外,只有少数具备先发优势的 AI 初创企业能够在激烈的竞争中生存下来。八、参考研报八、参考研报 1.华泰证券-科技行业专题研究:AI 大模型时代的全球产业链重构2.华泰证券
129、-电子行业:AI 大模型需要什么样的硬件?3.华泰证券-电子行业专题研究:AI 大模型商业模式思考4.华泰证券-计算机行业深度研究:全球大模型将往何处去?5.平安证券-计算机行业 2024年年度策略报告:政策、市场、技术多重驱动,看好 AIGC 和信创6.太平洋证券-传媒互联网行业海外 AI 应用梳理:模型能力决定下限,场景适配度决定上限7.中银国际-人工智能行业深度报告:“元年”之后,再看大模型应用商业化进展8.平安证券-计算机行业 AI 系列深度报告(四):大模型篇,大模型发展迈入爆发期,开启 AI 新纪元9.前瞻产业研究院&华为云-人工智能行业大模型“引爆”行业新一轮变革:2024 年中国 AI 大模型场景探索及产业应用调研报告10.人民网财经研究院&至顶科技-人工智能行业:2024年中国 AI 大模型产业发展报告,开启智能新时代11.国海证券-可转债双周报(2023 年第 8 期):AI 大模型转债梳理12.广发证券-计算机行业 2024年中期策略:下半年仍以结构性机会为主,基本面驱动是基础免责声明:以上内容仅供学习交流,不构成投资建议。