模型材料

智能交互平板行业专题报告AI颠覆商显生态

发布时间:2024/1/12 16:57:17   

(报告出品方:华创证券)

一、AI开启新一轮科技革命,商业化应用已初步落地

(一)AIGC的发展历程

AI被视为“第四次科技革命”,开启新一轮技术创新周期。人工智能概念最早于年被提出,多年以来产业历经几轮技术爆发周期。年AlexNet神经网络模型问世,成为一轮发展起点,并开启了AI在各行各业的应用,被视为人工智能1.0时代,但当时仍存在模型碎片化等问题。年Google团队提出的Transformer架构,开启了大模型为主流算法的人工智能2.0时代,模型参数呈现指数级增长。自年起,新一代AI技术正在开始全新一轮的技术创新周期,而GPT也正是由此时诞生。

GPT1.0-4.0的超神演化历程梳理:从年起,OpenAI开始发布生成式预训练语言模型GPT(GenerativePre-trainedTransformer),这系列模型可以在复杂的NLP任务中取得惊艳效果,例如文章生成,代码生成,机器翻译,QA等,GPT仅需要非常少的数据便可以理解任务需求,并接近或者超过目前最高的技术水平,这是因为GPT模型的训练需要超大的训练语料,超多的模型参数以及超强的计算资源,通过提升网络的参数数量来完成GPT系列的迭代更新。GPT的发展证明了通过不断提升模型容量和语料规模,模型的能力可以不断提升。

1、从GPT-1到GPT-3:证明海量参数训练可行性

在GPT出现之前,NLP(自然语言处理)模型主要是使用监督学习针对特定任务进行训练。存在的限制是:大规模高质量的标注数据不易获得;模型仅限于所接受的训练,泛化能力不足;无法执行开箱即用的任务,限制了模型的落地应用。GPT-1诞生于年,GPT-1只能算得上语言理解工具而非对话式AI,其常用任务包括:1)自然语言推理:判断两个句子的关系(包含、矛盾、中立);2)问答与常识推理:类似多选题,输入为1个文章1个问题及若干答案,输出为每个答案的准确率;3)语义相似度识别:判断两个句子语义是否相关;4)分类:判断输入文本是指定的哪个类别。GPT-1存在明显的数据局限性和泛化能力不足的问题。GPT-1是在互联网上的书籍和文本上训练的,对世界的认识不够完整和准确;GPT-1在未经微调的任务上的泛化能力远远低于经过微调的有监督任务。

年推出的GPT-2,与GPT-1并没有本质上的不同,最大贡献是验证了随着模型容量和数据量的增大,模型能力有进一步开发的空间。GPT-2最大模型共计48层,参数量达15亿。性能方面,除了理解能力外,GPT-2在生成方面表现出强大天赋:除阅读摘要、聊天、续写、编故事外,甚至具备生成假新闻、钓鱼邮件或在网上进行角色扮演等能力。基于GPT-2的验证,年迭代的GPT-3是里程碑式的飞跃。GPT-3较上代并没有太大结构上的差异,之所性能优异是因为海量参数量的训练。GPT-3相比较GPT-2训练的参数量从15亿跃升至亿,提高约倍,数据量也达到了45TB。

性能方面:GPT-3几乎可以卓越完成自然语言处理的绝大部分任务;它不需要微调,可以识别数据中隐藏的含义,并运用此前训练获得的知识来执行任务。哪怕从来没有接触过的示例,GPT-3也能理解并提供不错的表现,因此GPT-3在商业应用上表现极高稳定性和实用性。

GTP-3局限性:最主要问题是它只会找不同问题之间的相关性,但它并不了解用户真实想要的答案是什么,且无法长期对话下去。

2、InstructGPT与ChatGPT:跨越性的“iPhone时刻”

InstructGPT也被称为GPT3.5(ChatGPT的前身)与GPT-3的主要区别在于,新加入了RLHF(ReinforcementLearningfromHumanFeedback,人类反馈强化学习)。这一训练范式增强了人类对模型输出结果的调节,并且对结果进行了更具理解性的排序。

ChatGPT和InstructGPT均使用RLHF训练,区别在于训练数据的设置方法不同。之前的InstructGPT模型,是一个输入对应一个输出,再跟训练数据对比,对了有奖励不对有惩罚;现在的ChatGPT是一个输入,模型给出多个输出,然后人类给输出结果排序,让模型学习人类排序的方式。简单来讲:ChatGPT模型训练在以下两点:

模仿人类制定的偏好,训练老师模型。通过ChatGPT和OpenAI开源的API,GPT得到越来越多的问题,GPT对问题输出多个答案,OpenAI雇佣很多人类老师给GPT的多个答案打分,人类老师不需要告诉GPT标准答,GPT通过这些数据训练一个模仿人类老师打分标准的老师模型。

用增强式学习向模型老师学习。GPT将输入的问题和它返回的输出的答案,给到老师模型,老师模型已经学会了人类的喜好(如,老师模型知道输入是个问句,输出如果是问句就给低分,因为用户肯定是希望得到一个答案),他会给GPT的输出打分,帮助GPT模型训练。用老师模型代替人类打分,减少人工成本。

对比之前所有的训练模型,ChatGPT对人类意图的理解达到了非常高的程度。对话轮次的提升是结果,根本的原因是它更理解了人类的意图,并且不断地去给用户对的回复,具体体现:ChatGPT敢于质疑不正确的前提;主动承认错误和无法回答的问题;大幅提升了对用户意图的理解;大幅提升了结果的准确性。

ChatGPT在特定领域和成本端仍有局限性。特定领域上,在其未经大量语料训练的领域缺乏“人类常识”和引申能力,且无法处理复杂冗长或者特别专业的语言结构,如金融、医学等专业领域的问题;成本端,因其需要非常大量的算力(芯片)来支持其训练和部署,成本是企业和用户需要考虑的问题;无法在线的把新知识纳入其中:出现新知识就需要重新预训练GPT模型,在训练时间和训练成本都是不现实的,如果采取在线训练模式,语料成本相对较低,但是很容易导致对原有知识灾难性遗忘的问题。

3、GPT-4:多模态形式,图片可作为输入

GPT-4与上一版本相比,最大特点是出现了多模态应用,可以使用照片作为输入工具。该变化与增强现实(AR)技术相结合将极大提升GPT商业化的可能性。除此外,GPT-4有更强大的文字处理能力,能够处理2.5万字的长篇内容,是ChatGPT的8倍以上;过去聊天机器人表现不佳的一大问题在于最初要求与设定在一定长度的对话后会被后来信息所覆盖,而GPT-4能够长时间、不会偏移讨论主题的与用户对话。

GPT-4在各类专业考试中远超ChatGPT,多语种方面体现出优越性。在30种以上涵盖经济、写作、数学等领域的测验中,GPT-4大多考试成绩落在前10%的区间,远超ChatGPT的前40~80%的区间。在测试的26种语言中,GPT-4在24种语言方面的表现均优于GPT-3.5等其他大语言模型的英语语言性能,包括如拉脱维亚语、威尔士语等。在中文语境中,GPT-4能够达到80.1%的准确性。

尽管GPT-4功能强大,但它与早期GPT模型有相似的局限性。GPT-4回答仍然会“编造”事实,并进行错误的推理;GPT-4的绝大部分预训练数据截止至年9月,因此十分缺少在此时点之后的知识;GPT-4可能仍然会帮助犯罪或传播有害信息,GPT-4可以生成逼真而有针对性的内容,包括新闻文章、推文、对话和电子邮件。以上局限性从侧面反映出目前距离通用人工智能还有很长的路要走。总结来说,“预训练+微调”大模型能显著降低AI工程化门槛,短期看ChatGPT以及GPT4.0的出现证明了AI是降本增效的新生产力工具,长期看可能由此形成新的内容生产范式。最终随着AI技术的爆发式进步,实现通用式人工智能的可能性进一步提高,迅速赋能各行各业。

(二)AIGC商业化落地初步实现,“AI的iPhone时刻”或已来临

事实上AI技术并非新鲜事物,为何此次ChatGPT的推出能够引发全球轰动?我们认为其核心是ChatGPT代表着AI正在从感知智能向认知智能发展,代表了通用人工智能突破的可能性,正是“通用性”使得AI的“商业化”能够初步落地。此前运用人工智能的场景都是专用人工智能模型,往往只适用于某具体领域;而ChatGPT及GPT4.0代表了人工智能通用大模型方向的最新进展,“通用性”使得AI的“商业化”能够初步落地,而AI的通用、商业化应用才能为各行各业具体赋能。AI的商业化变革速度极快,C端和B端应用落地已初现端倪。随着AIGC的不断发展,其商业化变革的速度和效果超过预期,目前AIGC的主要模式有文本生成、图像生成、音频生成、视频生成、策略生成、跨模式生成以及GameAI,在多种模式的加持下,部分顶尖AIGC公司已进行商业化落地,有望在B端、C端扩展应用布局。

C端:内容生成需求大,以SaaS订阅模式为主。ChatGPT与微软Copilot的出现标志着AIGC在C端拥有巨大潜力,C端的需求源于内容,一方面是娱乐休闲等内容消费的需求,另一方面是

转载请注明:http://www.aideyishus.com/lkyy/6089.html

------分隔线----------------------------