首页 > 文档云仓 > 行业研究 | 企业研究 > 信息产业|互联网 > 计算机行业ChatGPT系列报告:百度、三六零与科大讯飞,谁是ChatGPT“国家队”?
【报告导读】从开源模型 GPT-2 迈向通用模型的 ChatGPT。自 2017 年 6 月,Google 发布论文《Attentionisallyouneed》,首次提出 Transformer 模型,成为 GPT 发展的基础;2018 年-2020 年,OpenAI 基于 Transformer 模型发布多篇论文, 并陆续提出 GPT-1、GPT-2、GPT-3 的三类语言模型,并在 2022 年 2 月发布论 文 《 Training language models to follow instructions with human feedback》(使用人类反馈指令流来训练语言模型),公布 InstructionGPT 模型, 随后在 2022 年 11 月 30 日,OpenAI 推出 ChatGPT 模型,并提供试用。仅仅 不足 6 年时间,ChatGPT 走完从理论到现实的历程,其核心催化在于算法+数 据+算力的共振。
模型的进步是算法+算力的加持下,通过海量参数带来从量变到质变的升华。GPT 模型依托于 Transformer 解除了顺序关联和依赖性的前提,提出一个建设性的主 张:先通过大量的无监督预训练(Unsupervisedpre-training),再通过少量有监 督微调(Supervisedfine-tunning),来修正其理解能力。整个算法模型包含三 个步骤:1.人类反馈强化学习(RLHF);2.收集参照参数并训练奖励模型;3.使 用 PPO 算法进一步对 GPT 实现的内容进行强化学习加成,从人类偏好学习模型 解决了强化学习对奖励机制保持一致的高度依赖。而复盘技术路径,算法模型在 2017 年时已被提出,从 GPT-1 到 ChatGPT 依然遵循 Transformer 的框架。而 真正带来升华的是在高性能算力加持下,通过优质数据的不断迭代演变而来。
高质量的数据资源是推动 GPT 进化的重要抓手。从 GPT-1 的 1.17 亿参数到 GPT-2 的 15 亿参数,再到 GPT-3 划时代的 1750 亿参数,OpenAI 依托筛选过的 优质数据形成参数量的阶梯式上升,最终带来 GPT-3 乃至 ChatGPT 具备理解上 下文、连贯性等诸多先进特征。
根据 OpenAI 的设计,在筛选出的优质数据下,最终训练出的 GPT-3 成本极其高 昂。即使在团队明确发现失误的前提下,依然无法承担二次训练的代价,其本质原 因在于优质数据的来源是 OpenAI 通过大量前期的工作筛选而成。通过梳理,筛 选后的数据主要分为:1)过滤后的爬虫数据、2)WebText2 的数据集、3)一 号图书馆数据、4)二号图书馆数据、5)英文版的维基百科等五种。而将五类数 据映射至国内,我们发现在互联网高歌猛进的建设中,我国天然具备五类数据的优 质土壤。
收藏(1)
点赞(0)
格式
大小
1.00MB
青云豆
免费
传媒行业:头部公司积极布局ChatGPT及相关技术,生成式AI有望革新传媒互联网行业(25页).pdf
MEMS行业深度:竞争格局、应用领域、市场空间、未来趋势及相关公司深度梳理(47页).pdf
传媒+AI行业深度:行业变革、市场前瞻、投资主线分析及重点公司梳理(28页).pdf
华为产业链深度系列研究:华为AI盘古大模型研究框架(31页).pdf
海光信息公司深度报告:进击的国产CPUGPU领航者(44页).pdf
计算机行业AIGC投资机会梳理:ChatGPT快速流行,重构AI商业模式(20页).pdf
AIGC专题二:ChatGPT更懂人类的叙事(41页).pdf
AIGC专题:国内大模型概览(42页).pdf
计算机行业2023年度策略报告:安全为基,持续关注汽车智能化(33页).pdf
机械&计算机行业:机器视觉,行业空间星辰大海,国产厂商蓄势突围(29页).pdf
如果您觉得此文档侵犯了您的合法权利,请填写以上内容并提交。请您务必阅读并参照网站底部的“用户协议”、“隐私协议”中关于侵权问题的处理方法,积极维护您的权益,我们将尽快处理以维护您的合法权益。
下载支付确认
计算机行业ChatGPT系列报告:百度、三六零与科大讯飞,谁是ChatGPT“国家队”?.pdf
所需支付青云豆:免费