计算机行业ChatGPT系列报告：百度、三六零与科大讯飞，谁是ChatGPT“国家队”？-远瞻智库

消息中心文档上传

行业研究 | 企业研究

汽车|零部件电子|半导体信息产业|互联网房地产|建材家居金融|保险文创艺术|花鸟萌宠教育培训|体育运动广告|咨询|会务环保|循环经济传媒游戏|影视娱乐化工化学|新材料家电|电气电力|能源|储能医药|健康|养老餐饮美食金属|矿业交通物流|基础设施旅游|酒店|服务业医美|化妆品母婴|玩具|办公造纸|包装印刷市政|公用事业机械制造|装备仪器检测|工业服务批零|电商|外贸农林牧渔轻工业|纺织服装证券期货 | 汇市债市
市场营销工具箱

市场研究 | 数据分析用户画像 | CRM 营销管理 | 营销战略品牌推广 | 公关管理
企业管理工具箱

公司治理 | 组织设计战略管理 | 运营管理供应链管理质量管理 | 质量体系生产管理 | 研发管理行政与后勤安全健康 | EHS体系规章制度 | 合同协议工作总结计划
财务 | 资本工具箱

财务管理 | 税务管理可行性研究报告商业模式 | 商业计划融资 | 上市重组 | 并购投资理财 | 资产管理审计与风险管控
人力资源工具箱

人力资源管理管理工具 | 方法论培训体系 | 培训课件职业分析 | 就业分析轻视听
经济环境 | 党政法律

政府 | 党工团 | 公益团体宏观经济 | 宏观环境产业规划 | 产业政策招商引资 | 园区规划区域经济 | 城市发展出海指南法律事务 | 知识产权
技术工艺 | 前沿科技

前沿科技技术知识 | 技术标准智能制造 | 先进工艺
航空航天 | 国防科技

空天互联星际探索航空航天国防产业

首页 > 文档云仓 > 行业研究 | 企业研究 > 信息产业|互联网 > 计算机行业ChatGPT系列报告：百度、三六零与科大讯飞，谁是ChatGPT“国家队”？

计算机行业ChatGPT系列报告：百度、三六零与科大讯飞，谁是ChatGPT“国家队”？（5页）.pdf

强生 2023-02-19 201

举报与投诉

强生 2023-02-19 201

【报告导读】从开源模型 GPT-2 迈向通用模型的 ChatGPT。自 2017 年 6 月，Google 发布论文《Attentionisallyouneed》，首次提出 Transformer 模型，成为 GPT 发展的基础；2018 年-2020 年,OpenAI 基于 Transformer 模型发布多篇论文，并陆续提出 GPT-1、GPT-2、GPT-3 的三类语言模型，并在 2022 年 2 月发布论文《 Training language models to follow instructions with human feedback》（使用人类反馈指令流来训练语言模型），公布 InstructionGPT 模型，随后在 2022 年 11 月 30 日，OpenAI 推出 ChatGPT 模型，并提供试用。仅仅不足 6 年时间，ChatGPT 走完从理论到现实的历程，其核心催化在于算法+数据+算力的共振。

模型的进步是算法+算力的加持下，通过海量参数带来从量变到质变的升华。GPT 模型依托于 Transformer 解除了顺序关联和依赖性的前提，提出一个建设性的主张：先通过大量的无监督预训练(Unsupervisedpre-training)，再通过少量有监督微调（Supervisedfine-tunning)，来修正其理解能力。整个算法模型包含三个步骤：1.人类反馈强化学习（RLHF）；2.收集参照参数并训练奖励模型；3.使用 PPO 算法进一步对 GPT 实现的内容进行强化学习加成，从人类偏好学习模型解决了强化学习对奖励机制保持一致的高度依赖。而复盘技术路径，算法模型在 2017 年时已被提出，从 GPT-1 到 ChatGPT 依然遵循 Transformer 的框架。而真正带来升华的是在高性能算力加持下，通过优质数据的不断迭代演变而来。

高质量的数据资源是推动 GPT 进化的重要抓手。从 GPT-1 的 1.17 亿参数到 GPT-2 的 15 亿参数，再到 GPT-3 划时代的 1750 亿参数，OpenAI 依托筛选过的优质数据形成参数量的阶梯式上升，最终带来 GPT-3 乃至 ChatGPT 具备理解上下文、连贯性等诸多先进特征。

根据 OpenAI 的设计，在筛选出的优质数据下，最终训练出的 GPT-3 成本极其高昂。即使在团队明确发现失误的前提下，依然无法承担二次训练的代价，其本质原因在于优质数据的来源是 OpenAI 通过大量前期的工作筛选而成。通过梳理，筛选后的数据主要分为：1）过滤后的爬虫数据、2）WebText2 的数据集、3）一号图书馆数据、4）二号图书馆数据、5）英文版的维基百科等五种。而将五类数据映射至国内，我们发现在互联网高歌猛进的建设中，我国天然具备五类数据的优质土壤。