(报告出品方/作者:东北证券,黄净、吴雨萌)
1. 总结:GPT 对工作的冲击将跨越各个职业
3 月 17 日,OpenAI 官网发布最新研究论文 GPTs are GPTs: An early look at the labor market impact potential of large language models,对 LLM 语言模型,特别是 GPT, 对美国不同职业和行业的潜在影响进行了探讨。我们将论文中的结论进行了汇总:
1、 多数职业将受到 GPT 的冲击:80%的工人有至少 10%的任务可以被 GPT 减少 ≥50%的工作时间;19%的工人有至少 50%的任务可以被 GPT 减少≥50%的工作时间;
(资料图)
2、 GPT 的影响横跨各类薪资层级:尽管存在部分特殊情况,但整体来看,工资越高,受 GPT 冲击的程度越大;
3、 职业技能与 GPT 的冲击程度有关:科学和批判性思维技能最不容易受 GPT 冲击,而编程和写作技能受影响的程度最高;
4、 高学历更容易受到 GPT 的冲击:持有学士、硕士和更高学位的人比没有正规教育学历的人更容易受到 GPT 的冲击;
5、 在职培训时间时长与 GPT 冲击程度有关:在职培训时长最长的职业收入水平偏低,且受 GPT 冲击程度最低,而没有在职培训或只需实习的工作则表现出更高的收入水平和更容易受 GPT 冲击的属性。
6、 证券相关和数据处理行业受 GPT 影响程度最高:在人类打分和 GPT 打分模式下,证券商品合约及其他金融投资和数据处理托管分别是受 GPT 冲击程度最高的行业;在直接调用 GPT 模型的情况下,口译笔译和数学家分别是受影响最大的职业;在进一步开发 GPT 衍生功能的情况下,数学家和会计审计则分别为受影响最大的职业。
2. 统计指标来源及解释
论文中使用了 O*NET 27.2 数据库,包含 1016 种职业,以及各个职业的工作活动 (Detailed Work Activities,简称 DWA)和任务(Task)。论文中对工作活动和任务给出了定义: 详细工作活动 DWA 是由完成任务构成的综合操作,大多数工作活动与一个或 多个任务相对应,该数据集中包括 2087 种 DWA; 任务 Task 是某个特定职业的基础单位,一项任务可以与 0 个、1 个或多个 DWA 关联,且每个任务都有与之对应的职业,该数据集中包括 19265 种任务。 例如,对于职业“急症护理护士”,其工作活动 DWA 包括“操作诊断或治疗性医疗仪器或设备”和“准备医疗用品或设备”,其任务包括“设置、操作或监测侵入性设备和装置,例如结肠造口术或气管切开术设备、机械呼吸机、导管、胃肠道管和中心插管”。
论文选取了美国劳工统计局(Bureau of Labor Statistics,以下简称 BLS)提供的 2020 年和 2021 年职业就业系列中的就业和工资数据。该数据集包括职业名称、每个职业的工人数量、2031 年职业水平的就业预测、职业准入的教育水平以及获得职业能力所需的在职培训情况。BLS 数据库可以同 O*NET 数据库进行联动:通过当前人口调查(Current Population Survey,简称 CPS),将 O*NET 中的任务和工作活动数据集与 BLS 劳动力人口统计数据联系起来,形成截面数据。
论文中设定了暴露度 Exposure 这一指标,作为重点讨论的对象。暴露度 Exposure 用于衡量 GPT 对特定工作活动和任务的冲击程度,即保证一项工作活动和任务完成质量相同的情况下,使用 GPT 或 GPT 驱动的系统是否能够将执行工作活动或任务的所需时间减少 50%以上。 论文采用了两种暴露度的注释方式,分别为人工评分法与 GPT-4 评级法:
人工评分:通过对 O*NET 数据库中的每一个工作活动 DWA 和任务进行人为归类并注释打分。
GPT-4 评级:采用早期版本的 GPT-4 对工作活动和任务进行注释打分。
论文将暴露度分为以下三类:
E0 无暴露度:如果经验丰富的工人在高质量完成任务时所需的时间没有明显减少 50%,或使用 GPT 相关技术会降低工作活动/任务的完成质量,则定义为 E0(例: 需要高强度人际互动的任务)。
E1 直接暴露:在保证完成质量相同的前提下,如果通过 ChatGPT 或 OpenAI 直接访问 LLM 或 GPT-4 可以将完成工作活动或任务所需时间减少 50%及以上,则将其定义为 E1(例:指令编写、转换文本和代码的任务)。
E2 LLM+暴露:直接访问 LLM 不能将完成任务所需的时间减>50%,但在 LLM 基础上开发额外功能后可以达成目的,则定义该类工作活动和任务为 E2(例:总结超过 2000 字的文档并回答关于文档的问题)。
为了更为准确地衡量暴露度这一指标的统计学意义,论文中构建了三个度量指标, α、β 和 ζ,分别衡量低、中、高水平下的 GPT 对各职业的冲击程度。其中,α=E1, 代表一个职业受 GPT 冲击程度的下限;β=E1+0.5*E2,其中 E2 的 0.5 倍权重旨在解释通过补充工具或应用程序来完成任务/工作活动需要额外计算的暴露度;ζ=E1+E2, 代表一个职业受 GPT 冲击程度的上限,可用于评估一项工作/任务对于 GPT 及 GPT 驱动的系统的最大暴露度(即GPT进一步开发后,一项工作/任务受到的最大影响)。
3. 研究结论:30%的职业或任务将受到 GPT 冲击
前文将暴露度 Exposure 这一指标的定义进行了描述,论文中还将暴露度的衡量指标 α、β 和 ζ 进行了统计数据的汇总。不论采取人类打分的方式还是 GPT-4 打分,暴露度α的均值在0.14左右,表示了从平均意义上说,15%左右的职业/任务暴露于GPT, 即 15%左右的工作可能会被现有的 LLM/GPT-4 降低 50%以上的工作时间。类似地,暴露度 β 和 ζ 均值分别在 0.3 和 0.5 左右,代表 30%/50%的职业或任务将受到中/高水平的 GPT 冲击,即减少工作时间 50%及以上。
4. 研究结论:工资水平与 GPT 冲击程度呈正相关
论文探索了职业、工人分布程度与暴露度之间的关系。对于中等水平的 GPT(β) 来说,约 19%的工人有 50%以上的任务将受到 GPT 的冲击,80%的工人有 10%以上的任务受到了 GPT 的冲击;18%的职业中有 50%以上的任务受到了 GPT 的冲击。
论文还对工资、就业水平与暴露度的相关性进行了探讨。两种打分模式下,尽管存在一些高暴露度的低工资职业和低暴露度的高工资职业,整体图表显示,工资越高, 受 GPT 影响的程度也随之增加。而 GPT 冲击程度与就业水平则并无显著关联。
5. 研究结论:科学和批判性思维是受 GPT 冲击最小的技能
论文研究了不同职业中技能重要性与 GPT 暴露度之间的关系。作者将 O*NET 数据库中的基本技能进行标准化,并将其与暴露度指标(α,β,ζ)进行回归分析,检验技能重要性和暴露度之间的关联度。结果表明,科学和批判性思维技能(Science and CriticalThinking)与暴露度呈强烈的负相关(以β作为研究,相关系数分别-0.23 和 -0.19),即需要该技能的职业或任务不太可能受到 GPT 的冲击;相反,编程和写作技能(Programming and Writing)与暴露度呈现出强正相关(相关系数分别为 0.62 和 0.47),即涉及该技能的职业更容易受到 GPT 的冲击。
6. 研究结论:学历水平和在职培训时长与 GPT 冲击程度相关
论文研究了不同工作类型的准入壁垒与暴露程度的关系。作者选取 O*NET 数据库中的“工作区(Job Zone)”概念作为变量,同一工作区中的职业在准入教育水平、 准入相关经验、在职培训程度方面具有更高的相似度。O*NET 数据库将工作区分为 5 种,随着准入工作经验的增加,各工作区收入的中位数单调递增,如工作区 1 的 准入工作经验是 3 个月,收入的中位数为 30,230 美元,而工作区 5 的准入工作经验是≥4 年,收入中位数为 80,980 美元。 研究结果显示,从工作区 1 到工作区 4,暴露度水平逐渐增加,但在工作区 5 则保持相似甚至有所降低。平均来说,在不同工作区,50%以上任务受到 GPT 冲击的职业比例分别为 0.00%(工作区 1)、6.11%(工作区 2)、10.57%(工作区 3)、34.5% (工作区 4)和 26.45%(工作区 5)。
论文还单独研究了职业准入教育水平和在职培训情况与暴露度的关系。结果表明, 持有学士、硕士和更高学位的人比没有正规教育学历的人更容易受到GPT的冲击; 在职培训时间最长的职业受 GPT 冲击程度最低(且这类工作的收入水平更低),而没有在职培训或只需要实习的工作表现出更高的收入水平和更容易受 GPT 冲击的属性。
7. 研究结论:证券投资和数据处理可能是受冲击程度最高的职业
论文中对各行业受 GPT 冲击的程度进行了排序。结果表明,人类打分模式下,证券商品合约及其他金融投资及相关活动是受 GPT 冲击最为严重的行业,而 GPT 打分模式下,数据处理托管和相关服务的受冲击程度最高。 在直接调用 GPT 模型的情况下(暴露度 α),口译笔译和数学家分别是两种打分模式下受影响最大的职业。在进一步开发 GPT 衍生功能的情况下(暴露度 ζ),人类打分模式中,有 15 项职业的所有任务都将被 GPT 降低 50%以上的工作时间,包括数学家、税务准备、量化分析师、作家、网页和数字化页面设计师;GPT 打分模式中, 有 86 项职业的所有任务都将被 GPT 降低 50%以上的工作时间,包括审计会计、新闻分析记者、法务专员、临床数据经理、气象变化政策分析师等。从方差角度看, 搜索营销策略师、平面设计师、投资基金经理、财务经理、汽车损坏保险估价师可能是受 GPT 影响程度争议最大的几项职业。
此外,论文研究表明,近期的生产增长率(包含全要素和劳动力两方面)与暴露度并无显著相关性。换言之,如果 LLM 有可能在不同行业之间以不同程度提高生产力, 那么生产力最高的企业可能会良性循环。由于这些行业的生产需求普遍缺乏弹性, 生产率最高的部门在经济投入中所占的比例将缩小。
8. 对国内的探讨:卖方分析师≥80%的工作可能受 GPT 冲击
我们采用了论文中类似的方法,试图对国内证券行业相关工作进行打分,并计算了其可能受 GPT 冲击的程度。论文中采用的 O*NET 数据库将每一项职业对应的任务、 工作活动都进行了定义,但由于国内暂无类似的数据库和较为详细的职业分类,我们仍采用了 O*NET 数据库中的分类,但依据国内的情况做了本土化调整,例如, O*NET 数据库中的金融投资分析师(Financial and InvestmentAnalysts)职业包含任务“对绿色建筑和绿色改造项目进行投资财务分析(Conduct financial analyses related to investments in green construction or green retrofitting projects)”,而中国的分析师普遍不涉及这项工作,因此予以删除调整。
我们选取了 O*NET 数据库中的Financial and Investment Analysts金融和投资分析师、 Investment Fund Managers 投资基金经理这两项职业和对应的任务与工作活动 (DWA),并根据中国的实际情况,将其重新组合为二级卖方分析师、一级市场投行和基金经理。采用与论文相同的标准,对这些职业的任务/工作活动进行了打分, 并计算了暴露度β和ζ。结果显示,按任务情况进行计算,三种行业对比下,二级卖方分析师受 GPT 冲击的程度高于投行一级市场和基金经理。在经过专业知识训练的 LLM 和 GPT 的帮助下(代表暴露度ζ),卖方分析师可能有 82%的任务将被减少 50%以上的工作时间,基金经理可能有 55%的任务被减少 50%以上的工作时间。按照工作活动计算,二级卖方分析师和一级市场投行受 GPT 影响的程度相差不大,约为 65%左右,但仍显著高于基金经理。
在论文中,作者将 E1 直接暴露定义为运用现有 ChatGPT 和 OpenAI 接口直接方位 LLM 可以减少50%以上的工作时间,对应的工作内容包括编写文本(2000 字以内)、 翻译、准备短资料等,而证券业的任务由于涉及专业知识、撰写长度超过 2000 字的报告等,因此在进行打分时,不存在直接暴露 E1 的情况,所有任务及工作活动均被归类为无暴露(E0)或 LLM+暴露(E2)。另外,在打分过程中,根据论文作者的标准,我们将法律法规要求人类完成的任务、需要确认/授权/决策的任务、涉及雇佣员工和培训团队的任务以及涉及大量人际交流的任务归类为无暴露(E0),分析类、文本整理类、资料搜集类工作定义为 LLM+暴露(E2)。值得注意的是,由于基金经理这一职业涉及更多审查合规性、响应监管要求等任务,因此展现出较分析师更低的暴露度(ζ),即受 GPT 的影响低于分析师。
根据论文中对于不同行业的暴露度统计,按照人类打分,美国证券商品合约及其他金融投资的暴露度β在 0.6-0.7 之间,我们将这一数值作为美国证券行业受到 GPT 冲击的平均水平。为了方便对比,我们采用暴露度β进行对比,国内卖方分析师、 一级市场(投行)和基金经理分别对应的暴露度 0.41、0.33 和 0.28,证明国内卖方分析师、一级市场(投行)和基金经理受到 GPT 冲击的情况略好于美国证券行业受冲击的平均水平。我们推测可能由以下原因导致:
1、 美国拥有更高比例的量化分析师:论文中特别提到,在经过专业知识训练的 LLM 和 GPT 的帮助下(暴露度ζ),人类打分模式下,量化分析师的暴露度是 100%,即量化分析师所有的任务都可以在 GPT 的帮助下大幅降低工作时间;美国量化分析行业发展相对靠前,量化分析师可能拥有更高的权重,从而拉高行业整体的暴露度;
2、 不同证券市场的有效性可能对工作任务的打分产生影响:美国资本市场被认为是半强有效市场,较 A 股相比,美股市场的信息更加公开透明;GPT 在公开信息的搜集整理、归纳总结方面具有明显的优势,因此相比国内,GPT 和 LLM 能够更好地帮助美国的证券从业者降低工作时长,从而表现出更高的暴露度。
关键词: