汪政:解码ChatGPT
编者按:2022年11月美国人工智能研究实验室OpenAI发布ChatGPT大型语言模型(Large Language Models,LLMs)引发了全球社会各界的关注,尤其是2023年3月14日发布的GPT-4的回答准确性不仅大幅提高,还具备更高水平的识图能力,且能够生成歌词、创意文本,实现风格变化。此外,GPT-4的文字输入限制也提升至2.5万字,且对于英语以外的语种支持更加优化。
解码ChatGPT:
现有研究、当前挑战和未来可能方向的分类
Decoding ChatGPT: A taxonomy of existing research, current challenges, and possible future directions
近年来,自然语言处理(NLP)和人工智能(AI)技术取得了重大进展,开发了能够生成类人文本的复杂语言模型。在这些模式中,生成预训练模型(GPT)因其生成连贯和上下文相关响应的能力而获得了极大的关注和认可。GPT模型已成功应用于各种NLP任务,包括语言翻译、文本摘要和问答(Guo et al.,2023)。GPT模型的一个突出变体是聊天生成预训练模型 (ChatGPT),这是一种专门设计用于与用户进行对话交互的聊天机器人(AI,2023;Sohail等人,2023)。ChatGPT利用GPT的功能提供交互式和动态响应,模仿类似人类的对话。这项创新技术开辟了新的可能性。
一、ChatGPT的介绍
1.1 ChatGPT的体系结构
ChatGPT利用由编码器-解码器层组成的转换器架构,这些层协作处理和生成自然语言文本(Chen et al.,2023)。ChatGPT的体系结构包括几个重要组件,例如标记器,它将原始文本划分为更小的单元,称为标记,以便于处理。然后,输入嵌入组件将这些标记转换为高维向量表示(Wang等人,2019)。
ChatGPT的转换器架构由两个主要组件组成:编码器和解码器(Budzianowski和Vulic,2019)。尽管ChatGPT很受欢迎,也很有用,但它在研究人员和从业者中引起了关注,因为它有可能生成看似合理但缺乏事实准确性的内容(Borji,2023)。这一问题可能导致产生反事实或无意义的回应,对在线内容的可靠性构成严重威胁。此外,ChatGPT产生的虚假叙述很容易被误认为是合法的,尤其是不熟悉手头话题的人(NewsGuard,2023)。研究人员一直在探索和高度关注与ChatGPT相关的潜在危害,包括刻板印象的传播、有偏见的反应和误导性信息的屏蔽(Liang et al.,2021;Nadeem等人,2020)。对使用ChatGPT也提出了道德问题,特别是当它被用来创建被操纵的内容。
1.2 ChatGPT研究进展
ChatGPT的初始迭代被称为GPT-1,配备了1.17亿个参数,并在大量文本数据语料库上进行了训练(Ernst和Bavota,2022)。Sub-后续版本,如GPT-2、GPT-3和GPT-3.5,通过显著增加参数数量,取得了显著进步。这种增强促进了更准确、更像人类的反应的产生。ChatGPT的一个重要突破是其零样本学习能力,这使模型能够对以前从未遇到过的提示产生连贯的响应(Zhang和Li,2021)。这种非凡的能力是通过利用无监督学习技术和一种称为语言建模的新型训练目标来实现的。
尽管ChatGPT有局限性,但它的应用已扩展到各个领域,包括医疗保健(Abdel Messih和Kamel Boulos,2023;Sallam,2022)、网络安全(Mijwil等人,2023)、环境研究(Rillig等人,2022 3)、科学写作(Salvagno等人,2023;Dowling和Lucey,2023年;Biswas,2023e)。这些发展可能包括对ChatGPT进行实时培训,以提高其性能,并扩展其领域特定知识,使其更适合客户服务、医疗保健、商业或金融等特定领域。
1.3 研究问题和主要贡献
撰写一篇关于ChatGPT及其未来贡献的综述,对于综合知识、确定优点和局限性、指导未来研究、告知从业者和解决伦理问题至关重要。这篇综述文章试图回答以下研究问题:
-
问题一:ChatGPT研究的现状是什么,包括其架构、进展和主要贡献?
-
问题二:与ChatGPT相关的出版物的多样性如何,这一研究领域的最新趋势是什么?
-
问题三:ChatGPT在不同领域的各种应用是什么,如医疗保健、营销和金融服务、软件工程、学术和科学写作、研究和教育、环境科学和自然科学?
-
问题四:如何利用多模式数据(如文本、音频、视觉)来增强ChatGPT的功能和性能,在这方面的关键技术挑战是什么?
-
问题五:在聊天机器人系统中部署GPT模型的主要挑战、伦理考虑、潜在风险和正在进行的研究工作是什么,以及如何解决这些问题以确保公平、透明、可解释性和以人为本。
为此,这项综述工作首次对ChatGPT进行了全面的批判性研究,涵盖了8种不同的应用、当前问题和未来挑战。此外,文献调查概述了需要改进的领域,并提出了潜在的挑战。最后,还介绍了该工具的未来应用及其局限性的答案。
本文的结构如下:第2节重点介绍ChatGPT的各种研究领域。第3节介绍ChatGPT相关文献的出版趋势和分类。第4节讨论了ChatGPT的应用。第5节和第6节分别概述了该工具的局限性和未来的增强功能。最后,第7节给出了结论性意见。
二、调查方法
由于ChatGPT研究在我们日常生活的不同层面上得到了广泛的宣传和接受,它的快速传播导致了多样化的研究格局。我们的研究强调需要进行全面审查,概述其在不同应用中的各个方面的用途、局限性和潜在的未来方向。
通过搜索查询后,以Scopus数据库中筛选出检索到的文章创建了包含(IC)和排除(EC)标准。在应用特定标准后,共有109篇文章包括在分析中。这些文章来自349位作者代表53个不同的国家,表明国际上广泛参与了关于ChatGPT的讨论文献。值得注意的是,医学领域的代表性最高,占出版物总数的23%。其次是社会科学(20%)和计算机科学(11%)。美国是已发表文章的来源国,共有33篇出版物。紧随其后的是英国,共有10种出版物,澳大利亚和中国各有9种出版物。在合作方面,美国拥有最广泛的网络,与24个不同的国家合作,占总语料库的18%以上。瑞士在合作方面排名第二,有20个合作国家,其次是澳大利亚,有19个合作,英国有18个合作。
三、ChatGPT的出版物多样性
ChatGPT推出后,很快在各种学科中广受欢迎(Cox,2023;Dwivedi等人,2023年;Tlili等人,2022年),包括学术界(Chen,2023b)和科学界(Morreel等人,2024年)。然而,由于ChatGPT产生不准确信息或被感知的情况,许多人提出了批评和强烈反对。
就出版途径(期刊和会议)而言,《自然杂志》以13篇文章位居榜首。然而,没有文章在NLP的顶级会议上发表,可能是因为会议的宣布和接受通常需要更多的时间,因此未在网上发布。
四、与ChatGPT相关的出版物的最新趋势
通过全面的文献综述,在Scopus数据库中搜索ChatGPT的相关文章后共发现了109篇文章。截至2023年3月25日,主要有三类文章发表:1)对ChatGPT的评估,2)使用ChatGPT进行的预测,以及3)对ChatGPT的评论。最大的一组包括跨不同领域的ChatGPT评估。共发表了68篇文章来评估ChatGPT在提供准确答案或知识深度方面的能力。使用ChatGPT对不同领域进行预测是第二大文章组(39篇)和最少评论组(10篇出版物)。
同样重要的是,提示正成为与ChatGPT相关的一个新兴维度(White等人,2023)。研究人员探索了设计有效提示的各种技术,以从该工具中获得所需的反应。另一个重要趋势是发展促进多样性的办法。伦理考虑在大多数论文中都有详细或简要的讨论。随着人工智能系统与用户的互动,对偏见、公平和道德问题的担忧变得突出。研究的重点是开发方法来减少语言模型中的偏见,并确保它们符合。
五、ChatGPT的应用
本节概述了ChatGPT和生成聊天机器人的主要应用程序。ChatGPT的常见应用之一是作为个人助理(Bakker等人,2022)。在不同的领域,该工具被定制以满足特定领域的需求。例如,在医疗保健领域,ChatGPT被用作虚拟医疗助理,为患者提供有关症状、医疗和一般医疗保健建议的信息。在市场营销中,ChatGPT是一个对话式聊天机器人,用于处理客户咨询、提供产品推荐和协助订单跟踪。
5.1 医疗保健
尽管ChatGPT可以访问有限的医学数据,但它在医学执照考试中的表现相当于医学三年级本科生。Stokel-Worker和van Noorden在他们的文章中描述了生成人工智能对科学的影响,以及ChatGPT如何回答一些开放式医学问题,几乎与普通医生一样好(Sohail et al.,2023),但也有一些缺点和不可靠性(Stokel-WWalker和van Noorden,2023年)。当明确提供临床重要因素时,ChatGPT能够识别这些因素,但随着场景的复杂性增加,它错过了相关问题(Howard等人,2023)。ChatGPT的回答通常是连贯的,拼写和语法都很恰当。该模型的回答包括对情景和问题的理解总结、管理选项以及反映其信息来源的免责声明,这些信息来源与患者信息网站的格式类似。ChatGPT经常逐字逐句地重复问题,包括任何错误,尽管它偶尔会注意到并更正它们。
5.2 营销和金融服务
5.3 软件工程
Ahmad等人(2023)使用ChatGPT来分析、综合和评估面向服务的软件应用程序的体系结构。他们得出的结论是,在人类观察的情况下,ChatGPT可以代替全职的人类架构师来执行以架构为中心的软件工程过程。此外,White等人(2023)提出了一个使用ChatGPT实现软件开发过程自动化的快速工程框架,包括创建API规范、与第三方库脱钩、需求规范、测试、部署等。
5.4 学术和科学写作
除此之外,Bishop(2023)在与ChatGPT的一系列对话中表明,人工智能机器人可以用人类风格写作,也可以复制作者的写作风格。作者(Salvagno等人,2023)推断,在如何规范人工智能辅助工具在学术写作中的使用需要达成共识,因为在科学写作中使用聊天机器人会带来与剽窃、不准确和不平等相关风险的伦理问题。Gao等人的一项实验(2023)使用了50篇科学期刊的摘要,并要求ChatGPT根据标题生成摘要。有趣的是,人类评论者发现聊天机器人写的摘要和人写的摘要之间很难区分。
5.5 研究和教育
对于chatGPT正在研究的许多应用领域来说,研究和教育是最突出的。Rahman和Watanobe(2023)通过实验表明,ChatGPT既可以用于解决技术问题,如工程和计算机编程,也可以用于解决非技术问题,例如语言和文学。然而,他们警告要意识到其局限性,如偏见和歧视、隐私和安全、技术滥用、问责制、透明度和社会影响。
Megahed等人(2023)从他们的研究中得出结论,ChatGPT在翻译代码和解释众所周知的概念等结构化任务中表现良好,但在解释不太熟悉的术语和从头开始创建代码等细微任务中表现不佳。他们认为,虽然使用人工智能工具可以提高效率和生产力,但目前的结果可能具有误导性和不正确性。因此,生成性人工智能模型必须经过适当的验证,并与软件过程改进中的其他方法结合使用,以确保准确的结果。
5.6 环境科学
它还将使非英语国家在环境科学领域拥有更大的代表性,加快相关环境问题的研究步伐。朱等人(2023)也提出了类似的观察结果,考虑到环境研究涉及的各种决策过程,在将ChatGPT等人工智能工具集成到其中时,必须谨慎行事。在解决对社会福利有重大影响的环境问题时,这一点尤为重要。
Biswas(2023d)提到了使用ChatGPT来解决全球变暖问题。据他说,环境研究人员可以利用ChatGPT的能力来分析和解释大量的气候变化数据,并随后根据分析预测气候变化模式。此外,ChatGPT可以用于以易于理解的格式向更广泛的受众呈现复杂的气候变化信息。它有可能为决策者提供相关信息和建议,以缓解气候变化。
5.7 自然语言处理
ChatGPT已显示出其作为各种面向NLP的任务的有价值工具的潜力,包括自杀倾向检测、仇恨言论检测和假新闻检测。特别是,Qin等人(2023)认为,像ChatGPT这样的大型模型可以执行NLP任务,而不需要特定的数据自适应。他们在20个常见NLP数据集上对ChatGPT的零样本学习能力进行了评估,涵盖了推理、自然语言推理、问答、对话、摘要、命名实体识别和情感分析等类别。
Hendy等人(2023)对机器传输任务的GPT模型(包括ChatGPT)进行了全面评估。评估涵盖了18个翻译方向,涉及法语、德语、冰岛语、汉语、日语等多种语言。结果表明,GPT模型可以生成对资源丰富的语言具有高度竞争力的翻译输出。然而,对于低资源语言,GPT模型的当前状态显示出局限性,这表明需要进一步改进。
鉴于各种NLP任务之间的相似性,上述研究的结果可以外推到其他相关领域,ChatGPT的应用正在各个领域迅速扩展(Mijwil等人,2023;Aljanabi等人,2021),这表明这种增长趋势将在可预见的未来持续下去。
六、ChatGPT面临的挑战和问题
研究人员已经确定了关于ChatGPT的几个问题,可以大致分为两组:内在限制和使用相关问题。这些限制使得ChatGPT在现实世界场景中的使用和部署变得困难。
6.1 固有的内部问题指的是ChatGPT固有的局限性
它包括五个主要局限性,即幻觉、内容偏颇、非实时性、误传性和不可解释性。ChatGPT可能会产生幻觉,即创建不存在的新数据/信息(Deng和Lin,2022)。另一个类似的担忧是错误信息(Borji,2023)。这两个问题都可能导致产生反事实或无意义的回应,从而严重威胁生成内容的可靠性。研究证明,通过人的反馈强化学习,算法改进、正确输入查询以及验证生成的响应可能有助于克服这些问题。
也有人担心ChatGPT引起的刻板印象和偏见反应的潜在危害(Liang等人,2021;Nadeem等人,2020)。除了算法改进和人类反馈之外,重新定义训练数据以删除或标记有偏见的内容可能有助于朝着这个方向发展。ChatGPT有许多关键应用,需要对逻辑推理步骤进行合理的推理和解释。它包括各种容错领域的决策,如社会服务、环境科学、医疗保健等。在这种情况下,ChatGPT不仅必须提供可用于决策的准确信息,还必须提供逻辑推理过程中涉及的步骤。
6.2 使用相关
与使用相关的问题类别包括不道德地使用该工具、侵犯版权的内容以及过度依赖ChatGPT。此外,法律和法规应旨在惩罚不道德地使用ChatGPT的行为。由于有许多与ChatGPT相关的伦理考虑,我们在下一节中分别进行了讨论。
6.3 伦理问题
ChatGPT的使用日益增多,突显出学术出版迫切需要严格的人工智能作者指南。当人工智能生成学术文本时,存在与版权、归属、剽窃和作者身份相关的伦理问题。这些担忧尤其相关,因为当前的技术允许人类读者或反剽窃软件进行区分人工智能生成的内容和人类创作的内容之间的差异(Rahimi和Abadi,2023)。我们的观点是,ChatGPT的可用性、易用性和多语言能力可以显著提高学术产出,从而使知识传播民主化。然而,聊天机器人可能产生误导或不准确的内容,这引发了人们对学术错误信息的担忧(Mhlanga,2023)。OpenAI承认,ChatGPT可能会产生听起来合理但不正确或无意义的答案。
七、未来可能性
在本节中,我们将探讨与ChatGPT相关的一些未来可能性。我们设想,ChatGPT的未来迭代可能会包含各种额外的变量,这有助于开发更复杂和增强的人工智能语言模型。
7.1 提高会话能力
7.1.1 增加训练数据的数量和种类
7.1.2 微调
7.1.3 包含人的反馈
7.1.4 融入人类情感
7.1.5 基于风格的高级文本分析技术
7.2 个性化
7.2.1 通过各种来源增加个性化的用户体验
7.2.2 特定域的微调
7.2.3 包含个性化提示
包括个性化提示,如用户名或对先前对话的引用,可以提高用户满意度并提高理解。如ChatGPT可以在答案中使用用户名,从而使交互更加自定义。例如,其中一个名叫John的用户之前曾与ChatGPT进行过一次对话,在对话中他提到了自己的名字。如果约翰问:“今天天气怎么样?”ChatGPT可以回应:“当然,约翰!今天的天气预报是晴天,气温为75度。”通过结合John的名字和之前的对话,ChatGPT能够提供更个性化和定制的响应,从而提高用户对所提供信息的整体满意度和理解力。
7.2.4 提供文化和地区多样性的实例
7.2.5 用户对会话响应的反馈
7.2.6 持续培训和更新
为了增强ChatGPT提供个性化答案的能力,可以对其进行新的数据训练。例如,如果出现新的趋势,可以对与该趋势相关的数据进行训练,以增强其提供个性化回答的能力。具体而言,有几种方法可以实现对ChatGPT的持续训练和更新。一种方法是定期向模型中输入新数据,方法是向现有训练集添加新数据,或者根据新数据对模型进行微调。另一种方法是持续监控ChatGPT的性能,并根据需要对模型进行调整。这可能包括监控准确性、困惑度和语言生成质量等指标,并使用这些反馈来更新模型。
7.3 多式联运设计
7.3.1 基于图像的设计
7.3.2 基于音频的设计
7.3.3 基于视频的设计
7.3.4 人机交互设计
7.4 可信度
7.4.1 公平
7.4.2 透明度
7.4.3 可解释性
7.4.4 以人为本的设计
八、结论
在这篇综述文章中,我们通过全面回顾关于ChatGPT的100多篇Scopus索引出版物,展示了未来GPT语言模型在各个领域的巨大潜力。尽管有其潜力,但早期的ChatGPT研究仍然面临一些局限性。我们确定了一些可能需要解决的问题,这些问题被归类为内在的和以使用为中心的问题。此外,我们还讨论了伦理问题。最后,为克服这些挑战并提高ChatGPT的效率,我们发现了一些潜在的未来发展方向。
【作者简介】
汪 政
中国政法大学法学院博士生
浙江泰杭律师事务所主任
浙江合众法律科技智能研究院院长