BloombergGPT在金融领域NLP任务上的表现明显优于其他类似规模的开放模型,在一般LLM基准上亦有不俗表现。
2023年3月30日,彭博今日发布一篇关于BloombergGPT开发情况的研究论文,文章详细介绍了这一全新的大规模生成式人工智能(AI)模型。该大语言模型(LLM)专门针对各类金融数据进行训练,以全方位支持金融领域的自然语言处理(NLP)任务。由于金融行业的复杂性并且含有大量金融术语,需要一个专攻金融专业的模型。BloombergGPT的推出意味着这项新技术在金融领域的发展和应用已经迈出了第一步。该模型将帮助彭博改进现有的金融NLP任务,如市场情绪分析、命名实体识别、新闻分类和问题回答等。
作者 | Shijie Wu, Ozan ˙Irsoy,Steven Lu,Vadim Dabravolski, Mark Dredze,Sebastian Gehrmann, Prabhanjan Kambadur, David Rosenberg, Gideon Mann
来源 | Bloomberg
为方便读者,可公众号“社科学术汇”后台回复关键词“BloombergGPT”下载论文阅读学习。
摘要
自然语言处理(NLP)在金融技术领域的应用广泛而复杂,其应用范围包含了从情绪分析、实体识别到人机问答等。大型语言模型(LLM)也已被证明对许多任务都是有效的。然而,现有文献中没有专门针对金融领域的LLM的研究。对此,彭博社(Bloomberg)和约翰霍普金斯大学的Shijie Wu等在BloombergGPT: A Large Language Model for Finance一文中介绍了BloombergGPT,这是一个涉及500亿参数的语言模型,其训练主要是使用大规模的财务数据,即基于彭博社的广泛数据源构建了3630亿个标签的特有数据集(363 billion token dataset),这可能是迄今为止最大的特定领域数据集,并增加了3450亿个标签的通用数据集的数据。该团队在LLM基准测试、开放式财务测试和一套符合预期用途的内部基准测试上验证BloombergGPT,结果证明,混合数据集训练使模型在财务任务上显著优于现有模型,且不会牺牲通用LLM基准的性能。此外,该团队在文章中解释了建模选择、训练过程和评估方法。下一步,该团队计划发布训练日志,详细介绍在训练BloombergGPT方面的经验。
引言
自然语言处理(NLP)在金融技术领域的应用广泛而复杂,其应用范围包含了从情绪分析、实体识别到人机问答等。大型语言模型(LLM)也已被证明对许多任务都是有效的。然而,现有文献中没有专门针对金融领域的LLM的研究。对此,我们介绍了BloombergGPT,这是一个涉及500亿参数的语言模型,其训练主要是使用大规模的财务数据。我们基于彭博社的广泛数据源构建了3630亿个标签的数据集(363 billion token dataset),这可能是迄今为止最大的特定领域数据集,并增加了3450亿个标签的通用数据集的数据。我们在LLM基准测试、开放式财务测试和一套符合预期用途的内部基准测试上验证BloombergGPT。我们的混合数据集训练使模型在财务任务上显著优于现有模型,且不会牺牲通用LLM基准的性能。此外,我们还解释了我们的建模选择、培训过程和评估方法。下一步,我们计划发布训练日志,详细介绍我们在训练BloombergGPT方面的经验。
模型介绍
金融科技(FinTech)是一个庞大且不断发展的领域,NLP技术发挥着越来越重要的作用。金融NLP任务包括情绪分析、命名实体识别、新闻分类以及人机问答等。虽然任务范围与一般NLP基准中的任务范围相似,但金融领域的复杂性和特定术语需要适用于特定领域的系统。出于所有这些原因,将LLM专注于金融领域将是有价值的。
1.1BloombergGPT
我们训练BloombergGPT,这是一个500亿参数的语言模型,支持金融行业的各种任务。我们采用混合方法,而不是专门针对特定领域的数据构建通用LLM或小型LLM。通用的模型涵盖了许多领域,能够在各种各样的任务中高水平地执行,并且在训练期间不进行专门的专业化训练。然而,现有特定领域模型的结果表明,通用模型无法覆盖它们。因此,我们着手建立一个模型,该模型能够在财务维度上实现最佳的效果,同时在通用LLM基准上保有有竞争力的性能。
我们利用彭博社(Bloomberg)现有的数据创建、收集和管理资源,构建了迄今为止最大的特定领域数据集,从而实现了这一目标。由于彭博社主要是一家金融数据公司,其数据分析师在40年的时间里收集和整理了各种金融相关文本文件。因此我们拥有广泛的财务数据集合,这些数据涵盖了金融领域的一系列主题,我们将这些数据添加到公共数据集,以创建一个包含7000多亿个标签的大型训练语料库。
使用该训练语料库的一部分,我们训练了一个500亿参数模型——BLOOM-style,该模型是根据Hoffmann等人的指导方针设计的。我们在标准LLM基准、开放式财务基准和一套彭博内部基准上验证了该模型,这些基准能够最准确地反映我们的训练预期。
我们的结果表明,我们的混合训练方法训练出了一个在财务任务上大大优于现有模型的模型,同时在一般NLP基准上达到或更好。
1.2更广泛的贡献
除了构建财务数据LLM之外,我们的目标是为更广泛的研究做出贡献。具体而言,本文记录了我们的完整经验,并探讨了我们对于文献中几个悬而未决问题的理解。
特定于领域的LLM(Domain-specific LLMs)。少数现有的特定领域LLM是专门针对特定领域的数据源进行训练(Luo et al.,2022;Bolton et al.,2023;Taylor et al.,2021),或将非常大的通用模型应用于特定领域的任务(Singhal et al.,2020;Lewkowycz et al.,2018)。到目前为止,我们的替代方法——在特定领域和一般数据源上训练LLM——尚未得到研究。而我们生成的模型在特定于领域的任务上做得很好,且在通用基准测试上也保持了强大的性能。
训练数据(Training data)。几乎所有的语言模型都在很大程度上依赖于网络抓取的数据,例如C4(Raffel等人,2020)和The Pile(Gao等人,2021)。在使用这些数据之前,可以以各种方式对这些数据进行清理或细分,但数据重复问题和有毒语言问题仍然存在。我们的训练数据是不寻常的,因为它包括大量来自可靠来源的、精心组织和准备的数据。
模型评估(Evaluation)。LLM评估仍然是一个具有挑战性和不断发展的问题,新的基准试图从4个方面评估标准化模型。然而,对于特定于领域的任务,模型评估效果和实际使用效果之间仍然不匹配。评估建立在可用的数据集上,而不一定是基于模型在实践中的可能使用。我们提供了公共财政NLP基准的结果以及彭博社内部任务的评估,这些任务更符合我们训练模型后的预期应用,并直接评估我们的模型执行感兴趣任务的能力。
模型规模(Model Size)。早期的LLM在2000-4000亿条数据的语料库上进行了一次训练(Brown等人,2020),但Hoffmann等人(2022)认为模型训练不足,而专注于用更多数据训练更小的模型,这是Touvron等人(2023)最近采用的策略。我们选择了一个受Hoffmann等人(2022)启发的模型大小,并在我们7000多亿条数据的语料库中的5690亿条数据上训练了一个500亿个参数模型,以产生一个与更大模型竞争的模型。
标记化(Tokenizer)。在组装训练数据后,标记化的关键步骤将文本转换为适合语言模型的格式。这一步骤的重要性常常被忽视,许多较老的LLM使用相同的标记器和词汇,这意味着我们几乎没有证据支持其他标记器。我们采取了一种不同的方法,使用Unigram模型,而不是基于贪婪合并的子词标记器,因为它节省了概率,允许在推理时进行更智能的标记化。
模型构建挑战(Model Building Challenges)。GPT-3和随后的模型是大型团队的工作,随着每个后续模型的发布,社区的理解、经验和软件工具都在增加。在开发BloombergGPT时,我们受益于作为BLOOM工作的一部分开发的现成代码。部分研究也表明,中等规模的团队可以在特定领域的数据上生成有竞争力的模型。我们详细描述了我们培训BloombergGPT的经验,以支持未来的培训工作,并解决一些被关注的问题。
参考来源:
彭博BloombergGPT,彭博推出BloombergGPT——专为金融行业从头打造的500亿参数大语言模型,https://mp.weixin.qq.com/s/3rAfteuIgHaOfi7s65iBeg
转自:“社科学术汇”微信公众号
如有侵权,请联系本站删除!