当前位置: 模型材料 >> 模型材料介绍 >> 机器学习预训练模型在自然语言理解中的典型
近年来,基于神经网络的机器学习模型已经在许多领域实现了应用,不断增长的网络参数量也使得模型的应用效果越来越好。然而,人们很快发现,更大的参数量必须辅以在大量标注数据上进行训练以防止模型的过拟合,而大规模数据的标注在现实中需要耗费大量的人力物力,同时,以前模型的网络结构也并不适合进行大规模数据的并行化训练,制约了神经网络模型的应用。而最近几年快速发展的预训练模型恰好弥补了这些缺陷。与传统神经网络的大量有标注数据训练不同,这些模型使用大量无标注数据预训练+少量有标注数据微调的训练范式,也可以在下游应用上达到很好的效果。同时,对于网络结构的改进使得模型在面对大规模数据训练时更加高效。在大数据时代,十分容易从互联网获得大量的无标注数据,使用它们进行预训练可以极大地降低因为数据造成的应用成本。而减少对有标注数据的依赖,也让预训练模型在一些标注较为缺乏的新兴应用领域有了施展身手的天地。尽管预训练模型诞生的时间并不长,但它们已经在许多场景中得到了应用,并且获得了令人欣喜的效果。预训练模型在大量无标注数据容易获得的机器学习任务上能得到成功应用的根本原因,就是充分有效地利用了这些数据。
自然语言理解的预训练模型新一轮预训练技术的兴起是从自然语言文本的理解开始的。要理解自然语言,就必须对词与词之间短程和长程的关系进行有效建模。但是人类语言博大精深,这些关系通常十分复杂,模型需要极其大量的样本才能总结出其中的规律。年以前,受限于模型的基本结构和有标注数据的数量,人们使用的模型往往无法有效捕捉距离较远的词之间的信息,也无法高效地进行大量参数和样本的训练。直到年6月和10月,OpenAI和谷歌分别推出了GPT(GenerativePre-trainingTransformer,预训练生成模型)与BERT(BidirectionalEncoderRepresentationfromTransformers,基于Transformer的双向编码表征)模型,将基本结构从循环神经网络更换成了Transformer结构,构建了第一批预训练语言模型。这种结构可以更加有效地对长距离词语之间的关系进行建模,并且可以高效地在大参数、大量数据中训练,以便有效利用互联网上的大规模无标注数据。研究者们将GPT与BERT在维基百科、故事书等语料库中的大量无标注数据上进行了预训练,从而让它们对语言有一个更好的建模。随后,它们被应用到多种通用领域的语言理解任务上,例如文本情感的分类、阅读理解问题的回答、上下文关系的推断,在效果上一举超过了以前几乎所有的模型。在此之后,各种预训练语言模型百花齐放。随着模型结构的不断创新、模型规模的不断扩大,它们的应用场景不断拓宽,对无标注数据的利用能力不断增强,在语言理解任务上的性能也不断提高。例如,跨域预训练语言模型XLM使用多种语言进行预训练,获得了能够进行跨语言理解的模型;而T5和BART将模型结构扩展为编码器-解码器结构,并进一步增大了参数量,在多个语言理解任务上达到了新的高度。尽管以上预训练语言模型在一般条件下的自然语言理解任务中取得了巨大的成功,但对于一些特定的专业领域文本,如学术论文、法律文书、哲理故事等,预训练语言模型的效果会大打折扣,因为这些文本含有大量专业术语与句式,与用于预训练的通用文本形式截然不同。因此,为了获得更加“专家”的模型,许多研究者提出,应利用特定领域文本训练对应的语言模型,比较典型的模型包括针对生物论文文本训练的BioBERT、针对全领域学术论文文本训练的SciBERT等,并在一系列对应领域的自然语言下游任务中取得了与通用BERT模型相比更大的性能提升。为了利用更多的专业领域知识,清华大学知识工程实验室提出了一套高效的在预训练中融合异构实体知识的方法,并基于全球最大的开放学术图谱(OpenAcademicGraph,OAG)和海量论文全文数据构建了OAG-BERT,相比已有工作,该方法在一系列依赖实体知识的理解性任务上取得了巨大的性能提升。在自然语言理解之外,语言生成同样是自然语言处理中非常重要和基础的任务。例如文档摘要、机器翻译、故事续写、对话系统,在这些任务中,模型既需要充分理解人们给出的信息,也要对文字进行合理的规划和建构,以生成合理通顺的文本。虽然互联网上的大量文本数据天然为语言生成模型提供了足够的训练数据,但是在预训练模型出现之前,受限于模型的运行效率,这些数据无法得到充分利用。因此,OpenAI使用GPT-2模型在这些文本语料上进行生成式预训练,借助Transformer以及单向语言模型的结构优势生成了较好的通用文本;T5和BART模型则使用编码器-解码器结构将自然语言理解和生成任务统一到一起,在文档摘要、机器翻译任务上面达到了极好的效果;清华大学交互式智能实验室(CoAI)的研究者创新性地将常识知识加入到GPT-2模型的训练中,实现了使用预训练模型生成富有逻辑的故事。在众多语言生成任务中,构建对话系统是较有吸引力并且未来有着广阔应用场景的任务。因为长久以来,拥有一个足够智能的虚拟助手或聊天伴侣系统看上去只存在于科幻电影的情节中,而经典的判别机器智能的标准“图灵测试”,也要求对话系统能够实现高质量的人机对话。以前,由于模型容量的限制以及标注数据的缺乏,人们通常需要为对话机器人引入复杂的外部资源或者设计复杂的模型,引导对话机器人理解人类语言,生成通顺、有意义的对话回复。现在,随着预训练技术的引入,存在于社交网络上的大量无标注对话数据焕发了生机。人们发现,仅仅“粗暴地”将一个超大规模参数的模型在无标注数据上进行预训练,其作为一个对话系统的效果可以超过以前那些经过精心设计的复杂模型,甚至接近真实人类。这些对话系统的成功,说明了社交网络里大规模的对话文本中蕴含了大量的对话策略、人类常识等知识,而预训练技术的发展让人们有效利用这些文本成为了可能。然而,对话系统中的预训练模型同样受生成回答的多样性、知识型、可解释性问题的困扰。同时,由于预训练模型需要的数据量极大,再严格的过滤机制也无法去除所有的不当内容,导致在其上训练的模型也有生成这些内容的风险,带来道德、伦理上的问题。这些难题还有待于进一步探索和研究。