模型材料

百分点认知智能实验室如何打造工业级的机器

发布时间:2024/1/12 16:57:29   
编者按机器翻译是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程,不同于目前的主流机器翻译,大多是基于神经机器翻译,实现单纯的机器翻译,打造兼具稳定、易用、高效并符合用户需求的工业级翻译产品,要解决很多难题,比如:文档内缩略语如何翻译?小语种低资源翻译问题如何解决?语料如何处理?在本篇文章中,百分点认知智能实验室基于多年的经验积累,分享了百分点科技在工业级机器翻译领域的技术研究和实践成果。随着经济全球化及互联网的飞速发展,机器翻译技术在促进政治、经济、文化交流等方面起到越来越重要的作用。但各大领域的翻译需求越来越多,翻译要求也越来越高。1.翻译文档越来越多据统计,美海军“温森斯”(CG—49)导弹巡洋舰维护手册达23.5吨,仅空军F-16战斗机技术资料约页;F-18战斗机的技术资料有多页,重达.84kg。每天,美军官方和著名的咨询公司每天新发布的装备科技信息相关材料就超过万页。而这些文档涉及的语种,包括最常用的英文、俄文、日文以及德文、法文、意大利文、韩文等,文档格式包括扫描版/电子版PDF、Word、Excel、PPT等,以及各种格式的图片(包括但不限于png,jpg,bmp,tiff等),甚至手写材料。2.材料内容越来越专各大领域的翻译任务包含大量的专有词汇、缩略语,覆盖航天、电子、船舶等各个业务,谷歌、百度等通用翻译引擎无法满足装备科技信息领域内的个性化需求。同时,业务方对翻译的效果质量要求越来越高,以更准确地了解最新的科技信息。3.速度要求越来越高海量资料的快速翻译需求,对翻译速度的要求越来越快,以更及时地获取信息,支持科学决策。翻译速度不仅和硬件、软件相关,更和模型算法直接相关。在实际中,需通过模型、算法和工程层面的优化,实现翻译速度能够满足技术参数要求。4.数据安全和信息安全要求不断提升不仅需要翻译系统能够在本地化部署、本地化运维,而且需要能在本地自动化加工语料,自动化模型训练、迭代、升级。从而满足整个系统的所有核心环节都能在本地完成,形成语料生产、语料加工、模型训练、模型部署、模型运维的闭环,而不需要相关敏感的业务数据离开本地环境;同时,针对用户自身的特定需求,可以更及时、自动地完成优化和升级,从而提高翻译的效果。百分点智能翻译系统正是为了应对以上“多、专、快、高”的紧迫需求而产生的。一、机器翻译发展及Transformer介绍1.机器翻译发展机器翻译技术在近几十年的发展中经历三个主要阶段,依次是基于规则的机器翻译、基于统计的机器翻译和神经机器翻译。基于规则的机器翻译需要人工书写翻译规则,代价过高,并且伴随翻译失败的可能;基于统计的机器翻译完全由数据驱动机器学习,但用短语拼接翻译的基本思想使长句翻译品质不佳,并且带有先验假设。目前主流的机器翻译方法为神经机器翻译,翻译的知识和参数由神经网络自动学习,避免了传统方法的人工干预模块带来的偏差,而且直接把整个句子转化为向量进行翻译,使得模型的特征表示能力更强。图1.机器翻译的发展神经机器翻译始于年提出的Encoder-Decoder框架,在发展的过程中,大部分模型由RNN结构组成,RNN的序列特性利于自然语言建模的同时也带来无法高效并行化的弊端。年Attention概念的提出使得机器翻译的品质大幅度提升,年谷歌在此基础上提出的Transformer模型成为当今神经机器翻译模型的基石。图2.神经机器翻译的发展2.Transformer结构Transformer的本质是一个带有自注意力机制的Encoder-Decoder结构,具体结构如图所示。从整体上看,左半部分为Encoder编码器,右半部分为Decoder解码器。编码器读取源语言句子并编码成固定长度的向量,然后解码器将向量解码并生成对应的目标语言翻译。图3.Transformer整体结构编码端和解码端分别由6层结构相同的EncoderLayer和结构相同的DecoderLayer堆叠而成。Encoder和Decoder之间的连接方式为:Inputs经过各层EncoderLayer作用后的输出序列作为Encoder的最终结果,分别输入各层DecoderLayer。图4.Transformer编码端解码端整体结构具体每个EncoderLayer由2个sub-layers组成,依次为编码器多头自注意力(图左Encoder中的self-attention)、前馈网络(FeedForward);每个DecoderLayer由3个sub-layers组成,依次为解码器多头自注意力(图右Decoder中的self-attention)、编码器解码器多头自注意力(Encoder-DecoderAttention)和前馈网络(FeedForward)。图5.单层EncoderLayer-DecoderLayer结构下面将详细介绍各个子结构。2.1多头自注意力机制Transformer的核心在于多头自注意力机制,分为点积注意力计算和多头注意力两大步骤。(1)点积注意力点积注意力函数有3个输入:Q(请求(query))、K(主键(key))、V(数值(value))。出现在编码器或解码器中不同的注意力计算时,Q,K,V的表示也有所不同:在编码器自注意力中,Q=K=V,均是编码端各个位置的表示,来自编码器前一层的输出,使得编码器中的每个位置都可以

转载请注明:http://www.aideyishus.com/lkgx/6097.html
------分隔线----------------------------