最近,追一科技发布了RoFormerV2模型,凭借追一独创的旋转位置编码技术(RoPE),全面超越了BERT、RoBERTa、Albert、Electra等当前的主流预训练模型。
在权威的中文NLP(自然语言处理)测试榜单CLUE上,RoFormerV2以仅3亿的参数量,超过了若干10亿+参数量的模型进入榜单前5名(截止2022年3月21日),同时它也是榜上前5名中参数量最少的模型,基本实现了同一尺度下的模型最优解。
RoFormerV2采用了追一独创的旋转位置编码(RoPE)技术,完全不同于主流的BERT、RoBERTa、Albert、Electra所使用的方法,这让RoFormerV2与这些模型在效果上拉开差距。
旋转位置编码(RoPE)技术是追一在2021年提出,利用向量之间的旋转角度来表示特征之间的相对关系,这一思路不同于此前所有的方法,知名的技术极客组织EleutherAI认为RoPE是“革命性”的,具有开创式意义。Google在今年提出的FLASH模型论文中则明确指出RoPE对模型的效果有明显的提升作用,并将其作为模型的默认方法。
同时,RoPE还被用在了许多最新的模型当中,例如EleutherAI新发布的60亿和200亿参数的GPT模型中就用了RoPE位置编码。
而Google最近大火的5400亿参数的PaLM模型中也采用了追一的RoPE技术,PaLM是一个支持多语种、多任务形式的超大型模型,它不仅可以理解人类语言,还可以理解机器代码。PaLM在上百个自然语言理解与自然语言生成任务上测试,并在大多数任务上取得了最优效果。这些最新方法都采用了RoPE的设计,进一步验证了它的优越性,使之有望成为预训练模型的标准方法。
随着“大模型”时代的来临,许多用户希望用优秀的模型来解决实际问题,但这些“庞然大物”所需要的硬件配置、高额投入,让人望而却步。同时, 利用“大模型”进行NLP技术实验研究,所需要的算力与时间成本越来越高。不管是NLP技术研究还是应用实践,追一科技都一直致力于开放、开源生态的参与、建设,助力用户和开发者创新研究。
RoFormerV2作为同体量效果最好的预训练模型,可以在有限的机器资源下进行训练与微调并获得超越体型更大的模型的效果,因此我们将其开源供大家进行研究使用,为推动中文NLP发展继续贡献一份力量。
【来源:松果财经】