为什么预训练模型只要FT或者PT就效果很好

2021/11/19 23:40:38

本文主要是介绍为什么预训练模型只要FT或者PT就效果很好,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

  • 在我看来,说白了还是这种预训练模型已经见过了各种各样组够多的数据,我们去FT和PT其实就是在告诉模型我想利用如何利用你,我需要你给我做出什么样子的回答。尤其是PT这种模型,为什么few-shot和zero-shot就能起作用,其实就是模型本身已经见过组够多的数据了,我们只需要几个样本告诉他我们需要的是什么就够了。说到底如果想做出好的效果,大的预训练模型是一定要有的,因为目前来讲的机器学习和深度学习的模型都是需要样本训练,往往样本越多效果就越好,显然BERT、GPT3这种大模型见过的数据和我们自己组建模型所能见到的数据根本不在一个量级,自然效果不好。不过BERT这种模型见到的文章句子什么都有,各个领域的也都有,就造成了他存在一定的噪音,在某些精、专领域或许可以单独训练个大模型,这样针对某一领域的解决某类问题效果可能要好于bert(比如当今主要针对中文训练的一些模型就算是一种类似思路,但它只是在语言上,而不是在数据的内容和领域上做了区分),当然换个角度考虑,bert正是因为如此才有更好的通用性,能够用来解决各种各样的NLP任务


这篇关于为什么预训练模型只要FT或者PT就效果很好的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!


扫一扫关注最新编程教程