为什么预训练模型只要FT或者PT就效果很好
2021/11/19 23:40:38
本文主要是介绍为什么预训练模型只要FT或者PT就效果很好,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
- 在我看来,说白了还是这种预训练模型已经见过了各种各样组够多的数据,我们去FT和PT其实就是在告诉模型我想利用如何利用你,我需要你给我做出什么样子的回答。尤其是PT这种模型,为什么few-shot和zero-shot就能起作用,其实就是模型本身已经见过组够多的数据了,我们只需要几个样本告诉他我们需要的是什么就够了。说到底如果想做出好的效果,大的预训练模型是一定要有的,因为目前来讲的机器学习和深度学习的模型都是需要样本训练,往往样本越多效果就越好,显然BERT、GPT3这种大模型见过的数据和我们自己组建模型所能见到的数据根本不在一个量级,自然效果不好。不过BERT这种模型见到的文章句子什么都有,各个领域的也都有,就造成了他存在一定的噪音,在某些精、专领域或许可以单独训练个大模型,这样针对某一领域的解决某类问题效果可能要好于bert(比如当今主要针对中文训练的一些模型就算是一种类似思路,但它只是在语言上,而不是在数据的内容和领域上做了区分),当然换个角度考虑,bert正是因为如此才有更好的通用性,能够用来解决各种各样的NLP任务
这篇关于为什么预训练模型只要FT或者PT就效果很好的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-06-26结对编程到底难不难?答案在这里
- 2024-06-19《2023版Java工程师》课程升级公告
- 2024-06-15matplotlib作图不显示3D图,怎么办?
- 2024-06-1503-Loki 日志监控
- 2024-06-1504-让LLM理解知识 -Prompt
- 2024-06-05做软件测试需要懂代码吗?
- 2024-06-0514-ShardingSphere的分布式主键实现
- 2024-06-03为什么以及如何要进行架构设计权衡?
- 2024-05-31全网首发第二弹!软考2024年5月《软件设计师》真题+解析+答案!(11-20题)
- 2024-05-31全网首发!软考2024年5月《软件设计师》真题+解析+答案!(21-30题)