Bert微调及BERT变体

1、BERT预训练作用

  1. 学习通用语言表示:通过在大规模无标签语料上进行预训练,BERT可以学习到丰富的、通用的语言表示。这些语言表示可以捕捉到词汇、句法和语义等不同级别的信息,从而能够更好地理解和表示自然语言的含义。
  2. 上下文理解:BERT通过双向编码方式对文本进行建模,可以有效地理解上下文中的依赖关系和语义信息。模型的每个位置可以同时考虑其前后文的上下文信息,而不仅仅是局限于当前位置。
  3. 词义消歧:BERT预训练模型对于词义消歧具有优势。通过预训练,模型可以学习到多义词的各种上下文语境,进而能够更好地理解和区分同一词在不同上下文中的含义。
  4. 迁移学习:预训练的BERT模型具有广泛的语言理解能力,这使得它可以作为下游任务的初始模型进行迁移学习。通过微调预训练模型,可以在特定任务上节省大量的数据和时间,同时获得更好的性能。这对于具有有限数据集的任务和资源受限环境中的应用特别有用。

2、什么是微调?

链接:(141条消息) fine-tuning(微调)的理解_好耶OvO的博客-CSDN博客

3、什么是冻结层

冻结层指该层不加入网络训练,该层参数不会更新。

怎么固定住某些网络

4、BERT变体

BERT的动态掩码机制能够学习到更好的上下文表示和更准确的单词表示,提高对单词的理解能力,增加模型的鲁棒性和泛化能力。NSP(Next Sentence Prediction)任务通过预测下一句子的概率,模型需要学习句子之间的语义关系和连贯性。这使得模型能够更好地理解句子中的上下文信息,从而提高对句子语义的理解和表示能力。这对于某些任务,如文本匹配、推理和问答等需要考虑句子之间关系的任务特别有用。模型可以利用学到的句子级别的语义信息在这些任务中更好地获取句子之间的语义匹配和推理能力。

(141条消息) 一起来学习BERT常见的几个变体_bert变体_愤怒的可乐的博客-CSDN博客