当前位置：首页 > news >正文

网站开发技术基础教程磐石网站seo

news 2025/7/14 17:39:18

网站开发技术基础教程,磐石网站seo,05网数学书答案,wordpress 蜜蜂采集BERT 1.前言 self-supervised learning是一种无监督学习的特殊形式，算法从数据本身生成标签或者目标，然后利用这些生成的目标来进行学习。（也就是说数据集的标签是模型自动生成的，不是由人为提供的。）例如&#xff0…

BERT

1.前言

self-supervised learning是一种无监督学习的特殊形式，算法从数据本身生成标签或者目标，然后利用这些生成的目标来进行学习。（也就是说数据集的标签是模型自动生成的，不是由人为提供的。）例如，可以通过在图像中遮挡一部分内容来创建自监督任务，让模型预测被遮挡的内容。self-supervised learning 应用十分广泛，不仅用于文字方面，还可以用于语音和图像上。

在这里插入图片描述

self-supervised Learning 自监督学习的一些模型如下：

ELMO（Embeddings from Language Models）—> 最原始的

BERT（Bidirectional Encoder Representations from Transformers）

ERNIE（Enhanced Representation through Knowledge Integration）

Big Bird（Transformers for Longer Sequences）

GPT-3 —> 有 175 billion 个参数

2.BERT结构

BERT 是一个非常巨大的模型，有340 million 个参数。BERT的架构就是 Transformer 的 Encoder 部分（self-attention，residual，normalization）。

训练BERT有俩种方式：Masking Input 和 Next Sentence Prediction

1.Masking Input

在这里插入图片描述

BERT 的输入，某些部分被随机的盖住，盖住有两种方式（随机的选择一种盖住方式）：

MASK：将句中的一些符号换为MASK符号。（这个MASK是一个新的符号，字典中没有的，表示盖住）
Random：随机把某一个字换为另外一个字（随机从字典中挑选一个词盖住）。

输入通过BERT后就得到了对应的Sequence（但是只关注输入被盖住所输出的 vector），然后通过Linear transformer（Linear transformer的意思就是乘以一个矩阵），并进行Softmax，就可以得到一个有关所有符号的概率分布。在训练的时候，将真实值与预测出来的值进行对比，通过minimize cross entropy不断缩小损失，进而提升模型的ACU。

2.Next Sentence Prediction

在这里插入图片描述

从资料库里面随机选两个句子，在句子中间加入一个特殊符号 [SEP] 来代表分割。在最前面加入一个特别的符号 [CLS]。将这个整体送入BERT中，在得到的sequence中只关注 [CLS] 对应输出的vector。然后经过一个Linear transformer，来进行一个二元的预测（Yes or No），表示这两个句子是否是相连接的。

3.Downstream Tasks

Downstream tasks就是利用BERT真正做的任务。而不是上面的预测某个Masked token，或者判断两句话是否是有连接关系的任务。

BERT 分化为各种任务叫做Fine-tune，中文叫做微调。产生BERT的过程叫做 Pre-train。

3.1 Sentiment analysis

在这里插入图片描述

BERT初始化用的参数是pre-train的初始化参数（也就是用于填空任务的参数），Linear用的参数是Random初始化参数。

3.2 POS tagging（词性标注）

在这里插入图片描述

3.3 NLI（自然语言推理）

在这里插入图片描述

在这里插入图片描述

3.4 Extraction-based Question Answering

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

上面的那两个向量是随机初始化的，BERT初始化依旧是利用pre-train的参数。

4.为什么BERT有用？

BERT输出的向量代表了输入的意思。具有相似含义的符号，输出具有相似的嵌入向量。而且在输出的时候还考虑了上下文，因为内部有一个self-attention的结构。

在这里插入图片描述

5.Multi-lingual BERT

Multi-lingual BERT是一个多语言的BERT模型，再训练BERT的时候是通过许多不同的语言训练出来的。尽管是不同语言，但是每个词的意思是相近的，所以输出的嵌入向量距离就很近，因此效果较好。

在这里插入图片描述

6.GPT

BERT做的是填空题，GPT做的就是预测接下来出现的token是什么。

在这里插入图片描述

首先给一个开始标记，然后通过Linear Transform输出一个embedding向量h1，然后经过Softmax得到一个概率分布，概率最大的就是下一个token的值。（在训练的时候，GPT类似于transformer的decoder，不看右边的输入），下一次将和台输入进去，重复上面的过程。

😃😃😃

本文是根据台大李宏毅教授的BERT课程所做的笔记，有想学习的小伙伴，大家直接去看这个课程就可以了。点击跳转

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

http://www.khdw.cn/news/35139.html

相关文章：

网站建设zb533公司产品推广的渠道

网站开发建设费用包括那些网上营销培训课程

网站是由多个网页组成的吗公司要做seo

项目网络技术搜索引擎优化的概念

哪里有学做视频的网站3有没有免费的推广网站

做日本民宿的网站十大接单平台

做性视频网站有哪些内容百度教育小程序

wordpress彩色条朝阳区seo搜索引擎优化介绍

iis 做网站提高百度搜索排名工具

网站301跳转怎么做alexa

毕业设计代做网站机械网络销售怎么做

php整站最新版本下载黑帽seo排名

眉山网站建设兼职网站流量统计工具有哪些

做网站没有签合同可以退款吗软文网站推广法

香港服务器可以访问国外网站吗icp备案查询官网

做篮球管理网站的步骤淘宝关键词优化技巧教程

有哪些免费做网站网络营销推广合作

专做皮具的网站宁波seo外包推广平台

网站结构分析怎么做seo常规优化

深圳最乱最穷的地方武汉seo关键字推广

简单大方网站整站优化推广

法华寺网站建设今日全国最新疫情通报

网站免费建广州头条今日头条新闻

做的网站百度没收录揭阳百度快照优化排名

专门做机器人的网站博客网站注册

一人开公司做网站创业友情链接教程

建设班级网站首页有实力的网站排名优化软件

html设置网页背景图片代码seo优化排名百度教程

辽宁省网站制作山西网络营销seo

wordpress生成的html代码常州seo外包公司