文本分类--NLP-AI(八)

avatar
作者
猴君
阅读量:1

文本分类任务

任务简介

任务介绍: 字符串分类,根据一句话的含妈量,区分为两类,一类为正向,一类为负向

举例:

  1. 我的妈呀?
  2. 你妈妈的妈妈叫什么?

根据含有两个3妈以上,即含妈量超标,判定为负向。即1正,2负

目标: 所以我们需要建模,即建立一个f(x),将我们的含妈量语句输入后,输出1为正,输出0即为负。

1.字符数值化

释义: 我们知道,模型是进行数学运算,输入的内容一定要是数字,不能是直接的字符,所以我们先要把每个字转为字符。

方式1

问: 直观方式,我 -> 1, 你 -> 2, 他 -> 3 …. 妈 -> 26… 是否合理?
答: 问就是不合理。如果把汉字字符简单的映射为一个个的数字,那么这些数字就会存在一些明细的规律,比如:1+2 =3;那是不是意味着,我+你就等于他;这样很容易让模型找规律时,会被影响到。

方式2

方案: 将每一个字符转化为同维度的向量
例如:

我 - > [0.32618175 0.20962898 0.43550067 0.07120884 0.58215387]
你 - > [0.21841921 0.97431001 0.43676452 0.77925024 0.7307891 ]

他 -> [0.72847746 0.72803551 0.43888069 0.09266955 0.65148562]

详细释义:

1.我们将每个字符随机生成一个向量,这样就避免了字符之间存在简单的加减乘除关系
2.我们将生成的向量也加入到模型的训练中,这就要求生成的维度必须相同,这样就可以使得语义相同的字:我、吾;其向量值会相近

输入:我的妈呀 --> 4x5的矩阵
这里我们输入模型的就不是简单的一个字符的数字,而是一串字符所代表的向量:

[[0.32618175 0.20962898 0.43550067 0.07120884 0.58215387]
[0.21841921 0.97431001 0.43676452 0.77925024 0.7307891 ]
[0.95035602 0.45280039 0.06675379 0.72238734 0.02466642]
[0.86751814 0.97157839 0.0127658 0.98910503 0.92606296]]

矩阵形状 = 文本长度 x 向量长度

2.池化(pooling)

问题点: 我们最后要求模型输出的是一个数字,这个数字接近1或者0来判断,语句的含妈量;但是我们看到了上面的输入,一段话输入,这个矩阵的行数我们不好控制,并且我们如何将维度降低呢?

解决方案: 所以我们首先将输入进行降维,也就是池化操作,通过池化操作将矩阵处理为向量

示例:
在这里插入图片描述
操作释义:

1.我们将输入的语句转为矩阵后,我们这些向量相加,得到求和后的向量
2.我们将求和的向量的每列的数,根据相加向量的个数求平均,得到一个1*向量长度的矩阵,也就是向量。
上述过程就完成了降维,可以理解为对一句话的含义的压缩。

3.全连接层

目的: 很简单,根据第二部分,我们将矩阵转为向量,那么我们需要将向量转为数字输出,即通过我们线性层(全连接层)来处理。

方案:

1.这里我们采用最简单的线性层公式:y = wx +b
2.这里我们w的矩阵形状和前面的向量有关系,即1
向量长度,b要能够和运算的结果相加,那么形状肯定也是1*向量长度。

举例:
注意:这里的x在实际中,potroch为将其转置,下图可以看到:
在这里插入图片描述

4.归一化函数(Sigmoid)

目的: 归一化函数也是激活函数,这里选择Sigmoid的目的,很简单,即将输出的值映射到[0,1]范围之间,我们想要的输出就是,靠近1就是正向,靠近0就是负向,它可以搬到

举例:
x = 3 归一化后值: σ(x) = 0.9526

函数图像:
在这里插入图片描述

5.总结

1.字符转成向量,向量构成输入的矩阵
2.输入矩阵进行池化,得到向量
3.经过全连接层y=w*x +b 得到实数
4.实数经过归一化sigmoid得到(0,1)之间的数
其中可以进行训练的为红色部分

从任务抽象新的技术点

Embedding层

释义: 上述分类任务中,将字符转化为向量的过程,我们叫Embedding。
举例: 这一层的作用很简单,就像你喊老外给你干活,用中文,他不懂;必须的先翻译成英文告诉他;embedding就相当于翻译给计算机听。

注意:

1.embedding层一把只有深度学习任务中才有,是深度学习的一个特征
2.Embedding矩阵是可训练的参数,一般会在模型构建时随机初始化,可以使用预训练的词向量来做初始化,此时也可以选择不训练Embedding层中的参数
比如:在当前火热的大语言模型中,embedding层与模型层就是配套使用的,因为embedding加入到模型的训练中,蕴含了一定的规律在里面。
3.多个语种和符号可以放到一个词表中,也就是一个embedding层可以涵盖多种字符。

池化层

释义: 上述的分类任务中,将一句话的形成的张量,转化为一个向量的过程,就是我们说的池化。池化的目的是,降维,缩小模型,并且提取特征。

下面我们用视图领域的图像池化来做示例讲解
在这里插入图片描述
过程:

上述左侧4x4的数字,是将一张图片Embedding为数字得到的
1.我们做一个2*2的正方形,将每一个正方形内最大的数字,提取为特征数字
2.全部提取完成后,即得到一个新的2x2的矩阵

好处:

  1. 可以降低后续的网络层输入维度
    2.减小了模型的大小,也就是参数量,因为输入的参数矩阵变小了,和其相乘的后续矩阵的维度也就变小了
    3.提高了模型的计算速度,因为参数变少了
    4.提高了特征的鲁棒性,防止过拟合,因为我们选取最大值,那么其他的参数只要在最大值一下,对我们整体的计算影响都会比较小;如果是平均值,同样如此

广告一刻

为您即时展示最新活动产品广告消息,让您随时掌握产品活动新动态!