当前位置:首页 > 以太坊价格 > 序列数据和文本的深度学习

序列数据和文本的深度学习

贵州小哥3年前 (2022-07-18)以太坊价格145

· 用于构建深度学习模型的不同文本数据表示法:

· 理解递归神经网络及其不同实现imtoken,例如长短期记忆网络(LSTM)和门控循环单元(Gated Recurrent Unit,GRU),它们为大多数深度学习模型提供文本和序列化数据;

· 为序列化数据使用一维卷积imtoken。

可以使用RNN构建的一些应用程序如下所示imtoken。

· 文档分类器:识别推文或评论的情感,对新闻文章进行分类imtoken。

· 序列到序列的学习:例如语言翻译,将英语转换成法语等任务imtoken。

· 时间序列预测:根据前几天商店销售的详细信息,预测商店未来的销售情况imtoken。

1 使用文本数据

文本是常用的序列化数据类型之一imtoken。文本数据可以看作是一个字符序列或词的序列。对大多数问题,我们都将文本看作词序列。深度学习序列模型(如RNN及其变体)能够从文本数据中学习重要的模式。这些模式可以解决类似以下领域中的问题:

· 自然语言理解;

· 文献分类;

· 情感分类imtoken。

这些序列模型还可以作为各种系统的重要构建块,例如问答(Question and Answering,QA)系统imtoken。

虽然这些模型在构建这些应用时非常有用,但由于语言固有的复杂性,模型并不能真正理解人类的语言imtoken。这些序列模型能够成功地找到可执行不同任务的有用模式。将深度学习应用于文本是一个快速发展的领域,每月都会有许多新技术出现。我们将会介绍为大多数现代深度学习应用提供支持的基本组件。

与其他机器学习模型一样,深度学习模型并不能理解文本,因此需要将文本转换为数值的表示形式imtoken。将文本转换为数值表示形式的过程称为向量化过程,可以用不同的方式来完成,概括如下:

· 将文本转换为词并将每个词表示为向量;

· 将文本转换为字符并将每个字符表示为向量;

· 创建词的n-gram并将其表示为向量imtoken。

文本数据可以分解成上述的这些表示imtoken。每个较小的文本单元称为token,将文本分解成token的过程称为分词(tokenization)。在Python中有很多强大的库可以用来进行分词。一旦将文本数据转换为token序列,那么就需要将每个token映射到向量。one-hot(独热)编码和词向量是将token映射到向量最流行的两种方法。图6.1总结了将文本转换为向量表示的步骤。

展开全文

图6.1

下面介绍分词、n-gram表示法和向量化的更多细节imtoken。

6.1.1 分词

将给定的一个句子分为字符或词的过程称为分词imtoken。诸如spaCy等一些库,它们为分词提供了复杂的解决方案。让我们使用简单的Python函数(如split和list)将文本转换为token。

为了演示分词如何作用于字符和词,让我们看一段关于电影Thor:Ragnarok的小评论imtoken。我们将对这段文本进行分词处理:

The action scenes were top notch in this movie. Thor has never been this epic in the MCU. He does some pretty epic sh*t in this movie and he is definitely not under-powered anymore. Thor in unleashed in this, I love that.

1.将文本转换为字符

Python的list函数接受一个字符串并将其转换为单个字符的列表imtoken。这样做就将文本转换为了字符。下面是使用的代码和结果:

以下是结果:

结果展示了简单的Python函数如何将文本转换为tokenimtoken。

2.将文本转换为词

我们将使用Python字符串对象函数中的split函数将文本分解为词imtoken。split函数接受一个参数,并根据该参数将文本拆分为token。在我们的示例中将使用空格作为分隔符。以下代码段演示了如何使用Python的split函数将文本转换为词:

在前面的代码中,我们没有使用任何的分隔符,默认情况下,split函数使用空格来分隔imtoken。

3.n-gram表示法

我们已经看到文本是如何表示为字符和词的imtoken。有时一起查看两个、三个或更多的单词非常有用。n-gram是从给定文本中提取的一组词。在n-gram中,n表示可以一起使用的词的数量。看一下bigram(当n = 2时)的例子,我们使用Python的nltk包为thor_review生成一个bigram,以下代码块显示了bigram的结果以及用于生成它的代码:

ngrams函数接受一个词序列作为第一个参数,并将组中词的个数作为第二个参数imtoken。以下代码块显示了trigram表示的结果以及用于实现它的代码:

在上述代码中唯一改变的只有函数的第二个参数n的值imtoken。

许多有监督的机器学习模型,例如朴素贝叶斯(Naive Bayes),都是使用n-gram来改善它的特征空间imtoken。n-gram同样也可用于拼写校正和文本摘要的任务。

n-gram表示法的一个问题在于它失去了文本的顺序性imtoken。通常它是和浅层机器学习模型一起使用的。这种技术很少用于深度学习,因为RNN和Conv1D等架构会自动学习这些表示法。

6.1.2 向量化

将生成的token映射到数字向量有两种流行的方法,称为独热编码和词向量(word embedding,也称之为词嵌入)imtoken。让我们通过编写一个简单的Python程序来理解如何将token转换为这些向量表示。我们还将讨论每种方法的各种优缺点。

1.独热编码

在独热编码中,每个token都由长度为N的向量表示,其中N是词表的大小imtoken。词表是文档中唯一词的总数。让我们用一个简单的句子来观察每个token是如何表示为独热编码的向量的。下面是句子及其相关的token表示:

An apple a day keeps doctor away said the doctor. 

上面句子的独热编码可以用表格形式进行表示,如下所示imtoken。

An

100000000

apple

010000000

a

001000000

day

000100000

keeps

000010000

doctor

000001000

away

000000100

said

000000010

the

000000001

该表描述了token及其独热编码的表示imtoken。因为句子中有9个唯一的单词,所以这里的向量长度为9。许多机器学习库已经简化了创建独热编码变量的过程。我们将编写自己的代码来实现这个过程以便更易于理解,并且我们可以使用相同的实现来构建后续示例所需的其他功能。以下代码包含Dictionary类,这个类包含了创建唯一词词表的功能,以及为特定词返回其独热编码向量的函数。让我们来看代码,然后详解每个功能:

上述代码提供了3个重要功能imtoken。

· 初始化函数__init__创建一个word2idx字典,它将所有唯一词与索引一起存储imtoken。idx2word列表存储的是所有唯一词,而length变量则是文档中唯一词的总数。

· 在词是唯一的前提下,add_word函数接受一个单词,并将它添加到word2idx和idx2word中,同时增加词表的长度imtoken。

· onehot_encoded函数接受一个词并返回一个长度为N,除当前词的索引外其余位置全为0的向量imtoken。比如传如的单词的索引是2,那么向量在索引2处的值是1,其他索引处的值全为0。

在定义好了Dictionary类后,准备在thor_review数据上使用它imtoken。以下代码演示了如何构建word2idx以及如何调用onehot_encoded函数:

上述代码的输出如下:

单词were的独热编码如下所示:

独热表示的问题之一就是数据太稀疏了,并且随着词表中唯一词数量的增加,向量的大小迅速增加,这也是它的一种限制,因此独热很少在深度学习中使用imtoken。

2.词向量

词向量是在深度学习算法所解决的问题中,一种非常流行的用于表示文本数据的方式imtoken。词向量提供了一种用浮点数填充的词的密集表示。向量的维度根据词表的大小而变化。通常使用维度大小为50、100、256、300,有时为1000的词向量。这里的维度大小是在训练阶段需要使用的超参数。

如果试图用独热表示法来表示大小为20000的词表,那么将得到20000×20000个数字,并且其中大部分都为0imtoken。同样的词表可以用词向量表示为20000×维度大小,其中维度的大小可以是10、50、300等。

一种方法是为每个包含随机数字的token从密集向量开始创建词向量,然后训练诸如文档分类器或情感分类器的模型imtoken。表示token的浮点数以一种可以使语义上更接近的单词具有相似表示的方式进行调整。为了理解这一点,我们来看看图6.2,它画出了基于5部电影的二维点图的词向量。

图6.2

图6.2显示了如何调整密集向量,以使其在语义上相似的单词具有较小的距离imtoken。由于Superman、Thor和Batman等电影都是基于漫画的动作电影,所以这些电影的向量更为接近,而电影Titanic的向量离动作电影较远,离电影Notebook更近,因为它们都是浪漫型电影。

在数据太少时学习词向量可能是行不通的,在这种情况下,可以使用由其他机器学习算法训练好的词向量imtoken。由另一个任务生成的向量称为预训练词向量。下面将学习如何构建自己的词向量以及使用预训练词向量。

扫描二维码推送至手机访问。

版权声明:本文由贵州小哥发布,如需转载请注明出处。

本文链接:https://xiaogecar.com/coin/863.html

分享给朋友:

“序列数据和文本的深度学习” 的相关文章

数字货币的普及,有人欢喜有人忧。将来可能不再有“苍蝇或老虎”

数字货币的普及,有人欢喜有人忧。将来可能不再有“苍蝇或老虎”

随着数字人民币的普及,富豪们都提前准备移民了,在中国赚完钱偏偏要去国外花,外国的月亮比中国的圆吗?据统计中国现在资产超过10亿美元的富豪多达了3381人,比号称世界第一的老美还多362人,按道理来说,中国才是最大的市场数字货币。有十四亿人口哪个互联网企业不是靠着中国流量赚得盆满钵满。 可是有的人在中...

广州期货交易所的账户是怎么开通的?有什么条件吗?

广州期货交易所的账户是怎么开通的?有什么条件吗?

目前广州期货交易所还没有公布具体怎么开户,老账户开通广州期货交易所交易编码,应该是直接向期货公司申请开通交易编码即可,应该需要满足条件,新开立期货账户应该不能直接开通广州期货交易所编码,需要满足条件才可以开通交易所。 广州期货交易所个人投资者开户条件如下: 个人客户应当符合以下标准: 1、具有累计不...

刘涛再被曝离婚!因王珂炒币又亏损上亿,疑遭男方取关并清空动态

刘涛再被曝离婚!因王珂炒币又亏损上亿,疑遭男方取关并清空动态

近日,刘涛在社交平台上发布了一篇长文,回应最近的离婚传闻炒币。在文章中,她愤怒地声讨谣言,并表示自己长期受到类似谣言的伤害,损害了自己和家人的名誉。现在她已经正式向法院提起诉讼。她的这个动态引起了许多网友的共鸣,他们说:“早就应该这样了!” 事情的起因是近日有网友爆料炒币。2008年,王珂早因为炒币...

ITGC再生派正式登录非小号!

ITGC再生派正式登录非小号!

  日前,国内顶级数字货币行情大数据分析平台——非小号(生态发展史上的重大进展非小号。   ITGC生态建设一直致力于如何将区块链技术应用于环境保护,用以解决全球环保事业中的资金、信任、再利用等关键问题,尤其提出使闲置的电子产品流通起来,避免浪费和污染,并为环保组织提供资金非小号。非小号是国内专注...

共创产业元宇宙生态丨我们在「图灵计划@元宇宙」里等你!

共创产业元宇宙生态丨我们在「图灵计划@元宇宙」里等你!

这是长江创创的第 1645篇推送元宇宙, 文末点个【 在看】,让我知道你在看元宇宙。 元宇宙经济来临元宇宙,如何抢占先机? Web3.0的具体价值以及如何实现产业落地元宇宙? 元宇宙的商业前景、技术路径和治理规则都有哪些元宇宙? 在不确定时代,元宇宙给人们以希望,也会对人们的商业行为及生活带来重要...

金融元宇宙是什么?

金融元宇宙是什么?

元宇宙的概念大火更多的影响的是现在的一些科技企业,但其实元宇宙的影响是方方面面的,不只是存在于科技方面的,现在也衍生了一个新的概念,金融元宇宙元宇宙。 金融元宇宙顾名思义是元宇宙中的相关金融服务,银行、保险、证券等金融机构从最初的资本形成到支持元宇宙内的商业元宇宙。 其提供的金融服务可以在元宇宙的演...