本发明涉及关键词提取技术领域,特别是涉及一种基于图模型的关键词提取方法及装置。
背景技术:
关键词作为一段文本中具有代表性的文字,已经被广泛应用在信息检索、文本分类等方面。其中,基于图模型的关键词提取方法已经被广泛应用于搜索排序、引文分析、社交网络以及自然语言处理(如关键词提取、文章主题句提取等)等方面。图模型是一类用图来表示概率分布的一类技术的总称,一篇文本可以被映射为一个以词语为节点、词语之间的关联关系为边的网络图。基于图模型的关键词提取方法的两个基本假设为:1、数量假设:某一节点与其他节点链接数越多,那么该节点越重要;2、质量假设:与节点a相连的节点质量不同,质量高的节点会通过链接向其他节点传递更多的权重,所以越是质量高的节点链接到节点a,节点a越重要。因此,基于图模型的关键词提取方法的关键是链接权重的计算,而节点之间的链接权重为词与词之间的相似度。
现有的基于图模型的关键词提取方法,通过把文本分割成若干组成单元(单词、句子)并建立图模型,利用投票机制对文本中的组成单元进行排序,然后选取排序靠前的组成单元作为关键词。具体的,先把给定的文本按照完整句子进行分割;然后对于每个句子进行分词和词性标注处理,得到词及词对应的词性标注;根据词及词性标注,过滤掉这些词中介词、助词、连词、感叹词等停用词,保留名词、动词、形容词等指定词性的词,并将指定词性的词作为候选关键词;再根据候选关键词,构建候选关键词图模型,即将候选关键词为候选关键词图模型的节点,候选关键词之间的关联关系作为关键词图模型的边,其中,候选关键词之间的关联关系通过计算候选关键词之间的相似度得到。在基于图模型的关键词提取方法中,采用加窗的方式构建词与词之间的相似度,让每个窗口内的词给它相邻的窗口投票,投票的权重取决于自己的票数,由于每个窗口与它相邻的窗口有共现的词,因此也可以说词与词之间的相似度是通过词与词共现得到的;最后在这个图上候选关键词的票数经过迭代投票,可以得到候选关键词的票数排序,并选取票数靠前的候选关键词作为关键词。
但是,现有的基于图模型的关键词提取方法,要通过词与词之间共现才能得到词与词之间的相似度,这样,对重复出现的词就会有过重的加权,例如候选关键词中一些不能成为关键词,但多次重复出现的词,如内容、计算、处理、解决、最高等,导致关键词提取准确率不高。另外,提取关键词的结果对窗口的大小比较敏感,由于窗口的大小需要人为来设定例如,一个句子依次由下面的词组成:w1、w2、w3、w4、w5…wn,设定窗口的大小为k,则w1、w2、w3…wk,w2、w3、w4…wk+1,w3、w4、w5…wk+2等都是一个窗口,在一个窗口中的任两个词对应的节点之间存在一个无向无权的边,那么,不同大小窗口的选取可能导致截然不同的结果,也导致关键词提取准确率不高。
技术实现要素:
本发明实施例的目的在于提供一种基于图模型的关键词提取方法及装置,提高关键词提取的准确率。具体技术方案如下:
本发明实施例公开了一种基于图模型的关键词提取方法,所述方法包括:
获取待处理文本,并对所述待处理文本进行分词,得到所述待处理文本对应的候选关键词;
在词向量模型中查找所述候选关键词对应的词向量,所述词向量模型包括所述候选关键词的词向量;
根据所述词向量构建所述候选关键词的词相似度矩阵;
根据所述候选关键词的词相似度矩阵对所述候选关键词进行排序,提取所述待处理文本的关键词。
可选的,所述根据所述词向量构建所述候选关键词的词相似度矩阵,包括:
根据公式:
计算所述候选关键词之间对应的词向量夹角的余弦值,其中,θ表示所述候选关键词之间的向量的夹角,x1k表示其中一个候选关键词n维空间中对应的向量的特征值,x2k表示其中另一个候选关键词n维空间中对应的向量的特征值,n表示向量空间的维度;
根据所述词向量夹角的余弦值,构建所述候选关键词相似度矩阵。
可选的,所述根据所述候选关键词的词相似度矩阵对所述候选关键词进行排序,包括:
根据pagerank算法计算所述候选关键词的词相似度矩阵,得到所述候选关键词的对应的pagerank值;
根据所述pagerank值对所述候选关键词进行排序,得到所述候选关键词的重要程度;
根据所述重要程度,提取所述待处理文本的关键词。
可选的,所述根据pagerank算法计算所述候选关键词的词相似度矩阵,包括:
根据所述词相似度矩阵的阶数,确定所述pagerank算法的初始值;
根据所述初始值和所述词相似度矩阵,计算所述候选关键词的初始特征向量值;
根据公式:
pt=mtpt-1
计算所述候选关键词的特征向量值,其中,在t=1时,则p1表示所述初始特征向量值,p0表示所述初始权重,pt表示所述词相似度矩阵在第t步的特征向量值,pt-1表示所述词相似度矩阵在第t-1步的特征向量值,m表示所述候选关键词的词相似度矩阵,mt表示所述词相似度矩阵的转置,t表示计算的步数,t的取值大于或等于1;
当所述第t步的特征向量值与所述第t-1步的特征向量值的范数小于所述pagerank算法的误差容忍度时,所述第t步的特征向量值为所述候选关键词的对应的pagerank值。
可选的,所述获取待处理文本,并对所述待处理文本进行分词,得到所述待处理文本对应的候选关键词,包括:
获取待处理文本,并对所述待处理文本进行分词,得到停用词和指定词性的词,所述停用词至少包括介词、助词、连词、感叹词,所述指定词性的词至少包括名词、动词、形容词;
过滤掉所述停用词,得到所述指定词性的词,所述指定词性的词为所述待处理文本对应的候选关键词。
可选的,所述词向量是通过word2vec训练得到的。
本发明实施例还公开了一种基于图模型的关键词提取装置,所述装置包括:
获取模块,用于获取待处理文本,并对所述待处理文本进行分词,得到所述待处理文本对应的候选关键词;
查找模块,用于在词向量模型中查找所述候选关键词对应的词向量,所述词向量模型包括所述候选关键词的词向量;
处理模块,用于根据所述词向量构建所述候选关键词的词相似度矩阵;
提取模块,用于根据所述候选关键词的词相似度矩阵对所述候选关键词进行排序,提取所述待处理文本的关键词。
可选的,所述处理模块,包括:
第一计算单元,用于根据公式:
计算所述候选关键词之间对应的词向量夹角的余弦值,其中,θ表示所述候选关键词之间的向量的夹角,x1k表示其中一个候选关键词n维空间中对应的向量的特征值,x2k表示其中另一个候选关键词n维空间中对应的向量的特征值,n表示向量空间的维度;
构建单元,用于根据所述词向量夹角的余弦值,构建所述候选关键词相似度矩阵。
可选的,所述提取模块,包括:
第二计算单元,用于根据pagerank算法计算所述候选关键词的词相似度矩阵,得到所述候选关键词的对应的pagerank值;
排序单元,用于根据所述pagerank值对所述候选关键词进行排序,得到所述候选关键词的重要程度;
提取单元,用于根据所述重要程度,提取所述待处理文本的关键词。
可选的,所述第二计算单元,包括:
第一确定子单元,用于根据所述词相似度矩阵的阶数,确定所述pagerank算法的初始值;
第一计算子单元,用于根据所述初始值和所述词相似度矩阵,计算所述候选关键词的初始特征向量值;
第二计算子单元,用于根据公式:
pt=mtpt-1
计算所述候选关键词的特征向量值,其中,在t=1时,则p1表示所述初始特征向量值,p0表示所述初始权重,pt表示所述词相似度矩阵在第t步的特征向量值,pt-1表示所述词相似度矩阵在第t-1步的特征向量值,m表示所述候选关键词的词相似度矩阵,mt表示所述词相似度矩阵的转置,t表示计算的步数,t的取值大于或等于1;
第二确定子单元,用于当所述第t步的特征向量值与所述第t-1步的特征向量值的范数小于所述pagerank算法的误差容忍度时,所述第t步的特征向量值为所述候选关键词的对应的pagerank值。
可选的,所述获取模块,包括:
获取单元,用于获取待处理文本,并对所述待处理文本进行分词,得到停用词和指定词性的词,所述停用词至少包括介词、助词、连词、感叹词,所述指定词性的词至少包括名词、动词、形容词;
处理单元,用于过滤掉所述停用词,得到所述指定词性的词,所述指定词性的词为所述待处理文本对应的候选关键词。
可选的,所述词向量是通过word2vec训练得到的。
本发明实施例提供的一种基于图模型的关键词提取方法及装置,通过词向量计算文本中词与词之间的相似度,并构建相似度矩阵,使得提取到的关键词在一定程度上反映了其在当前文本中的语义重要性。在构建相似度矩阵时,词与词之间的相似度不是依靠词与词之间共现,而是基于词向量计算得到的,这样,避免了关键词提取过程中采用词与词之间共现导致的重复出现的词加权过大的问题,也无需人为设定窗口的大小,通过语义相似度选择出更符合文档主题的关键词,提高了关键词提取的准确率。当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为现有的基于图模型的关键词提取方法中的图模型的结构示意图;
图2为本发明实施例提供的一种基于图模型的关键词提取方法的流程图;
图3为本发明实施例提供的一种基于图模型的关键词提取装置的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
基于图模型的关键词提取方法是提取关键词的一种有效的方法,其中,图模型是一类用图来表示概率分布的一类技术的总称,一篇文本可以被映射为一个以词语为节点、词语之间的关联关系为边的网络图。如图1所示,图1为现有的基于图模型的关键词提取方法中的图模型的结构示意图,图1中的w1、w2、w3…w10、w11分别为候选关键词,也是图模型的节点,节点与节点之间的线构成的边表示各候选关键词的关联关系,线越粗表示边的权重越大,即这个边所连接的这两个关键词的关联关系越大,本发明就是在这种图模型的基础上来提取关键词。
参见图2,图2为本发明实施例提供的一种基于图模型的关键词提取方法的流程图,包括如下步骤:
s201,获取待处理文本,并对待处理文本进行分词,得到待处理文本对应的候选关键词。
具体的,获取待处理文本,先对获取的待处理文本进行分词,分词的目的是将待处理文本按一定的根据一定的规则进行分词处理,从而提取候选关键词。中文因为自身常以词语、短语、俗语等表现形式,因此中文分词具有很大的不确定性。目前主要的分词方法:基于字符串匹配的分词方法,即机械分词,算法成熟使用广泛,其核心是通过邮件文本与词典词汇的匹配,实现分词,关键在于使用词典的完备程度;基于理解的分词方法,即人工智能方法,分词精度高,算法复杂;基于统计的分词方法,优势在于识别未登录词和专有名词,但训练文本量大。这些分词方法都具有较高的分词准确率和快速的分词系统。这里,通过现有的分词方法对待处理文本进行分词,会自动过滤掉这些词中介词、助词、连词、感叹词等停用词,保留名词、动词、形容词等指定词性的词,并将指定词性的词作为候选关键词。这样,就得到了待处理文本对应的候选关键词了。
s202,在词向量模型中查找候选关键词对应的词向量,词向量模型包括候选关键词的词向量。
通常,神经网络将词表中的词语作为输入,输出一个低维度的向量表示这个词语,然后用反向传播的方法不断优化参数。输出的低维向量是神经网络第一层的参数。生成词向量的神经网络模型分为两种,一种是通过word2vec或glove(globalvectorsforwordrepresentation)等训练得到的词向量模型,这类模型的目的就是生成词向量,另一种是将词向量作为副产品产生,两者的区别在于计算量不同。两种模型的另一个区别在于训练的目标不同:word2vec和glove的目的是训练可以表示语义关系的词向量,它们能被用于后续的任务中;如果后续任务不需要用到语义关系,则按照此方式生成的词向量并没有什么用。另一种模型则根据特定任务需要训练词向量。当然,若特定的任务就是对语言建模,那么两种模型生成的词向量非常相似了。
具体的,将自然语言理解的问题转化为机器学习的问题,那么就先要找一种方法把这些符号数学化。而词向量具有良好的语义特性,是表示词语特征的常用方式。词向量是多维实数向量,向量中包含了自然语言中的语义和语法关系。词向量的每一维的值代表一个具有一定的语义和语法上解释的特征。故可以将词向量的每一维称为一个词语特征。词向量用distributedrepresentation(分布式表示)来表示,一种低维实数向量。词向量计算是通过训练的方法,将语言词表中的词映射成一个长度固定的向量。distributedrepresentation是一个稠密、低维的实数限量,它的每一维表示词语的一个潜在特征,该特征捕获了有用的句法和语义特征,其特点是将词语的不同句法和语义特征分布到它的每一个维度上去表示。这里,采用低维空间表示法,不但解决了维数灾难问题,并且挖掘了词之间的关联属性,通过计算词向量之间的距离,便能得到两个词之间的相似度,从而提高了向量语义上的准确度。
词向量模型中包括候选关键词所对应的词向量,在词向量模型中找出候选关键词所对应的词向量,主要是为了计算候选关键词之间的距离的大小,从而得到候选关键词之间的相似度。本发明在现有的基于图模型的关键词提取方法中引入词向量,通过词向量计算候选关键词之间的相似度,从而避免了现有方法中采用加窗的方式构建词与词之间的相似度,且需要人为设定窗口大小,导致候选关键词提取准确率不高的问题。
s203,根据词向量构建候选关键词的词相似度矩阵。
具体的,词向量之间的余弦距离的大小代表了词之间关系的远近,即通过计算词向量之间的余弦距离,得到候选关键词之间的相似度。这里,得到的候选关键词之间的相似度是用数值表示的,将这些数值构成词相似度矩阵中的元素。其中,矩阵为n阶行列式。如表1所示,表中的a、b、c、d、e、f、g、h代表各候选关键词所对应的词向量,表中的数值为词向量之间的余弦距离,也就是候选关键词之间的相似度的大小。
表1
则根据这些候选关键词之间的相似度的大小,构建候选关键词的相似度矩阵,用m表示,即
s204,根据候选关键词的词相似度矩阵对候选关键词进行排序,提取待处理文本的关键词。
具体的,通过基于图模型的关键词提取方法中的关键词排序算法,计算候选关键词的词相似度矩阵,得到候选关键词对应的排序算法值。然后根据排序算法值对候选关键词进行排序。最后,选取排序靠前的候选关键词作为待处理文本的关键词。这里,根据实际需要选取排序靠前的候选关键词的个数。
由此可见,本发明实施例提供的一种基于图模型的关键词提取方法,通过词向量计算文本中词与词之间的相似度,并构建相似度矩阵,使得提取到的关键词在一定程度上反映了其在当前文本中的语义重要性。在构建相似度矩阵时,词与词之间的相似度不是依靠词与词之间共现,而是基于词向量计算得到的,这样,避免了关键词提取过程中采用词与词之间共现导致的重复出现的词加权过大的问题,也无需人为设定窗口的大小,通过语义相似度选择出更符合文档主题的关键词,提高了关键词提取的准确率。
在本发明一个可选的实施例中,根据词向量构建候选关键词的词相似度矩阵,包括:
根据公式:
计算候选关键词之间对应的词向量夹角的余弦值,其中,θ表示候选关键词之间的向量的夹角,x1k表示其中一个候选关键词n维空间中对应的向量的特征值,x2k表示其中另一个候选关键词n维空间中对应的向量的特征值,n表示向量空间的维度。
根据词向量夹角的余弦值,构建候选关键词相似度矩阵。
具体的,通过计算词向量之间的距离,来得到词与词之间的相似度。而词向量之间的距离是通过词向量之间的夹角的余弦值来计算的,因此,本发明通过计算候选关键词之间对应的词向量夹角的余弦值,然后根据词向量夹角的余弦值,构建候选关键词相似度矩阵。
候选关键词之间对应的词向量夹角的余弦值是通过n维空间向量夹角余弦值计算公式得到的,在n维空间中,例如有两个向量分别是向量a(x11,x12…x1n)与向量b(x21,x22…x2n),那么向量a和向量b的夹角的余弦值的计算公式为:
其中,θ表示向量a和向量b的夹角,x1k表示向量a对应的特征值,x2k表示向量b对应的特征值,n表示向量空间的维度
这里,在二维空间中,例如有两个向量分别是向量a(x11,x12)与向量b(x21,x22),那么向量a和向量b的夹角的余弦值的计算公式为:
其中,θ表示向量a和向量b的夹角,x11和x12表示向量a对应的特征值,x21和x22表示向量b对应的特征值。
在三维空间中,例如有两个向量分别是向量a(x11,x12,x13)、向量b(x21,x22,x23),那么向量a和向量b的夹角的余弦值的计算公式为:
其中,θ表示向量a和向量b的夹角,x11、x12和x13表示向量a对应的特征值,x21、x22和x23表示向量b对应的特征值。
对于更高维空间中的两个向量之间的夹角的余弦值,在此不一一列举,凡是符合n维空间向量夹角余弦值计算公式的,都属于本发明保护的范围。
在本发明实施例中,根据候选关键词的词相似度矩阵对候选关键词进行排序,包括:
根据pagerank算法计算候选关键词的词相似度矩阵,得到候选关键词的对应的pagerank值;
具体的,pagerank(网页排名)算法是google排名运算法则(排名公式)的一部分,是google用于用来标识网页的等级/重要性的一种方法,是google用来衡量一个网站的好坏的唯一标准。本发明借助pagerank算法的原理对关键词进行排序。通过pagerank算法计算候选关键词的词相似度矩阵,通过这种迭代回归的算法,最终得到候选关键词的对应的pagerank值。
根据pagerank值对候选关键词进行排序,得到候选关键词的重要程度;
这里,候选关键词的pagerank值最大,表明用户搜索关键词时,该关键词为用户最感兴趣的关键词,其他关键词依次递减,同时,候选关键词的pagerank值最大,也说明候选关键词越重要。例如,得到的候选关键词的排序依次是b:1.47、h:1.41、e:1.39、a:1.30、f:1.14、g:1.12、d:1.09、c:1.08,说明候选关键词b的最重要,其它候选关键词的重要程度根据排序依次递减。
根据重要程度,提取待处理文本的关键词。
这里,根据实际所需,提取排序靠前(topn)的候选关键词作为待处理文本的关键词。
在本发明实施例中,根据pagerank算法计算候选关键词的词相似度矩阵,包括:
根据词相似度矩阵的阶数确定pagerank算法的初始值;
具体的,根据矩阵的大小n确定pagerank算法的初始值,即p0表示pagerank算法的初始值。这里,由于pagerank算法假设每个网页的概率都是相等的,因此,根据pagerank算法假设每个候选关键词出现的概率都是相等的,即并将作为pagerank算法的初始值。根据初始值和词相似度矩阵计算候选关键词的初始特征向量值;
具体的,根据公式
p1=mtp0
计算候选关键词的初始特征向量值,其中,p1表示pagerank算法的初始特征向量值,p0表示pagerank算法的初始值,m表示候选关键词的词相似度矩阵,mt表示词相似度矩阵的转置。
根据公式:
pt=mtpt-1
计算候选关键词的特征向量值,其中,在t=1时,则p1表示所述初始特征向量值,p0表示所述初始权重,pt表示词相似度矩阵在第t步的特征向量值,pt-1表示词相似度矩阵在第t-1步的特征向量值,m表示候选关键词的词相似度矩阵,mt表示词相似度矩阵的转置,t表示计算的步数,t的取值大于或等于1;
具体的,pagerank算法是一种迭代回归的算法,通过将候选关键词的词相似度矩阵反复迭代计算,得到最终的候选关键词的对应的pagerank值,这样,使得提取到的关键的准确率更加精确。
当第t步的特征向量值与第t-1步的特征向量值的范数小于pagerank算法的误差容忍度时,第t步的特征向量值为候选关键词的对应的pagerank值。
这里,由于向量的计算过程存在误差,所以pagerank算法会预设一个误差宽容度∈,当第t步的特征向量值与第t-1步的特征向量值的范数小于pagerank算法的误差容忍度时,此时得到的候选关键词所对应的pagerank值是更加准确的,有利于提高关键词的提取准确率。具体的算法如下:
具体的过程:
首先,pagerank算法通过输入一个随机的、不可约的、非周期的矩阵m,矩阵的大小n,误差宽容度∈。这里,矩阵m是通过词向量构建的,即本发明中的词相似度矩阵,矩阵的大小n即矩阵的阶数。另外,由于向量的计算过程存在误差,所以pagerank算法会预设一个误差宽容度∈。
然后,pagerank算法通过以下步骤来计算候选关键词的特征向量值:
第1步,根据矩阵的大小n确定pagerank算法的初始值,即p0表示pagerank算法的初始值。这里,由于pagerank算法假设每个网页的概率都是相等的,因此,根据pagerank算法假设每个候选关键词出现的概率都是相等的,即并将作为pagerank算法的初始值。
第2步,t=0,这里,t表示pagerank算法计算的步数,那么t=0表示还没有对相似度矩阵m进行计算。
第3步和第4步,根据t=t+1,开始重复不断计算。
第5步,根据公式
pt=mtpt-1
计算词相似度矩阵特征向量值,其中,pt表示词相似度矩阵在第t步的特征向量值,pt-1表示词相似度矩阵在第t-1步的特征向量值,m表示候选关键词的词相似度矩阵,t表示计算的步数。这里,由于pagerank算法是一个迭代回归的算法,所以需要不断对词相似度矩阵m进行迭代计算,才能更加准确的得到词相似度矩阵的特征向量值。
第6步,δ=||pt-pt-1||
第7步,untilδ<∈,这里直到词相似度矩阵在第t步的特征向量值,与词相似度矩阵在第t-1步的特征向量值的范数小于误差宽容度∈,才停止计算。
第8步,returnpt,得到最终的词相似度矩阵特征向量值。
最后,输出特征向量p,即最终的词相似度矩阵特征向量值pt。
在本发明实施例中,获取待处理文本,并对待处理文本进行分词,得到待处理文本对应的候选关键词,包括:
获取待处理文本,并对待处理文本进行分词,得到停用词和指定词性的词,停用词至少包括介词、助词、连词、感叹词,指定词性的词至少包括名词、动词、形容词。
具体的,获取待处理文本进行分词后的词可以分为两类:停用词和指定词性的词。在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为停用词。过滤掉停用词,得到指定词性的词,指定词性的词为待处理文本对应的候选关键词。其中,停用词是指在文本中大量出现,但对表征文本特征几乎无用的词,例如文本中的“我、的、然后、是、那么、另外”等这些虚词对文本特征没有任何作用。要过滤停用词,首先要构造停用词表,主要是上下文提到的副词、连词、介词、语气助词等。所以在中文分词后,一定要过滤掉停用词,这样不仅能有效提高关键词的密度,同时也会大大降低文本的维度,避免了“维度灾难”的出现。
在本发明实施例中,词向量是通过word2vec训练,将词表达成向量的形式。
具体的,word2vec是google在2013年年中开源的一款将词表征为实数值向量的高效工具,其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为k维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。word2vec使用的是distributedrepresentation的词向量表示方式。distributedrepresentation最早由hinton在1986年提出。其基本思想是通过训练将每个词映射成k维实数向量(k一般为模型中的超参数),通过词之间的距离(比如cosine相似度、欧氏距离等)来判断它们之间的语义相似度。其采用一个三层的神经网络,输入层-隐层-输出层。有个核心的技术是根据词频用huffman编码,使得所有词频相似的词隐藏层激活的内容基本一致,出现频率越高的词语,他们激活的隐藏层数目越少,这样有效的降低了计算的复杂度。word2vec算法基于深度学习,通过模型训练,把对文本内容的处理简化为k维向量空间中的向量运算。通过向量空间上的相似度可以用来表示文本语义上的相似度,能够将词向量转化为向量,可以寻找同义词。
通过本发明提出的一种基于图模型的关键词提取方法,与现有的关键词的提取方法相比,取得了较好的效果。表2示出了本发明所提出的关键词的提取方法得到的关键词的排序,和现有的关键词的提取方法所得到的关键词的排序的对比。
表2
由表2可以得出,第1个和第2个文本属于短文本,由于该文本中的每个候选关键词只出现一次,因此每个候选关键词成为关键词被提取的概率是相同的,可见,通过现有的关键词的提取方法,文本1和文本2无法准确的提取关键词,而通过本发明提供的关键词的提取方法可以得到各候选关键词的排序,从而提取关键词。第3个文本属于长文本,文本中出现的各候选关键词也重复出现在文本中,从结果可以看出,通过现有的关键词的提取方法所得到的关键词的排序中的“人气,记者,媒体,留给,颇受”作为关键词并没有实际的意义,只是这些词由于在文中重复出现的次数较多,而被作为候选关键词;通过本发明所提出的关键词的提取方法得到的关键词的排序,使得关键词的提取准确率更高。
参见图3,图3为本发明实施例提供的一种基于图模型的关键词提取装置的结构图,该装置包括如下模块:
获取模块301,用于获取待处理文本,并对待处理文本进行分词,得到待处理文本对应的候选关键词;
查找模块302,用于在词向量模型中查找候选关键词对应的词向量,词向量模型包括候选关键词的词向量;
处理模块303,用于根据词向量构建候选关键词的词相似度矩阵;
提取模块304,用于根据候选关键词的词相似度矩阵对候选关键词进行排序,提取待处理文本的关键词。
进一步的,处理模块303,包括:
第一计算单元,用于根据公式:
计算候选关键词之间对应的词向量夹角的余弦值,其中,θ表示候选关键词之间的向量的夹角,x1k表示其中一个候选关键词n维空间中对应的向量的特征值,x2k表示其中另一个候选关键词n维空间中对应的向量的特征值,n表示向量空间的维度;
构建单元,用于根据词向量夹角的余弦值,构建候选关键词相似度矩阵。
进一步的,提取模块304,包括:
第二计算单元,用于根据pagerank算法计算候选关键词的词相似度矩阵,得到候选关键词的对应的pagerank值;
排序单元,用于根据pagerank值对候选关键词进行排序,得到候选关键词的重要程度;
提取单元,用于根据重要程度,提取待处理文本的关键词。
进一步的,第二计算单元,包括:
第一确定子单元,用于根据词相似度矩阵的阶数,确定pagerank算法的初始值;
第一计算子单元,用于根据初始值和词相似度矩阵,计算候选关键词的初始特征向量值;
第二计算子单元,用于根据公式:
pt=mtpt-1
计算候选关键词的特征向量值,其中,在t=1时,则p1表示所述初始特征向量值,p0表示所述初始权重,pt表示词相似度矩阵在第t步的特征向量值,pt-1表示词相似度矩阵在第t-1步的特征向量值,m表示候选关键词的词相似度矩阵,mt表示词相似度矩阵的转置,t表示计算的步数,t的取值大于或等于1;
第二确定子单元,用于当第t步的特征向量值与第t-1步的特征向量值的范数小于pagerank算法的误差容忍度时,第t步的特征向量值为候选关键词的对应的pagerank值。
进一步的,获取模块301,包括:
获取单元,用于获取待处理文本,并对待处理文本进行分词,得到停用词和指定词性的词,停用词至少包括介词、助词、连词、感叹词,指定词性的词至少包括名词、动词、形容词;
处理单元,用于过滤掉停用词,得到指定词性的词,指定词性的词为待处理文本对应的候选关键词。
进一步的,词向量是通过word2vec训练得到的。
由此可见,本发明实施例提供的一种基于图模型的关键词提取装置,通过处理模块的词向量计算文本中词与词之间的相似度,并构建相似度矩阵,使得提取到的关键词在一定程度上反映了其在当前文本中的语义重要性。在构建相似度矩阵时,词与词之间的相似度不是依靠词与词之间共现,而是基于词向量计算得到的,这样,避免了关键词提取过程中采用词与词之间共现导致的重复出现的词加权过大的问题,也无需人为设定窗口的大小,通过语义相似度选择出更符合文档主题的关键词,提高了关键词提取的准确率。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
新乡资讯网站搭建优化安徽网站优化选哪家徐汇区管理网站服务优化价格四川正规的网站关键词优化邢台百度seo网站优化中国网站优化方案公司哪家强网站优化网站搜索排名河源专业网站优化有哪些优化网站整站搜索百度推广排名网站关键词优化seo长沙网站关键词优化揭阳网站优化工具佛山怎么做网站优化网站优化好用吗汽车网站seo优化网站关键词排名查询优化惠州行业网站优化公司放心的服装行业网站优化团队网站如何自行优化韶关网站关键词排名优化嘉兴优化网站哪家好虹口区企业网站优化机构青浦区谷歌网站优化方案定制长春网站优化哪个好网站主页优化建议济南优化网站seo河南卫浴行业网站优化推广温州网站的优化一站式优化网站搜狗排名优化网站三尾狐巢湖网站优化怎么选网站优化的意思广东新网站优化靠谱的网站核心词优化代理郑州种植网站整站优化分析利于seo优化的网站无锡优化公司无锡网站推广广安网站优化找哪家题目类网站怎么优化响应式网站优化网站安全性优化网站导航栏优化建议家居行业网站优化策划网站排名优化效果福山区行业网站优化mcpedl网站下载动作优化seo网站内容页优化商丘网站优化注意事项保山网站网址优化网站可以优化吗杭州网站排名优化效果如何优化网站用什么软件好北京优化网站排名广州新站网站优化方案哈尔滨网站优化公司 鹊起科技四川小企业网站优化网站seo优化视频网站搜索引擎优化技巧平顶山外贸网站优化推荐许昌网站自然优化哪家正规检测网站优化蚌埠网站优化公司报价长安电子网站优化哪个公司好焦作郑州网站优化咨询网站seo优化要学多久长沙网站优化排名网站长尾关键词优化网站seo优化要学多久企业如何优化网站郑州瓷砖行业网站优化推广怎么样杨浦区网站优化平台浙江网站推广优化代理淘宝上的网站优化南通南通网站优化国内网站优化系统加盟代理项目小企业网站优化推广价格表南阳网站推广优化广东茂名seo网站优化网站优化排名引流方式网站优化排名怎样做金华网站优化及推广公司怀化专业网站优化哪家好宣城网站关键词优化哪家服务好亳州网站推广优化哪家服务好潜江外包网站优化价格门户网站如何优化工作网站优化营销推广大概多少钱站内网站优化网站优化排名的方法网站的优化从哪里进行北京网站优化工资多少河北品质网站优化大全汉川市网站关键词排名优化厂家北京网站优化外包徐州网站建设优化宣传网站优化 方案太原企业网站优化推广怎么样平顶山网站推广优化哪家服务好宁波效果好的网站排名优化许昌网站排名优化费用安徽网站首页优化公司有实力的教育行业网站优化热线铜陵网站优化公司费用品牌网站优化系统招商加盟项目河北家装行业网站优化推广有用吗南通网站优化渠道昌邑优化网站效果嘉兴保新网站优化价格常德网站关键词优化排名崇明区企业网站优化价格费用网站栏目页关键词优化代码网站搜索引擎优化价格多少常州网站关键词百度优化无锡网站关键词优化公司排名长安网站代理优化公司优化手机网站杨浦区百度网站优化平台新密网站关键词优化软件宁夏企业网站优化公司网站 流程优化海南网站建设优化诊断云浮网站关键词排名优化廊坊靠谱的网站优化推广揭阳seo网站优化外包福建seo网站内容优化必火网站优化代理加盟项目平台百度网站SEO优化技术南通网站关键词优化如何网站关键词优化我的世界基岩版动作优化网站郑州专业网站优化公司哪家好网站404页面优化福州网站优化功能定制深圳网站优化网站推广导航与网站优化郑州网站优化推广特点淮安网站优化公司方案广州规模大的网站推广优化祖龙网站seo优化政府门户网站优化提升工作方案网站哪种排列利于优化代做网站优化镇江网络营销网站优化优势盖州优化网站推广温州网站关键字优化太原瓷砖行业网站优化推广可靠吗新网站优化关键词企业网站优化时经常陷入哪些窘境武汉seo优化网站成都品牌网站建设优化上海网站优化排名外包服务科技网站优化网站优化理由江南都市花园搜狗网站优化武汉做网站优化哪家好江门公司网站关键词优化工具闵行区官方网站优化定制方案什么网站优化广州百度网站优化方案浦东新区专业网站优化哪家好长安网络优化网站公司孝感网站优化公司排名普陀区企业网站优化方案定制网站站内结构优化金华正规网站优化公司嘉定区公司网站优化案例嘉峪关市优质的网站优化瓷砖行业网站优化推广有用吗宁波海曙区网站优化价格seo_网站优化教程舟山网站优化有必要做吗连云港企业网站优化营销网站优化的论文淮南网站优化推广方法网站怎么样优化旺道网站优化软件徐汇区专业网站优化方案寮步服装网站优化推广金华网站优化最新报价那里学网站制作和优化日照优化网站效果行唐网站快照优化费用沧州网站优化推广案例深圳互联网网站优化经验许昌网站优化推广收费标准天河企业网站推广优化公司秦皇岛优化网站费用长沙网站的优化有哪些江门网站优化费用多少网站收入少怎么优化出名的网站品牌优化咨询热线网站关键词优化有哪些平台东莞网站竞价优化案例湘乡网站优化SEO推广网络排名宁波网站关键字优化费用青浦区360网站优化平台郑州家具行业网站优化推广方案排名优化网站知名的seo网站优化系统随州工厂网站优化多少钱