搜索引擎优化“TF-IDF”算法的概念及其在网站中的应用
TF-IDF是一种评估文档集中的一个单词或语料库中的一个文档的重要性的会计方法。单词的重要性与它在文档中出现的次数成正比,但与它在语料库中出现的频率成反比。搜索引擎经常使用各种形式的TF-IDF加权作为文档和用户查询之间相关性的度量或评级。除了TF-IDF,互联网上的搜索引擎也使用基于链接分析的评分方法来确认文档在搜索效果中出现的顺序。
“TF-IDF”算法原理
TFIDF的第一个思路是:如果一个词或词组在一篇文章中出现频率很高,在其他文章中很少出现,那么这个词或词组就有很好的类别区分能力,适合分类。TFIDF实际上是TF * IDF,TF术语频率,IDF逆文档频率。TF表示文档D中条目的频率.IDF的第一个思路是:如果包含条目t的文档较少,也就是n越小,IDF越大,那么条目t就有很好的区分类别的能力。
假设某类文档C中包含词条T的文档数为m,而其他类型中包含词条T的文档总数为k,明显全部包含词条T的文档数为n=m k,当m大时,n也大,根据IDF公式得到的IDF值会小,说明区分词条T类别的能力不强。
然而,事实上,如果一个条目经常出现在一类文档中,这意味着该条目可以很好地代表该类文本的特征。这样的条目应该赋予它们更高的权重,并被选为这类文档的特征词,以将其与其他类型的文档区分开来。这就是IDF的不足。在给定文档中,术语频率(TF)是指给定单词在文档中出现的频率。这个数字是术语计数的规范化,以避免它倾向于长文件。(同一个单词在长文档中的字数可能比在短文档中的多,不管它的重要性如何。(
“TF-IDF”算法概念与网站搜索引擎优化应用
一、TF词频概念及SEO建议
TF指词频,计算查询中的关键词在文档中出现的次数。相关文献都是这样介绍的,假设一个查询关键词在同一篇文献中出现的次数越多,越重要,越能代表文献的主题意义,文章主题与关键词意义越接近,那么在SEO中如何运用这个知识点呢?
假设一篇文章的标题是“SEO服务外包”。从字面上看,文章关注的是SEO服务,“外包”是一个延伸词。假设SEO服务出现20次,服务出现25次,外包出现10次。按照TF词频的规则,SEO服务是文章的主题,很好理解。
其实有时候写文章的时候,意思清楚了就省略了主词。比如SEO服务外包价格、SEO服务外包流程、SEO服务外包公司介绍,都会缩写为:外包价格、外包流程、外包公司介绍。这会导致外包比服务出现的频率更高,TF词频会认为外包是主题,导致判断错误。
既然是这样,那么在做SEO关键词布局的时候,就要适当的考虑到主关键词的出现频率大于副词的出现频率。当然,搜索引擎判断网页主题的维度有很多。这里只从TF词频的角度考虑。个人认为这样会缩短搜索引擎判断网页主题的时间,有利于SEO。
二、如何快速理解“IDF逆文档频率”
这个概念假设阅读文档有点难懂。一开始看了几遍百度百科才明白。这里就不说那些乱七八糟的公式了。与TF结合,TF-IDF是指一个关键词在一篇文章中出现的次数越多,搜索引擎的数据库中包含该关键词的文档越少,该关键词就越能代表该网页的主题。
例如,假设有一篇文章有两个关键词:“SEO优化”和“SEO服务”。文章中这两个关键词出现了20次,但是在百度的数据库中,包含SEO优化的文档有1000万,包含SEO服务的文档有500万,说明SEO服务更能代表这篇文章的意思。也许搜索引擎数据库中包含关键词的文档数量是一样的,文章中出现的关键词越多,就越能代表网页的主题。
从SEO的角度来看,IDF的价值是客观存在的
不需要深究,只需要知道不同关键词之间的文档数量即可。以百度为例,你搜索任何一个关键词,搜索框下面都会有一句话:“百度已经为你找到了关于XXX的相关效果”,里面的值可以作为文档数。每个搜索引擎中包含关键词的文档数量可能不同,但总体相对比例值应该是相似的。而且随着时间的推移,文档的数量会不断变化。