搜索引擎算法中TF-IDF是什么意思

>充分了解搜索引擎算法才能真正掌握seo优化技术，所以在对seo技术的初步研究中，有必要在这方面从简单到深入构建更专业的认知。在搜索引擎优化的基础学习中，如果你不了解和了解搜索引擎，你真的不能通过纯白帽搜索引擎优化来优化一个网站。今天石家庄seo博客和朋友分享TF-IDF在搜索引擎算法中的含义。以下内容转载自百度百科。

TF-IDF(术语频率-反向文档频率)是信息检索和数据挖掘中常用的加权技术。TF是术语频率，IDF是反向文档频率。TF-IDF是一种统计方法，用于评估一个单词对文档集或语料库中的文档的重要性。单词的重要性与它在文档中出现的次数成正比，但与它在语料库中出现的频率成反比。搜索引擎经常使用各种形式的TF-IDF加权作为文档和用户查询之间相关性的度量或评级。除了TF-IDF，互联网上的搜索引擎也使用基于链接分析的排名方法来确定文档在搜索结果中出现的顺序。

TFIDF的主要思想是，如果一个词或短语在一篇文章中频繁出现，而在其他文章中很少出现，则认为该词或短语具有很好的类别区分能力，适合分类。TFIDF实际上是TF * IDF，TF术语频率，IDF逆文档频率。TF表示文档D中条目的频率..IDF的主要思想是，如果包含条目T的文档越少，即N越小，则IDF越大，说明条目T具有很好的区分类别的能力。如果某类文档C中包含词条T的文档数为M，而其他类型中包含词条T的文档总数为K，那么显然包含词条T的文档数为n = m+k，当M较大时，n也较大，根据IDF公式得到的IDF值会较小，说明词条T的分类能力不强。但是，事实上，如果一个条目在一类文档中频繁出现，就意味着该条目能够很好地代表该类文本的特征。这样的条目应该赋予它们更高的权重，并被选为这类文档的特征词，以将其与其他类型的文档区分开来。这就是IDF的不足。在给定文档中，术语频率(TF)是指给定单词在文档中出现的频率。这个数字是术语计数的规范化，以防止它偏向长文件。(同一个单词在长文档中的字数可能比在短文档中的多，不管它的重要性如何。)

TFIDF算法是基于这样的假设:对区分文档最有意义的词应该是那些在文档中频繁出现，而在整个文档集中其他文档中很少出现的词。因此，如果将TF词频作为特征空间坐标系中的一个度量，则可以反映相似文本的特征。此外，考虑到单词区分不同类别的能力，TFIDF方法认为一个单词在文本中出现的频率越低，其区分不同类别文本的能力就越大。为此，引入逆文本频率IDF的概念，将TF和IDF的乘积作为特征空间坐标系的值测度，用于调整权重TF。调整权重的目的是突出重要词，压制次要词。但本质上IDF是一种试图抑制噪音的加权，单纯认为文本频率小的词更重要，文本频率大的词更没用，显然不完全正确。IDF的简单结构不能有效反映词的重要性和特征词的分布，使得它不能很好地调整权重，因此TFIDF方法的准确性不是很高。

另外，词的位置信息在TFIDF算法中没有体现出来。对于Web文档，权重计算方法要体现HTML的结构特征。特征词在不同的标记中反映文章内容的方式不同，其权重的计算方法也应该不同。因此，应该给网页不同位置的特征词赋予不同的系数，然后乘以特征词的词频，以提高文本表示的效果。

TF-IDF模型是搜索引擎等实际应用中广泛使用的信息检索模型，但对TF-IDF模型一直存在各种质疑。本文是一个基于条件概率的信息检索箱球模型。其核心思想是将“查询串Q与文档D的匹配度”转化为“查询串Q来自文档D的条件概率问题”。它从概率的角度定义了比TF-IDF模型表达的匹配度更清晰的信息检索目标。TF-IDF模型可以包含在这个模型中，一方面说明了它的合理性，另一方面也发现了它的不完善之处。此外，该模型还可以解释PageRank的含义以及为什么PageRank权重和TF-IDF权重是乘积关系。

原文链接：http://www.sjzseo.net/1572.html，转载请注明出处。