NLP
简介
TF-IDF
TF (Term Frequency)—— “单词频率”: 某一个单词在目标文档中出现的次数
$$ TF_{w,D_i} = \frac{count(w)}{|D_i|} $$
IDF(Inverse Document Frequency)—— “逆文档频率”: 有多少文档涵盖了这个单词:
$$ IDF_w = log \frac{N} {1 + \sum^N_{i=1}I(w,D_i)} $$
TF-IDF 算法主要适用于英文,中文首先要分词,分词后要解决多词一义,以及一词多义问题,这两个问题通过简单的tf-idf方法不能很好的解决。于是就有了后来的词嵌入方法,用向量来表征一个词。
$$ TF-IDF_{w,D_i} = TF_{w,D_i} * IDF_w $$
TextRank
TextRank由Mihalcea与Tarau于EMNLP'04 [1]提出来,其思想非常简单:通过词之间的相邻关系构建网络,然后用PageRank迭代计算每个节点的rank值,排序rank值即可得到关键词。PageRank本来是用来解决网页排名的问题,网页之间的链接关系即为图的边,迭代计算公式如下: $$ PR(V_i) = (1-d) + d * {\sum_{j\in {In(V_i)}}{\frac{1} {|Out(V_i)|} }PR(V_j)} $$
$$ WS(V_i) = (1-d)+d*{\sum_{j\in{In(V_i)}}\frac{w_{ji}}{\sum_{V_k\in{Out(V_j)}}w_{jk}}WS(V_j)} $$