NLP

NLP

简介

TF-IDF

  • TF (Term Frequency)—— “单词频率”: 某一个单词在目标文档中出现的次数

    $$ TF_{w,D_i} = \frac{count(w)}{|D_i|} $$

  • IDF(Inverse Document Frequency)—— “逆文档频率”: 有多少文档涵盖了这个单词:

    $$ IDF_w = log \frac{N} {1 + \sum^N_{i=1}I(w,D_i)} $$

TF-IDF 算法主要适用于英文,中文首先要分词,分词后要解决多词一义,以及一词多义问题,这两个问题通过简单的tf-idf方法不能很好的解决。于是就有了后来的词嵌入方法,用向量来表征一个词。

$$ TF-IDF_{w,D_i} = TF_{w,D_i} * IDF_w $$

TextRank

TextRank由Mihalcea与Tarau于EMNLP'04 [1]提出来,其思想非常简单:通过词之间的相邻关系构建网络,然后用PageRank迭代计算每个节点的rank值,排序rank值即可得到关键词。PageRank本来是用来解决网页排名的问题,网页之间的链接关系即为图的边,迭代计算公式如下: $$ PR(V_i) = (1-d) + d * {\sum_{j\in {In(V_i)}}{\frac{1} {|Out(V_i)|} }PR(V_j)} $$

$$ WS(V_i) = (1-d)+d*{\sum_{j\in{In(V_i)}}\frac{w_{ji}}{\sum_{V_k\in{Out(V_j)}}w_{jk}}WS(V_j)} $$

Word2vec

参考

  1. 秒懂词向量Word2vec的本质
  2. 分词算法综述
updatedupdated2024-05-152024-05-15