NLP

2022.5.21 2025.6.4 滴水穿石 60 1 分钟

NLP

简介

TF-IDF

TF （Term Frequency）—— “单词频率”: 某一个单词在目标文档中出现的次数
$$ TF_{w,D_i} = \frac{count(w)}{|D_i|} $$
IDF（Inverse Document Frequency）—— “逆文档频率”: 有多少文档涵盖了这个单词:
$$ IDF_w = log \frac{N} {1 + \sum^N_{i=1}I(w,D_i)} $$

TF-IDF 算法主要适用于英文，中文首先要分词，分词后要解决多词一义，以及一词多义问题，这两个问题通过简单的tf-idf方法不能很好的解决。于是就有了后来的词嵌入方法，用向量来表征一个词。

$$ TF-IDF_{w,D_i} = TF_{w,D_i} * IDF_w $$

TextRank

TextRank由Mihalcea与Tarau于EMNLP'04 [1]提出来，其思想非常简单：通过词之间的相邻关系构建网络，然后用PageRank迭代计算每个节点的rank值，排序rank值即可得到关键词。PageRank本来是用来解决网页排名的问题，网页之间的链接关系即为图的边，迭代计算公式如下： $$ PR(V_i) = (1-d) + d * {\sum_{j\in {In(V_i)}}{\frac{1} {|Out(V_i)|} }PR(V_j)} $$

$$ WS(V_i) = (1-d)+d*{\sum_{j\in{In(V_i)}}\frac{w_{ji}}{\sum_{V_k\in{Out(V_j)}}w_{jk}}WS(V_j)} $$

Word2vec

参考

作者：Justice
链接：https://justice.bj.cn/post/50.ml/nlp/
许可：CC BY-NC-SA 4.0

赞赏支持

微信打赏

支付宝打赏

比特币打赏