hamming距离
要求单词长度必须相等

Jaro–Winkler
对前缀的权重较大,如果单词前若干字母有相同,不管顺序如何,其得分都比单词后端匹配相同的得分更高

Levenshtein
实际上只代表编辑距离,不代表语义距离

词干提取
Porter
Snowball(Porter2)
Lancaster

情感分析分归器
Naive Bayes(朴素贝叶斯)
logistic regression(逻辑回归)

相关性算法
tf-idf
TF-IDF是一种统计方法,用以评估一个词语对于一份文档的重要程度。TF表示词频,对一份文档而言,词频是特定词语在这篇文档里出现的次数除以文档的词语总数。
IDF表示一个词的逆向文档频率指数,可以由总文档数目除以包含该词语的文档数目,再将得到的商取对数得到,它表达的是词语的权重指数。
计算出每个词的词频和权重指数后,两者相乘,即可得到这个词在文档中的重要程度。

词袋算法

https://blog.csdn.net/sinat_25394043/article/details/108404210
https://zhuanlan.zhihu.com/p/507830576
https://www.ruanyifeng.com/blog/2013/12/naive_bayes_classifier.html [朴素贝叶斯]
https://blog.csdn.net/weixin_44016035/article/details/114953363 [tf-idf&&贝叶斯分类实践]
https://zhuanlan.zhihu.com/p/567344139?utm_medium=social&utm_oi=28131683467264&utm_psn=1568991035304398848&utm_source=wechat_session [BERT]

标签: none

添加新评论