- Add-one(Laplace) Smoothing加一平滑法,又称拉普拉斯定律
- Good-Turing Smoothing利用频率的类别信息对频率进行平滑
- Interpolation
Smoothing线性插值平滑技术,将高阶和低阶模型作线性组合,利用低元n-gram模型对高元n-gram模型进行线性插值
1.1 最小语义粒度
在中文中,最小语义粒度为字,但是一个单字所表示的语义信息太少,一般的,大多都以词作为最基本的语素,因为这在实际的交流中也正是如此。但是用词作为最小的语义粒度也有一个问题,就是词和词之间的关系随着分词而丢失了,其实这部分信息非常重要。为了减小这种隐性的语义损失,有人提出了N-gram模型。
N-gram模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关。
简单来说,unigram模型对应的最小语素就是单字,bigram模型是二字串,举例说明:“我爱北京天安门”的bigram表示形式就是“我爱 爱北 北京 京天 天安 安门”。
由于N-gram存在致命的缺陷——产生的结果过于稀疏,假设正常分词的词表中有1000个词,如果是bigram那么可能的N-gram就有1000000个,如果是trigram,那么可能的N-gram就有1000000000个,其维度增长是指数级的。一般在使用中只使用二字串或三字串作为最小的语义粒度,并且需要其他处理来缩减维度,减少计算资源的消耗。作者:黄老邪怪 链接:http://www.jianshu.com/p/60505518d7ee
二
数据平滑-----解决数据稀疏
http://www.cnblogs.com/yiyi-xuechen/p/3561769.html?utm_source=tuicool&utm_medium=referral
训练语料毕竟是有限的,这样导致很多事件根本没有出现过。根据最大似然估计,这些事件的概率为零。然而这些事件的真实概率并不一定为零。
这个问题被成为数据稀疏问题。
Zipf
三
中文依存句法分析概述及应用
http://blog.csdn.net/abc006250/article/details/7689872
附:LTP依存分析模块所使用的依存关系标记含义(http://ir.hit.edu.cn/demo/ltp)
依存关系标记(共24个)
定中关系ATT(attribute)
数量关系QUN(quantity)
并列关系COO(coordinate)
同位关系APP(appositive)
前附加关系LAD(left adjunct)
后附加关系RAD(right adjunct)
动宾关系VOB(verb-object)
介宾关系POB(preposition-object)
主谓关系SBV(subject-verb)
比拟关系SIM(similarity)
核心HED(head)
连动结构VV(verb-verb)
关联结构CNJ(conjunctive)
语态结构MT(mood-tense)
独立结构IS(independent structure)
状中结构ADV(adverbial)
动补结构CMP(complement)
“的”字结构DE
“地”字结构DI
“得”字结构DEI
“把”字结构BA
“被”字结构BEI
独立分句IC(independent clause)
依存分句DC(dependent clause)
四
Lucene 中文名 全文搜索引擎
2.5.2.1 面向作文生成的主题分析技术
GRU (GatedRecurrent Unit)
2.5.3.2主题词扩展
word embedding词向量 http://licstar.net/archives/tag/word-embedding
特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。
更多>同类资讯
0 条相关评论