百度做网站多少钱能做/优化大师绿色版

   日期:2024-12-29     作者:yindufu1       评论:0    移动:http://w.yusign.com/mobile/news/6763.html
核心提示:Add-one(Laplace) Smoothing加一平滑法,又称拉普拉斯定律Good-Turing Smoothing利用频率的类别信息对频率
  • Add-one(Laplace) Smoothing加一平滑法,又称拉普拉斯定律
  • Good-Turing Smoothing利用频率的类别信息对频率进行平滑
  • Interpolation Smoothing线性插值平滑技术,将高阶和低阶模型作线性组合利用低元n-gram模型对高元n-gram模型进行线性插值
1.1 最小语义粒度
在中文中,最小语义粒度为字,但是一个单字所表示的语义信息太少一般的大多都以词作为最基本的语素
因为这在实际的交流中也正是如此。但是用词作为最小的语义粒度也有一个问题,就是词和词之间的关系随着分词而丢失了
其实这部分信息非常重要。为了减小这种隐性的语义损失,有人提出了N-gram模型。
N-gram模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关。
简单来说,unigram模型对应的最小语素就是单字,bigram模型是二字串举例说明:“我爱北京天安门”的bigram表示形式就是“我爱 爱北 北京 京天 天安 安门”。
由于N-gram存在致命的缺陷——产生的结果过于稀疏,假设正常分词的词表中有1000个词,如果是bigram那么可能的N-gram就有1000000个,如果是trigram,那么可能的N-gram就有1000000000个
其维度增长是指数级的。一般在使用中只使用二字串或三字串作为最小的语义粒度,并且需要其他处理来缩减维度,减少计算资源的消耗。
作者:黄老邪怪 链接:http://www.jianshu.com/p/60505518d7ee


数据平滑-----解决数据稀疏
http://www.cnblogs.com/yiyi-xuechen/p/3561769.html?utm_source=tuicool&utm_medium=referral

训练语料毕竟是有限的,这样导致很多事件根本没有出现过。根据最大似然估计,这些事件的概率为零。然而这些事件的真实概率并不一定为零。
这个问题被成为数据稀疏问题。
Zipf 定律


中文依存句法分析概述及应用
http://blog.csdn.net/abc006250/article/details/7689872
:LTP依存分析模块所使用的依存关系标记含义(http://ir.hit.edu.cn/demo/ltp)

 
依存关系标记(共24个
定中关系ATT(attribute
数量关系QUN(quantity
并列关系COO(coordinate
同位关系APP(appositive
前附加关系LAD(left adjunct
后附加关系RAD(right adjunct
动宾关系VOB(verb-object
介宾关系POB(preposition-object
主谓关系SBV(subject-verb
比拟关系SIM(similarity
核心HED(head
连动结构VV(verb-verb
关联结构CNJ(conjunctive
语态结构MT(mood-tense
独立结构IS(independent structure
状中结构ADV(adverbial
动补结构CMP(complement
“的”字结构DE
“地”字结构DI
“得”字结构DEI
“把”字结构BA
“被”字结构BEI
独立分句IC(independent clause
依存分句DC(dependent clause
Lucene 中文名 全文搜索引擎
2.5.2.1 面向作文生成的主题分析技术
GRU (GatedRecurrent Unit)      

2.5.3.2主题词扩展
word embedding词向量         http://licstar.net/archives/tag/word-embedding
AP 聚类算法                 http://www.cnblogs.com/huadongw/p/4202492.html
LDA主题模型算法     http://blog.sina.com.cn/s/blog_8eee7fb60101czhx.html
 
特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。

举报收藏 0打赏 0评论 0
 
更多>同类资讯
0相关评论

相关文章
最新文章
推荐文章
推荐图文
资讯
点击排行
{