亚洲网站在线观看_免费性无码在线专区_免费女人高潮又粗又大毛片_欧美性爱在线视频看看_日韩国产中文无码一区_国产欧美精品一二三区展播_综合自拍欧美乱伦_老司机久久精品视频_日韩一级黄色录像_毛片在线无码频在线观看

您當(dāng)前的位置主頁 > SEO優(yōu)化 > 瀏覽文章

Python無監(jiān)督抽詞

來源:SEO優(yōu)化 2012-10-13

快速提升網(wǎng)站銷量,使用365webcall網(wǎng)站客服系統(tǒng)

如何快速正確分詞,對于SEO來說,是提取tags聚合,信息關(guān)聯(lián)的好幫手。

目前很多分詞工具都是基于一元的分詞法,需要詞庫來輔助。

通過對Google黑板報第一章的學(xué)習(xí),如何利用統(tǒng)計模型進(jìn)行分詞。

本方法考慮了3個維度:

凝聚程度:兩個字連續(xù)出現(xiàn)的概率并不是各自獨立的程度。例如“上”出現(xiàn)的概率是1×10^-5,”床”出現(xiàn)的概率是1×10^-10,如果這兩個字的凝聚程度低,則”上床”出現(xiàn)的概率應(yīng)該和1×10^-15接近,但是事實上”上床”出現(xiàn)的概率在1×10^-11次方,遠(yuǎn)高于各自獨立概率之積。所以我們可以認(rèn)為“上床”是一個詞。

左鄰字聚合熵:分出的詞左邊一個字的信息量,比如”巴掌”,基本只能用于”打巴掌”,“一巴掌”,“拍巴掌”,反之”過去”這個詞,前面可以用“走過去”,“跑過去”,“爬過去”,“打過去”,“混過去”,“睡過去”,“死過去”,“飛過去”等等,信息熵就非常高。

右鄰字聚合熵:分出的詞右邊一個詞的信息量,同上。

下面是一個利用Python實現(xiàn)的demo(轉(zhuǎn)自:/?p=682

收藏本文

文章編輯: 365webcall在線客服系統(tǒng)(www.365webcall.com)

我的評論

登錄賬號: 密碼: 快速注冊 | 找回密碼

一级婬片120分钟试看 | A级无遮挡超级高清-在线观看 | 国产爆乳合集在线观看视频 | yy4080国产精品一级 | 白嫩无码人妻熟妇啪啪区 | 精品亚洲国产成AV人片传媒 | 国产另类TS人妖一区二区 | 国产91熟女高潮一区二区 | 久久久久无码精品国产 | 国产精品自产拍在线观看蜜日浪潮 | 永久免费精品精品永久-夜色 | 久久亚洲AV无码精品色午夜麻豆 | 又紧又大又爽精品一区二区 | 免费中文熟妇在线手机播放 | 国产成人a一在线观看 | 亚洲精品18在线观看 | 久99久热只有精品国产15 | 日本人妻少妇久久中文字幕 | 亚洲精品国偷自产在线 | 中文字幕亚洲精品无码 | 精品亚洲国产成AV人片传媒 | 无套内射在线无码播放 | 国产精品毛片久久久久久久 | 欧美一级欧美三级在线观看 | 久久人人爽人人爽人人片Va | 国产农村妇女精品一二区 | 国产乱子伦精品无码码专区 | 日韩 国产 欧美 中文字幕 | 国产精品 中文字幕 日韩 | 艳妇臀荡乳欲伦69调教视频 | 国产成a人亚洲精品无码樱花 | 国产精品内射久久久久欢欢 | 亚洲精品国产自在现线99这里 | 内射无码AV-区二区在线观看 | 成人精品视频99在线观看免费 | 337p亚洲欧洲日本大胆 | 精品乱码久久久久久中文字幕 | 国产午夜福利100集发布 | 国产一级片内射欧美美妇 | 久久久午夜精品福利内容 | 18禁黄网站禁片免费观看不卡 |