杭州SEO专用徐少辉(huī)要说(shuō)的是:网页查(chá)重(chóng)算法,也就是搜索引擎(qíng)是怎么(me)检(jiǎn)查两个网页的相似性的?这(zhè)应该是大家应该比较(jiào)关心的(de)问题吧,因(yīn)为(wéi)这有助于让你的(de)“伪原创”更像(xiàng)一(yī)个“原创”
首先我跟大家讲有名的I—MATCH算(suàn)法。
我们在比较两件事(shì)物的相似(sì)性时,往往(wǎng)都会拿能(néng)均衡的反应这事物(wù)本(běn)质的东西来比(bǐ)较(jiào),就像比赛时,要去除一个最高(gāo)分和(hé)最低分,然(rán)后再(zài)变算总(zǒng)分一(yī)样~~
I—MATCH算法基于的依据是,在文挡(dǎng)中,特别高频的词和特别低频的词(cí)无法反应这一个文挡的(de)真(zhēn)实内容,所以在比较(jiào)之(zhī)前,先将文挡(dǎng)中高频(pín)词和低(dī)频词去掉(注(zhù)意:这里的高频和低(dī)频(pín)指的是文档频率,并非关键词(cí)在(zài)你网页(yè)中的密度!)
我们来看一个例(lì)子:
这(zhè)里有两段网页文字(zì):
1.中(zhōng)国足球队在(zài)米卢的率领下首(shǒu)次(cì)获得世界杯(bēi)决赛阶段的比赛资(zī)格,新(xīn)浪(làng)体育播报(bào) 。
2.米卢(lú)率(lǜ)领中(zhōng)国足球队员首次杀入(rù)世界杯决赛阶段,搜狐体育播报。(嘿(hēi)嘿,看到这两句很熟吧?)
文档(一)中去掉高频:中国,在,的,获得(dé),比(bǐ)赛(sài),资格,新浪,体育,播报(bào)
去掉低频:米(mǐ)卢
则剩下中频词有:足球队,率(lǜ)领,首次(cì),世界杯,决赛,阶段
文档(dàng)(二)中去掉高频:中国(guó),搜(sōu)狐,体育(yù),播报
去掉(diào)低频:米卢,杀入
则剩下中频词有(yǒu):率领,足球队,首(shǒu)次,世(shì)界(jiè)杯(bēi),决赛 ,阶段(duàn)
看到了吧?剩下的,两者是一模一样 这就是(shì)相似(sì)性的存在
呵呵(hē),其实这个例子很早就有(yǒu)过的。。
综上所述:搜索引擎要检测相(xiàng)似(sì)性,主要就是(shì)要分词和词频的比较(jiào)!!
|