#1 從博客上復(fù)制內(nèi)容:

上圖是主要針對博客這種網(wǎng)站媒體類型的,我們使用wordpress的時候經(jīng)常將文章毫無保留地展示在首頁,而不是使用輸出摘要(就好像SEMWATCH那樣),根據(jù)Randfish觀察,其實(shí)這樣子是會搜索引擎誤認(rèn)為內(nèi)容重復(fù)。
#2 URL參數(shù)引起的內(nèi)容重復(fù)

究竟URL參數(shù)像Session IDs,Tracking IDs是怎樣引起內(nèi)容重復(fù)的呢?Googlewebmastercentral (需要翻墻) 透露,同一個產(chǎn)品頁面,如果搜索引擎爬蟲抓取可以通過多種鏈接途徑抓取同一個產(chǎn)品頁面,那樣會有以下幾種消極的影響:
1.多種URLs會稀釋鏈接的廣泛性。比如上圖的產(chǎn)品頁面,如果有50個導(dǎo)入鏈接,那有可能分別形成了3種導(dǎo)入URL途徑,而不是唯一的某一個URL,這樣就等于將導(dǎo)入鏈接傳遞的權(quán)重分散到3個不同的鏈接上。
2.搜索結(jié)果或許會呈現(xiàn)不友好的URL(比如一大串長長 的session ID,tracking ID)。從而在SERP中,降低了用戶對該頁面的清晰了解程度(英文url比如semwatch.org/sem,不僅僅具備搜索引擎友好性,更重要的是用戶體驗(yàn)友好性),不利于品牌的塑造。
#3 搜索引擎對待內(nèi)容重復(fù)的態(tài)度

從Search Engine Land給出上圖可知,一般來說搜索引擎通過4個步驟來識別內(nèi)容是原創(chuàng)還是復(fù)制:
1.發(fā)現(xiàn)。當(dāng)搜索引擎爬蟲發(fā)現(xiàn)新的內(nèi)容,他會立刻與之前收錄的內(nèi)容進(jìn)行比較確保內(nèi)容的原創(chuàng)性。
2.丟棄。首先,搜索引擎會放棄收錄那些來自鏈接工廠,MFA站點(diǎn)(Made For Adense)和被列入黑名單的IP的頁面
3.解剖。下一步就是分析每個頁面的 入站鏈接,判斷鏈接的質(zhì)量和源頭。
4.決定。最后就是回顧之前收錄的頁面和相關(guān)鏈接,決定哪一個頁面才是絕對原創(chuàng)。
#4 關(guān)鍵詞拆解

搜索引擎會蜘蛛通過你的某一個特定頁面爬行4個或者40個網(wǎng)站上不同的頁面,而這種行為一般是通過該頁面的相關(guān)內(nèi)容鏈接進(jìn)行爬行抓?。ū热缟蠄D的“滑雪板),很多朋友希望通過將眾多頁面相互關(guān)聯(lián)起來即使相互之前沒有關(guān)聯(lián)性,一個站點(diǎn)的許多頁面過度使用同一個關(guān)鍵詞,從而為了提高排名。但是事實(shí)上,這種行為對于排名是幫助不大的。
#5 怎樣處理好內(nèi)容重復(fù)的情況

這里不同在于不是僅僅通過“滑雪板”這個詞而是通過各種各樣,有價值而且唯一的關(guān)鍵詞(比如折扣滑雪板,小孩滑雪板等)鏈接到原來的內(nèi)容上。這樣搜索引擎就可以很容易確定該頁面與其他頁面的相關(guān)性極強(qiáng),這不僅僅基于搜索引擎友好性,更是考慮到用戶體驗(yàn)與網(wǎng)站未來的信息架構(gòu)。
Canonical標(biāo)簽

Source: Dynamical.biz

Source: SEOmoz.org
其實(shí)上面兩幅圖都涉及到一個問題,那就是網(wǎng)址規(guī)范化,針對這個問題,Zac前輩很早前就給我們分析過—網(wǎng)址規(guī)范化問題最新解決方法,大家可以前往學(xué)習(xí)。
301重定向

301重定向也是解決內(nèi)容重復(fù)的重要方法,對于永久的重定向,搜索引擎更偏愛于301重定向。隨著301重定向?qū)嵤?,舊網(wǎng)站的權(quán)重就會自動傳遞到新的網(wǎng)站上。
當(dāng)各位了解了搜索引擎對于內(nèi)容重復(fù)判斷機(jī)制以后,相信對各位的優(yōu)化工作會有所幫助。我們經(jīng)常說“細(xì)節(jié)制勝”,所以無論是網(wǎng)絡(luò)營銷還是單純的SEM都必須遵循這樣的一個原則和細(xì)節(jié),方能制勝。
圖表收集:Ann Smarty,原文鏈接 本文首發(fā) SEM Watch ,轉(zhuǎn)載請注明出處