“抄襲網頁”是被搜索引擎極其反感的搜索引擎作弊手段之一。百度和谷歌均對復制網頁的做法有明確的說明:? 百度:如果你的站點上的網頁,大量都是復制自互聯網上的高度重復性的內容,那么,你的站點也有可能被百度丟棄。 谷歌:請不要創建包含大量重復內容的多個網頁、這類原創內容很少或幾乎沒有原創內容的"餅干模子?方式。? 那么,除了部分作弊者為了欺騙搜索引擎而故意復制網頁的情況之外,還有哪些情況是網站在無知的情況下被搜索引擎認定為復制網頁? 紐約舉行的搜索引擎戰略大會SES上,很多與會者就復制網頁的問題進行了討論。以下是各位搜索引擎專家的見解: Anne?Kennedy:復制網頁的情況包括不同URL下擁有同樣的網站內容,或同一首頁下有同樣的內容,如index.htm,?index.html等后綴下都是同樣的內容。 Shari?Thurow:搜索引擎對于復制網頁的識別和判斷也做了大量努力,如搜索引擎在比較兩個網頁時會排除一些干擾因素如導航區域,headers等,直接分析正文內容部分,其次搜索引擎還會通過分析網頁內部和外部鏈接以判斷是否每個站點的鏈接都不同。 Jake?Baillie:很多網站為了方便用戶對每篇文章都有一個“打印友好頁”的相同內容頁面,還有很多產品介紹頁面只有產品圖片沒有文字介紹的內容,都有可能被搜索引擎視為復制網頁。 解決復制網頁的辦法除了簡單地不要復制相同內容,還可以在不得已需要復制的網頁上通過robots.txt文件讓搜索引擎不要索引該頁面,或使用301重定向將復制的網頁轉化成“真實”的網頁。 在這次搜索引擎戰略大會上,兩大搜索引擎的代表也就復制網頁問題發表了他們的看法。 Yahoo的代表說不會輕易對復制網頁降級,而是盡力判斷誰是原始內容的網頁。谷歌代表Matt?Cutts說,誠實的網站管理員常常擔心他們是否不小心觸犯了復制網頁的禁忌,但他們大可不必擔心。谷歌也是盡力發現復制網頁中最原始的那個版本。谷歌不會對網頁的“打印友好”版進行懲罰,同時他還說也不必擔心同一頂級域名下不同后綴的網站擁有同樣內容, 盡管yahoo和谷歌都表示他們能夠對原始網頁和復制頁面進行明確判斷,但專家們認為現實情況是如果某個內容率先出現在一個普通網站上,隨后被“權威網站”所轉載,谷歌往往認定權威網站的內容是原始內容站,而真正的原始站點被認為復制網頁。不過谷歌通常情況下不會懲罰復制網頁,除非這個網站太過極端,比如做了N多的鏡像網站。
?