文章原創度!為什麼抄襲者的網站更容易收錄?
阿新 • • 發佈:2019-01-01
並不是你網站有文章,是你自己寫的,就一定會被搜尋引擎認為這是一篇原創文章,因為其中還有很多技術方面的問題,搜尋引擎還未能解決。記得我曾經在一個網站每天更新一篇文章,一篇文章的字數只有100字左右,但是文章頁面非常簡單,簡單到整個頁面沒有JS、CSS、HTML程式碼,只有文字,但收錄卻非常好,而有一些網站,用JS、CSS、html程式碼把網站修飾的非常漂亮,但是釋出的文章卻不收錄,這讓我開始覺得程式碼與原創度有直接關係。
我忘記了,在哪裡看到過這樣的一句話“搜尋引擎只能識別200KB以內的內容”,對於一個網頁而言,200KB算是很大了,如果你的網站有超過200KB,我覺得你是應該要優化了。
這和網站的檔案大小有什麼關係呢?好,我們來看看,搜尋引擎在抓取一個頁面的流程是從頭到底,任何一個頁面都有一個共同點,那就是頭部一樣、底部一樣,唯一不一樣的就是文章內容,那麼搜尋引擎在抓取頭部有10KB左右是一模一樣的,到中部文字的時候只有2KB是不一樣的,而底部又有10KB是一模一樣的,那麼還會認為這是原創文章嗎?
這裡還得給大家灌輸一個理念,那就是搜尋引擎是不認識字的,他只有把這個漢字放到他的資料庫去對比,當一對比一個新文章頁面的時候,總共22KB的頁面,居然有20KB一模一樣,就算是寫了原創文章,也會被列入到偽原創的列表中去。
經過SEO優化加測試,對原創文章的判斷得出了這樣的一個理論,當一個頁面比較大的時候,一個頁面的不同點至少佔頁面的1/3,那麼寫多少文字呢,比如你頁面有10KB,那麼至少的寫3KB的文字,剩下的7KB相同,這些才不容易被列入到偽原創的列表中。當然,這是個人得出的理論,並沒有完全的證據和理論來證明。
為什麼抄襲者的網站更容易收錄?
那麼還有一個問題來了,既然要抓取、識別、釋放這麼複雜的流程,為何抄襲我們網站的內容還先收錄呢,這是大家很糾結的這個問題,我也糾結了很久。
在談論抄襲者網站為何會收錄塊的時候,我覺得咱們先要搞清楚新聞內容是收錄流程,新聞內容相對普通的內容收錄較快,因為新聞內容具有時效性,所以必須當場發當場收錄,然後釋放出來,不然拖到第二天在收錄的話,這個新聞可能不熱了,關注的人也就少了,百度從而失去了這個體驗。
而抄襲者的網站與新聞內容類似,通常抄襲者的網站是抄襲過多篇文章,其中有直接抄襲原創者,也就抄襲二手文章,抄來抄去,網際網路同樣的文章就非常多了,當一篇文章被網際網路多次抄襲,這就意味著這篇文章比較熱門,不熱門怎麼會這麼多人抄襲呢?最終就出現了一個熱點效應,收錄的門檻也就降低了。所以就出現了抄襲者抄襲了你的文章,比你還先收錄。
我忘記了,在哪裡看到過這樣的一句話“搜尋引擎只能識別200KB以內的內容”,對於一個網頁而言,200KB算是很大了,如果你的網站有超過200KB,我覺得你是應該要優化了。
這和網站的檔案大小有什麼關係呢?好,我們來看看,搜尋引擎在抓取一個頁面的流程是從頭到底,任何一個頁面都有一個共同點,那就是頭部一樣、底部一樣,唯一不一樣的就是文章內容,那麼搜尋引擎在抓取頭部有10KB左右是一模一樣的,到中部文字的時候只有2KB是不一樣的,而底部又有10KB是一模一樣的,那麼還會認為這是原創文章嗎?
這裡還得給大家灌輸一個理念,那就是搜尋引擎是不認識字的,他只有把這個漢字放到他的資料庫去對比,當一對比一個新文章頁面的時候,總共22KB的頁面,居然有20KB一模一樣,就算是寫了原創文章,也會被列入到偽原創的列表中去。
經過SEO優化加測試,對原創文章的判斷得出了這樣的一個理論,當一個頁面比較大的時候,一個頁面的不同點至少佔頁面的1/3,那麼寫多少文字呢,比如你頁面有10KB,那麼至少的寫3KB的文字,剩下的7KB相同,這些才不容易被列入到偽原創的列表中。當然,這是個人得出的理論,並沒有完全的證據和理論來證明。
為什麼抄襲者的網站更容易收錄?
那麼還有一個問題來了,既然要抓取、識別、釋放這麼複雜的流程,為何抄襲我們網站的內容還先收錄呢,這是大家很糾結的這個問題,我也糾結了很久。
在談論抄襲者網站為何會收錄塊的時候,我覺得咱們先要搞清楚新聞內容是收錄流程,新聞內容相對普通的內容收錄較快,因為新聞內容具有時效性,所以必須當場發當場收錄,然後釋放出來,不然拖到第二天在收錄的話,這個新聞可能不熱了,關注的人也就少了,百度從而失去了這個體驗。
而抄襲者的網站與新聞內容類似,通常抄襲者的網站是抄襲過多篇文章,其中有直接抄襲原創者,也就抄襲二手文章,抄來抄去,網際網路同樣的文章就非常多了,當一篇文章被網際網路多次抄襲,這就意味著這篇文章比較熱門,不熱門怎麼會這麼多人抄襲呢?最終就出現了一個熱點效應,收錄的門檻也就降低了。所以就出現了抄襲者抄襲了你的文章,比你還先收錄。