百度SEO演算法技術的侷限性,怎麼做才能有收益
不知道大家有沒有發現,我們使用百度的頻率在減少,就算有時遇到一些問題,需要用百度來尋找答案,也會經常遇到搜尋不到答案的情況。到底是出了什麼問題?難道網路上的資源不夠豐富了?浩如煙海的網際網路,居然搜尋不出來想要的答案?
究其原因,是百度的機器演算法造成了現在的困局。這一切要從百度發展的早期說起。
在網際網路早期階段,所有人都剛剛對網際網路進行探索,一個網頁瀏覽器,就打開了這個世界的大門。網際網路的早期階段,就是以瀏覽器作為視窗的。很多人通過建網站,在網際網路上提供資源,供千萬人瀏覽。隨著網站越來越多,資訊源成爆發式增長,有的人就會想,怎樣才能從這海量的資訊中,獲取自己想要的結果?於是,搜尋引擎誕生了。國外的代表是谷歌,國內的老大就是百度。搜尋引擎這個壞傢伙,通過網路爬蟲,抓取網際網路上所有的頁面和資源,然後建立索引資料庫,供使用者搜尋查詢。所以,大家只要在搜尋引擎網站輸入一個關鍵詞進行搜尋,網際網路上所有被索引進資料庫的頁面的相關連結,就都會顯示出來,這樣就極大的提高了獲取資訊的效率。隨著建網站的人越來越多,搜尋引擎裡能查詢到的資訊也就越來越豐富,大家每天都會遇到各種各種的問題,無論你遇到什麼問題,幾乎都可以在搜尋引擎裡找到答案。所以,就有了那一句經典的廣告詞“百度一下,你就知道”,的確如此。
表面上看,好像是百度把所有的網際網路資訊都囊括了,百度就是網際網路的視窗,百度就是網際網路資訊的全部。
但是事實真的如此嗎?在那個年代,確實如此。百度幾乎是一切網際網路流量的來源。但是,當我們從某個上帝視角去俯視這個模式,就會發現一個小小的問題,就是百度似乎匯聚了整個網際網路的資訊,但是這些資訊,其實並不屬於百度。歸根結底,百度只是把海量的資訊,做了一個索引,一個彙總,就像一本書的目錄一樣,但是這些具體資訊的內容,都是在各自的獨立網站上的。而這些網站,本質上並不受百度控制。從另一個角度講,這些網站和百度只是合作關係,因為有一個協議,叫做robots協議。也就是在你網站的根目錄,會有一個robots.txt的文字檔案,搜尋引擎就是根據這個文字檔案中的描述,來選擇獲取哪些內容和遮蔽哪些內容。
那麼問題來了,既然網站的內容不受百度的控制,百度只是對資訊做了一個索引,那麼百度是怎麼判斷出資訊的質量以及這個資訊是否對使用者有幫助的?說的通俗一點,當我們在百度搜索框中搜索一個關鍵詞時,會出現很多條記錄,通常排在前面的就是質量最好最相關的。百度把它認為所有相關的資訊,按照關聯度或資訊質量進行排序,並呈現在我們面前,它是怎麼知道這些資訊的質量和關聯度的?以及對使用者是有幫助的?
這裡就涉及到了一個百度賴以生存的排名演算法。百度畢竟不是人,只是機器,它將資訊爬取並彙總起來,然後通過極其複雜參照量極多的演算法,對資訊進行排序,質量好的網站會排在前面,質量差的網站會排在後面,就是我們常說的百度排名。看到這裡,有的人會提出一個問題,百度這樣的排名演算法,嚴謹嗎?能百分之百準確嗎?問到重點了。這就是百度十幾年來一切問題的根源了。答案顯然是:不能。正如前面所說,百度不是人,演算法只是機器的指令,不可能做到百分之百的精準,所以它不夠嚴謹,也不一定正確。我們可以把百度和目前流行的內容平臺,微信公眾號和抖音,做一個對比。微信公眾號裡,所有的文章,都是在微信平臺上釋出的,都會受到微信的監控和管制。抖音也是如此,所有的視訊,都是完全在它的平臺上,而不是隻做一個索引。所以,這兩個平臺對內容有百分之百的管控能力。怎麼判斷某個內容質量的呢?很簡單,不用依賴機器演算法來分析,因為使用者會自動幫你投票。比如,如果某個內容質量高,完整觀看的人就會多,點讚的人就會多,收藏的人就會多,評論和轉發的人就會多,反覆觀看的人數就會多,而使用者的這些動作,微信和抖音都是能監控到的,所以他們的排名演算法會極其精準,好內容都是使用者自己選出來的,而且也應該是使用者自己選出來的。反觀百度,它的所有內容都是其他網站上的,某個文章有沒有被人完整觀看,有多少人點贊,多少人收藏了,有多少人轉發了,它能監控到嗎?監控不到。百度所能做的,只能通過一些外部的變數來判斷內容的好壞,而使用者的真實行為,它是獲取不到的。
所以百度無法像微信和抖音那樣,直擊內容。
這就好比是判斷一個人是否有錢,微信和抖音可以直擊本質,可以直接檢視這個人的銀行卡餘額,而百度,只能是通過這個人開的什麼車,帶的是什麼手錶,住的是什麼房子,來判斷這個人是否有錢。所以,這裡就有誤差了。開的車可能是借的,手錶可能是假的,房子也許是租的,這個人看上去有錢,實際上可能是負債累累。所以通過外部變數來判斷事物的本質,都是有很大的誤差的。因為所有外部的變數都可以偽裝,只有銀行卡餘額才是本質,是偽裝不了的,但是百度卻檢視不到。
所以,做微信和抖音的人,都在研究什麼?怎麼寫好的文章吸引大家點贊轉發,做一個爆款的視訊有哪些技巧和方法。究其本質,都是在研究如何做好內容。
但是,做百度排名的人呢,幾乎沒有人討論如何做好內容,而是想著如何討好(騙過)百度這個機器演算法。因為漸漸的,大家都知道,就算內容做的再好,百度也不一定會給你排名。而相反,有些內容即使很爛,但是外部變數偽裝的很好的,百度卻能給與很高的排名。
目前所有的seo技術,不管是黑帽seo和白帽seo,這些所謂的技術,本質上都是在偽裝外部變數,在百度看來,都屬於作弊。因為作為平臺方,肯定是希望內容越好排名越好,這樣使用者才會被內容吸引,越來越依賴平臺,從而形成一個正向迴圈。正常的情況是,內容越好,圍繞它周邊的外部變數就會自然的變好,就像是一個人越有錢,開的車應該就越好。但是偏偏就是有人沒有錢也開好車。seo的很多技術,就是在不增加內容質量的情況下,只是單純的讓外部變數變得更好,從而達到欺騙百度演算法,獲取排名的目的。
下面我們來列舉一些百度作為判斷依據的重要的外部變數,以及所謂的seo是如何應對的。
1. 內容原創:不管是什麼平臺,內容質量都是最重要的,內容的原創度越高,質量就會相應的越好。但是你到seo的社群裡,就會發現站長們都是怎麼對待原創的?都在討論採集和偽原創,沒有人去認認真真的寫高質量的原創內容。因為百度判斷原創的方法很簡單,就是如果之前沒有收錄過這篇文章,就會被認為是原創,哪怕是用軟體工具生成的一篇狗屁不通的文章,也是如此。而且,就算你寫出高質量的原創,百度也判斷不出來是高質量的還是低質量的,因此也不會給你權重和流量,那麼誰還會費力不討好呢。更何況很多封閉的自媒體平臺,本身就是遮蔽百度的,比如,今日頭條,公眾號,企鵝號,大魚號等,直接把這些平臺上的文章搬到自己的網站上,百度就會認為是原創,就會收錄。所以沒有人為了百度,去認真地做原創,都是偽原創和採集內容。
2. 外鏈數量:關於外鏈數量決定網站的質量,百度最初的想法應該是認為:外鏈的數量越多,說明網站內容被轉載和引用的次數就越多,也就側面說明了網站質量好對使用者有幫助。只可惜外鏈這個外部變數,太容易被修改了。於是誕生了大量的買賣外鏈的平臺,seo的人員,有錢的直接買外鏈,不想買的自己到處發外鏈,或者和其他人鏈接互換。甭管是什麼網站,文章好不好不重要,重要的是我留下了一條連結,就達到目的了。所以,你看網上誕生了大量的無效的垃圾內容,很多人只是為了留下一條連結,就會故意製造一些沒有營養的內容。百度也很難判斷這條留下的連結,是真正有意義的被留下了,還是通過上述手段被故意留下的。
3. 建站時長:這個更可笑,因為網際網路上有很多個人做的網站,幾個月不掙錢或者玩夠了,就關閉了。所以你會發現,以前收藏過的很多網站,慢慢的很多都打不開了,那麼像這些做一段時間就關閉的網站,肯定不是百度心中的優秀的站點。所以,百度就認為,一個網站,建站時間越長,越說明這個網站是用心做的,不會隨便關閉,百度才會給與流量。針對這一點,很多人就直接買老域名,來走捷徑。老域名就是別人以前做了好幾年的網站,然後別人不做了,你直接花錢把這個域名買過來,重新做一個網站。哪怕你重新做的網站和之前的網站,內容完全不一樣,也沒關係。由於建站時間久,權重極高,百度便會給予很快的收錄和很好的排名。
當然,所謂的外部變數,遠遠不止上面說的這幾個,實際情況會更加複雜,但是無論多複雜,機器也沒有人聰明,尤其是中國人。窺一斑知全貌,從上述情況可以看出,站長們根本不需要做好內容,只需要讓外部變數看起來漂亮,讓機器演算法認為是優質的網站或內容,就足夠了。
無論怎樣,機器是笨拙的,尤其是百度的機器演算法,由於無法直擊內容,所以更是漏洞百出。下面通過兩個具體的實際例子,來說明機器演算法的侷限性。
1. 大家可以看一下這個網站,景德鎮資訊網:
這個網站很神奇,你會發現,它的所有內容都是採集的,它的網址後面,加上任意一串數字,再接上.html,都會有一個網頁內容,顯然這個網站背後,並不是一個用心維護好內容的兢兢業業的站長,而是一個可以完全自動化生成內容的程式。這樣的網站應該屬於垃圾網站,因為本質上,它沒有自己產生優質內容,解答不了網民使用者的疑問。但是百度呢?它看到的和我們不一樣。因為它只是一個機器演算法,它看到的是一個擁有豐富內容的網站,所以收錄了很多頁面,並給與了不錯的權重和排名,甚至還給了一個官網標識。
2.還有一個朋友的網站,叫“八圖片”,主要是提供一個二維碼加密的技術,很多站長用這項技術來賺錢,比如,給一些虛擬資源加密然後自動化的出售。所以有一段時間,朋友把網站的關鍵詞設定成了和網zhuan相關的。但是大家都知道,網zhuan是一個很危險的詞語。我記得央視315節目也曾經曝光過,網際網路的網zhuan專案,大部分都是騙錢的或者違法的。所以,這個關鍵詞也順利成章的被百度列入了黑名單,八圖片這個網站那段時間也被百度K掉了。雖然後來通過申訴恢復了,但是由此可以看出,百度這個機器一刀切的做法。因為百度只是機器演算法,它畢竟不是人,它分不清哪些專案是真的,哪些是假的。所以,既然判定不了,又這麼危險,就乾脆認為全部都是違法的。
由此可見,百度的機器演算法,很難判斷出真正的好內容,漸漸的導致了百度裡的內容,劣幣驅逐了良幣,好的內容都轉移到了很多其他並不對百度開放的內容平臺裡,比如,微信公眾號,抖音等。
並且還有一個原因,就是其他的內容平臺,比如公眾號,抖音等,真的很好用,不僅使用門檻低(不像建網站,又需要有域名,又需要有主機,又要懂一點建站技術,門檻較高),而且由於是自家平臺,所以只需要全心全意的做好內容就行了。不需要用什麼技巧去討好機器演算法,只需要討好使用者,而討好使用者恰恰才是做內容的初衷和本質。只要內容好,新人也有機會流量暴增而一夜成名。而如果是做網站,新人則很難出頭,首先網站結構要先符合百度的優化方案,然後百度對於新網站的考察期就是三個月,這樣就導致新網站很難起量,很多人堅持不了那麼久,短期內沒有成果就很容易放棄。
百度的問題,不僅是上面所說的好內容轉移到其他平臺的問題,還有就是,網際網路上本身就優秀的存量網站,也在變的越來越稀少。由於政策的原因,由於人們習慣的轉變,或者由於廣告的摧殘,導致很多曾經很優秀的網站,也在銷聲匿跡,逐漸淡出人們的視野。比如,部落格站,在網際網路早期誕生了很多,但是現在能叫的出名的,真是屈指可數,盧鬆鬆部落格是為數不多的能一直堅持到現在的高質量部落格了。還有論壇,曾經也是風極一時,不說其他的領域,就說站長論壇,以前真的是風起雲湧,遍地開花。而現在呢,也就只有一個4414站長論壇了。
優秀的網站越來越少,而能生產出好內容的作者,又不一定要做網站,因為有更好的平臺可以選擇,這就導致了百度的內容逐漸荒蕪,也就造成了文章開始提出的問題,在百度里居然搜尋不出想要的答案了。
面對這些問題,百度也想過自救,既然沒有好網站和好內容,乾脆就自己生產內容,於是推出了熊掌號,百家號這類自媒體平臺,想讓使用者把好的內容留在自家陣地上。可惜的是,你百度本身的初衷就是一個搜尋引擎,就是建立一個索引目錄,你現在又想做目錄,又想做內容,真是有點本末倒置了。最後大家也都看到了,這些自救的辦法,結果上都是差強人意。
總之,網際網路發展了,商業邏輯變了。以前大家探索網際網路,為了尋找答案,只能通過百度進行搜尋。所以,你有好的內容,如果想被發現,就只能做網站,然後費勁巴拉的去討好百度這個機器。但是現在,我可以做公眾號,做小紅書,做抖音,可以不用做網站了,我可以全心全意的做好內容,使用者就會被我的內容所吸引,平臺也會給與流量,不是非依靠百度不可了。漸漸的,你會發現,使用者的搜尋習慣,也在悄然發生改變。現在搜尋一個什麼時事熱點,很多人就直接在微信或者抖音裡搜尋了,因為結果更精準,資訊更及時。這是百度最不希望看到的,卻又無力改變的。
那麼百度如何才能走出困局呢?筆者認為,最重要的還是應該把精力多用在提高機器演算法的精確度上,而不是千方百計花樣百出的去搞商業化。簡單來說,就是要讓機器演算法越來越像真人,逐漸降低誤判率,能接近谷歌的技術水平。當然百度這麼多年來,也一直是這麼做的,一直在不斷的提高和優化,但是目前來看,水平還遠遠不夠。不知道大家有沒有同樣感受,當我搜索一個問題時,尤其是專業方面的問題,百度經常是找不到任何有用的答案的,但是用谷歌搜尋就能找到一兩條有用的結果。而正是這一兩條結果,就能把我的問題解決。所以百度的機器檢索技術和谷歌還是有很大的差距。其次,現在國家不是要求互聯互通嗎?不能再搞內容封閉。這對百度來說,真的是一個巨大的機會,相當於之前流失的優質內容,很多又會重新回到百度的懷抱。比如現在快手和抖音,已經對百度開放了,百度也已經抓取了成千上萬的抖音和快手的內容。相信不久以後,淘寶,微信等優質內容,也都可以被百度抓取到。
希望百度可以抓住這次優質內容又重新迴歸的機會,努力提高演算法的精準度,準確識別垃圾內容和優質內容,不要再讓使用者失望,只有這樣才能重新站回到網際網路的頂級入口的位置,真正的做到,“百度一下,你就知道”。任重而道遠……