你看到的逆襲,只不過是一場預備很久,草蛇灰線,伏筆千里的反攻
阿新 • • 發佈:2018-12-16
前言
之前對爬蟲也只是知道大概是幹什麼,但是真正如何去做,卻真的沒有接觸過。學習爬蟲技術,我面臨兩大難題,一個就是python語言,一個就是爬蟲框架。這些知識將再以後的博文中涉獵,此篇主要是介紹一個網路爬蟲的知識。
內容
1.學習爬蟲有哪些意義?
- 學習爬蟲,私人定製一個搜尋引擎,並且可以根據搜尋引擎的資料採集工作原理有更深層次的理解。
- 大資料時代,要進行資料分析,就需要有資料來源,學習爬蟲,可以獲取更多的資料來源。
2.網路爬蟲有哪幾種分類?
- 通用網路爬蟲——爬取資源在全網
- 聚焦網路爬蟲——按照預先設定的主題有選擇的進行爬取
- 增量式網路爬蟲——在更新的時候只更新改變的地方,而未改變的地方則不更新
- 深層網路爬蟲
3.爬取網頁有哪些爬蟲策略?
- 深度優先爬行策略
- 廣度優先爬行策略
- 大戰優先爬蟲策略——根據網頁所屬的站點歸類,網站的網頁數量越多,該網站稱為大戰
- 反鏈策略——反向連結數,指的是網頁被其他網頁指向的次數,這個次數一定程度上代表這該網頁被其他網頁推薦的次數。反鏈次數越多,哪個網頁被優先爬取。
- 自定義爬行策略
4.網頁更新的策略?
- 使用者體驗策略
- 歷史資料策略
- 聚類分析策略
5.網頁分析演算法?
- 基於使用者行為的網頁分析演算法
- 基於網路拓撲的網頁分析演算法
- 基於網頁內容的網頁分析演算法
總結
上面總計的幾點知識看起來非常的零散,其實他們之間是有關聯的,在爬取網頁的時候,需要確定什麼型別的爬中,是聚焦還是全網爬蟲,需要確定採用什麼策略爬取,爬取到網頁後如何分析。以及最後考慮網頁如何進行更新。這是我理解的他們之間的關係,如果你有什麼更好建議歡迎留言!