1. 程式人生 > >你看到的逆襲,只不過是一場預備很久,草蛇灰線,伏筆千里的反攻

你看到的逆襲,只不過是一場預備很久,草蛇灰線,伏筆千里的反攻

前言

之前對爬蟲也只是知道大概是幹什麼,但是真正如何去做,卻真的沒有接觸過。學習爬蟲技術,我面臨兩大難題,一個就是python語言,一個就是爬蟲框架。這些知識將再以後的博文中涉獵,此篇主要是介紹一個網路爬蟲的知識。

內容

1.學習爬蟲有哪些意義?

  • 學習爬蟲,私人定製一個搜尋引擎,並且可以根據搜尋引擎的資料採集工作原理有更深層次的理解。
  • 大資料時代,要進行資料分析,就需要有資料來源,學習爬蟲,可以獲取更多的資料來源。

2.網路爬蟲有哪幾種分類?

  • 通用網路爬蟲——爬取資源在全網
  • 聚焦網路爬蟲——按照預先設定的主題有選擇的進行爬取
  • 增量式網路爬蟲——在更新的時候只更新改變的地方,而未改變的地方則不更新
  • 深層網路爬蟲

3.爬取網頁有哪些爬蟲策略?

  • 深度優先爬行策略
  • 廣度優先爬行策略
  • 大戰優先爬蟲策略——根據網頁所屬的站點歸類,網站的網頁數量越多,該網站稱為大戰
  • 反鏈策略——反向連結數,指的是網頁被其他網頁指向的次數,這個次數一定程度上代表這該網頁被其他網頁推薦的次數。反鏈次數越多,哪個網頁被優先爬取。
  • 自定義爬行策略

4.網頁更新的策略?

  • 使用者體驗策略
  • 歷史資料策略
  • 聚類分析策略

5.網頁分析演算法?

  • 基於使用者行為的網頁分析演算法
  • 基於網路拓撲的網頁分析演算法
  • 基於網頁內容的網頁分析演算法

總結

上面總計的幾點知識看起來非常的零散,其實他們之間是有關聯的,在爬取網頁的時候,需要確定什麼型別的爬中,是聚焦還是全網爬蟲,需要確定採用什麼策略爬取,爬取到網頁後如何分析。以及最後考慮網頁如何進行更新。這是我理解的他們之間的關係,如果你有什麼更好建議歡迎留言!