1. 程式人生 > >Python爬蟲入門二之爬蟲基礎瞭解

Python爬蟲入門二之爬蟲基礎瞭解

1.什麼是爬蟲

爬蟲,即網路爬蟲,大家可以理解為在網路上爬行的一直蜘蛛,網際網路就比作一張大網,而爬蟲便是在這張網上爬來爬去的蜘蛛咯,如果它遇到資源,那麼它就會抓取下來。想抓取什麼?這個由你來控制它咯。

比如它在抓取一個網頁,在這個網中他發現了一條道路,其實就是指向網頁的超連結,那麼它就可以爬到另一張網上來獲取資料。這樣,整個連在一起的大網對這之蜘蛛來說觸手可及,分分鐘爬下來不是事兒。

2.瀏覽網頁的過程

在使用者瀏覽網頁的過程中,我們可能會看到許多好看的圖片,比如 http://image.baidu.com/ ,我們會看到幾張的圖片以及百度搜索框,這個過程其實就是使用者輸入網址之後,經過DNS伺服器,找到伺服器主機,向伺服器發出一個請求,伺服器經過解析之後,傳送給使用者的瀏覽器 HTML、JS、CSS 等檔案,瀏覽器解析出來,使用者便可以看到形形色色的圖片了。

因此,使用者看到的網頁實質是由 HTML 程式碼構成的,爬蟲爬來的便是這些內容,通過分析和過濾這些 HTML 程式碼,實現對圖片、文字等資源的獲取。

3.URL的含義

URL,即統一資源定位符,也就是我們說的網址,統一資源定位符是對可以從網際網路上得到的資源的位置和訪問方法的一種簡潔的表示,是網際網路上標準資源的地址。網際網路上的每個檔案都有一個唯一的URL,它包含的資訊指出檔案的位置以及瀏覽器應該怎麼處理它。

URL的格式由三部分組成:
①第一部分是協議(或稱為服務方式)。
②第二部分是存有該資源的主機IP地址(有時也包括埠號)。
③第三部分是主機資源的具體地址,如目錄和檔名等。

爬蟲爬取資料時必須要有一個目標的URL才可以獲取資料,因此,它是爬蟲獲取資料的基本依據,準確理解它的含義對爬蟲學習有很大幫助。

4. 環境的配置

學習Python,當然少不了環境的配置,最初我用的是Notepad++,不過發現它的提示功能實在是太弱了,於是,在Windows下我用了PyCharm,在Linux下我用了Eclipse for Python,另外還有幾款比較優秀的IDE,大家可以參考這篇文章 學習Python推薦的IDE 。好的開發工具是前進的推進器,希望大家可以找到適合自己的IDE

下一節,我們就正式步入 Python 爬蟲學習的殿堂了,小夥伴準備好了嘛?

相關推薦

Python爬蟲入門爬蟲基礎瞭解

1.什麼是爬蟲 爬蟲,即網路爬蟲,大家可以理解為在網路上爬行的一直蜘蛛,網際網路就比作一張大網,而爬蟲便是在這張網上爬來爬去的蜘蛛咯,如果它遇到資源,那麼它就會抓取下來。想抓取什麼?這個由你來控制它咯。 比如它在抓取一個網頁,在這個網中他發現了一條道路,其實就是指向網

Python爬蟲入門綜述

復用 智能 實現 進一步 -a web 蜘蛛 urllib 機器 首先爬蟲是什麽? 網絡爬蟲(又被稱為網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動的抓取萬維網信息的程序或者腳本。 根據我的經驗,要學習Python爬蟲,我們要

Python爬蟲入門Urllib庫的基本使用

res 瀏覽器中 必須 答案 文件的 網頁 one .com 屏幕截圖 1.分分鐘扒一個網頁下來 怎樣扒網頁呢?其實就是根據URL來獲取它的網頁信息,雖然我們在瀏覽器中看到的是一幅幅優美的畫面,但是其實是由瀏覽器解釋才呈現出來的,實質它是一段HTML代碼,加 JS、CSS

6.Python爬蟲入門Cookie的使用

expires cookielib spa result hat 即使 card rec 其他 大家好哈,上一節我們研究了一下爬蟲的異常處理問題,那麽接下來我們一起來看一下Cookie的使用。 為什麽要使用Cookie呢? Cookie,指某些網站為了辨別用戶身份、進行se

python爬蟲入門():Requests的使用

雖然Python有內建的urllib庫,可以實現網路的請求,但是我並不推薦。因為urllib在很多時候使用起來不方便,比如加一個代理,處理Cookie時API都很繁瑣,再比如傳送一個POST請求也很麻煩。而Requests就相當於urllib的升級版本,簡

Python爬蟲入門Urllib庫的高階用法

1.設定Headers 有些網站不會同意程式直接用上面的方式進行訪問,如果識別有問題,那麼站點根本不會響應,所以為了完全模擬瀏覽器的工作,我們需要設定一些Headers 的屬性。 首先,開啟我們的瀏覽器,除錯瀏覽器F12,我用的是Chrome,開啟網路監聽,示意如下,

Python爬蟲入門URLError異常處理

大家好,本節在這裡主要說的是URLError還有HTTPError,以及對它們的一些處理。 1.URLError 首先解釋下URLError可能產生的原因: 網路無連線,即本機無法上網連線不到特定的伺服器伺服器不存在 在程式碼中,我們需要用try-except語句來包

Python爬蟲入門Cookie的使用

大家好哈,上一節我們研究了一下爬蟲的異常處理問題,那麼接下來我們一起來看一下Cookie的使用。 為什麼要使用Cookie呢? Cookie,指某些網站為了辨別使用者身份、進行session跟蹤而儲存在使用者本地終端上的資料(通常經過加密) 比如說有

Python爬蟲入門正則表示式

在前面我們已經搞定了怎樣獲取頁面的內容,不過還差一步,這麼多雜亂的程式碼夾雜文字我們怎樣把它提取出來整理呢?下面就開始介紹一個十分強大的工具,正則表示式! 1.瞭解正則表示式 正則表示式是對字串操作的一種邏輯公式,就是用事先定義好的一些特定字元、及這些

python 爬蟲入門() 爬取簡單網頁並儲存到本地

import refrom urllib.request import Request, urlopen#爬蟲基本的三個步驟:1.向頁面傳送請求, 獲取原始碼(都是靜態頁面的程式碼);2, 利用正則匹配資料;3 .儲存到資料庫class DataParserTool(obje

Python BeautifulSoup 爬蟲入門筆記 --- 新聞爬蟲

    BeautifulSoup可以解析html檔案,配合request庫可以簡單快速地爬取一些網頁資訊。     BeautifulSoup 參考資料:     htt

python爬蟲入門一:爬蟲基本原理

1. 什麼是爬蟲 爬蟲就是請求網站並提取資料的自動化程式   2. 爬蟲的基本流程 1)傳送請求 通過HTTP庫向目標站點發送請求,即傳送一個Request。 請求可以包含額外的headers等資訊,等待伺服器相應 2)獲取相應內容 伺服器接到請求後,會返回一個Response,Re

爬蟲入門教程requests,BeautifulSoup庫的介紹以及問題解釋

  HTTP協議 HTTP,超文字傳輸協議(HTTP,HyperText Transfer Protocol)是網際網路上應用最為廣泛的一種網路協議。所有的WWW檔案都必須遵守這個標準。設計HTTP最初的目的是為了提供一種釋出和接收HTML頁面的方法,HTTP是一種基於"請求與響應

Python爬蟲入門——1.1爬蟲原理

1,先介紹一下網路連線的基本原理: (  加亮字型摘自百度百科)         網路連結,即根據統一資源定位符(URL,uniform resource location),運用超文字標記語言(HTML,hyper text markup language),將網站內部網

Python全棧開發Django基礎

比較 查詢 fieldset 域名安全 tex roi six 但是 exp [TOC] No.1 MVC&MTV MVC M全拼為Model,主要封裝對數據庫層的訪問,對數據庫中的數據進行增、刪、改、查操作 V全拼為View,用於封裝結果,生成頁面展示的html內

python+scrapy入門教程爬取騰訊招聘職位資訊

我是用的IDE是pycharm,要想使用scrapy我們先安裝模組file-settings-project Interpreter 安裝完成之後我們開啟Terminal 在終端輸入:scrapy startproject tencent 建立spiders我們需要進入spi

Java 爬蟲專案實戰爬蟲簡介

Java 爬蟲專案實戰之爬蟲簡介 0. 前言 今年三四月份學習Hbase,瞭解到openTSDB的底層儲存使用到了Hbase,於是乎,學習openTSDB,在閱讀openTSDB原始碼【其原始碼使用java編寫】的過程中, 發現裡面全是I/O,多執行緒,httpclient等。

深度學習:Keras入門()卷積神經網路(CNN)

說明:這篇文章需要有一些相關的基礎知識,否則看起來可能比較吃力。 1.卷積與神經元          1.1 什麼是卷積?          簡單來說,卷積(或內積)就是一種先把對應位置相乘然後再把結果相加的運算。(具體含義或者數學公式可以查閱相關資料)      

Django入門models操作試驗

第一部分: 1.使用 manage.py 工具載入我們的專案來啟動 Python shell : (env) D:\Development\myproject\myproject>python manage.py shell Python 3.6.4 (v3.6.4

Python小白學習路——基礎語法

上手擼程式碼之前,我們首先要了解python的基本語法,防止以後出現一些不必要的錯誤。 關於開發工具的選擇,推薦使用Anaconda 和 Pycharm,尤其是Anaconda中的丘位元筆記本最適合新手練習用了。 =======================