Python--開發簡單爬蟲

阿新 • • 發佈：2018-06-04

運行流程服務器技術分享 spa HR tom ID 下載 The

簡單爬蟲架構

技術分享圖片

動態運行流程

技術分享圖片

URL管理器的作用

技術分享圖片

URL管理器的3種實現方式

技術分享圖片

網頁下載器的作用

技術分享圖片

Python網頁下載器的種類

技術分享圖片

urllib2下載網頁的3種方法

技術分享圖片

網頁解析器的作用

技術分享圖片

Python的幾種網頁解析器

技術分享圖片

結構化解析依賴DOM樹

技術分享圖片

Beautiful Soup語法

技術分享圖片

代碼舉例：

1.創建Beautiful Soup對象

1 from bs4 import BeautifulSoup
2 
3 soup = BeautifulSoup(
4     html_doc,               #HTML文檔字符串
5     ‘heml.parser‘,          # 
HTML解析器
6     from_encoding=‘utf-8‘   #HTML文檔的編碼
7 )

2.find_all find方法的使用

技術分享圖片

3.訪問節點信息

技術分享圖片

4.Beautiful Soup處理html文檔舉例

 1 from bs4 import BeautifulSoup
 2 import re
 3 
 4 html_doc = """
 5 <html><head><title>The Dormouse‘s story</title></head>
 6 <body>
 7 <p class="title"><b>The Dormouse‘s story</b></p>
 
 8 
 9 <p class="story">Once upon a time there were three little sisters; and their names were
10 <a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
11 <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
12 <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
 
13 and they lived at the bottom of a well.</p>
14 
15 <p class="story">...</p>
16 """
17 
18 soup = BeautifulSoup(
19     html_doc,               #HTML文檔字符串
20     ‘html.parser‘,          #HTML解析器
21     from_encoding=‘utf-8‘   #HTML文檔的編碼
22 )
23 
24 print(‘獲取所有的連接‘)
25 links = soup.find_all(‘a‘)
26 for link in links:
27     print(link.name,link[‘href‘],link.get_text())
28 
29 print(‘獲取tillie的連接‘)
30 link_node = soup.find(‘a‘,href=‘http://example.com/tillie‘)
31 print(link_node.name,link_node[‘href‘],link_node.get_text())
32 
33 print(‘正則表達式匹配‘)
34 link_node2 = soup.find(‘a‘,href=re.compile(r‘lsi‘))
35 print(link_node2.name,link_node2[‘href‘],link_node2.get_text())
36 
37 print(‘獲取P段落文字‘)
38 p_node = soup.find(‘p‘,class_=‘title‘)
39 print(p_node.name,p_node.get_text())

控制臺輸出：

 1 獲取所有的連接
 2 a http://example.com/elsie Elsie
 3 a http://example.com/lacie Lacie
 4 a http://example.com/tillie Tillie
 5 獲取tillie的連接
 6 a http://example.com/tillie Tillie
 7 正則表達式匹配
 8 a http://example.com/elsie Elsie
 9 獲取P段落文字
10 p The Dormouse‘s story

更高級的爬蟲還會涉及到“需登陸、驗證碼、Ajax、服務器防爬蟲、多線程、分布式”等情況

技術分享圖片

Python--開發簡單爬蟲

Python開發簡單爬蟲（二）---爬取百度百科頁面數據

class 實例實例代碼編碼 mat 分享 aik logs title 一、開發爬蟲的步驟 1.確定目標抓取策略：打開目標頁面，通過右鍵審查元素確定網頁的url格式、數據格式、和網頁編碼形式。 ①先看url的格式, F12觀察一下鏈接的形式;② 再看目標文本信息的

Python開發簡單爬蟲之靜態網頁抓取篇：爬取“豆瓣電影 Top 250”電影數據

模塊歲月 python開發 IE 女人 bubuko status 公司使用目標：爬取豆瓣電影TOP250的所有電影名稱，網址為：https://movie.douban.com/top250 1）確定目標網站的請求頭：打開目標網站，在網頁空白處點擊鼠標右鍵，

Python--開發簡單爬蟲

運行流程服務器技術分享 spa HR tom ID 下載 The 簡單爬蟲架構動態運行流程 URL管理器的作用 URL管理器的3種實現方式網頁下載器的作用 Python網頁下載器的種類 urllib2下載網頁的3種方法網頁解析器的作用 Pyt

Python開發簡單爬蟲

爬蟲是什麼？爬蟲：一段自動抓取網際網路資訊的程式可以從URL出發，爬取所感興趣的所有資訊，並提取資料爬蟲的價值網際網路資料為我所用簡單爬蟲架構 –>爬蟲排程端（啟動爬蟲） –>URL管理器（網頁解析

python實現簡單爬蟲功能

我們目錄 size .com all 本地文件使用 url alt 　在我們日常上網瀏覽網頁的時候，經常會看到一些好看的圖片，我們就希望把這些圖片保存下載，或者用戶用來做桌面壁紙，或者用來做設計的素材。　　我們最常規的做法就是通過鼠標右鍵，選擇另存為。但有些圖片鼠標右

Python實現簡單爬蟲功能--批量下載百度貼吧裡的圖片

在上網瀏覽網頁的時候，經常會看到一些好看的圖片，我們就希望把這些圖片儲存下載，或者使用者用來做桌面桌布，或者用來做設計的素材。　　我們最常規的做法就是通過滑鼠右鍵，選擇另存為。但有些圖片滑鼠右鍵的時候並沒有另存為選項，還有辦法就通過就是通過截圖工具擷取下來，但這樣就降低圖片的清晰度

Python編寫簡單爬蟲之新手入門（一）

最近學習了一下python的基礎知識，大家一般對“爬蟲”這個詞，一聽就比較熟悉，都知道是爬一些網站上的資料，然後做一些操作整理，得到人們想要的資料，但是怎麼寫一個爬蟲程式程式碼呢？相信很多人是不會的，今天寫一個針對新手入門想要學習爬蟲的文章，希望對想要學習的你能有所幫助~~廢

爬蟲基礎20%知識，開發簡單爬蟲

1.輕量級爬蟲，不需要登入、頁面不會使用Ajax非同步載入方法，只是簡單的靜態頁面。 2.爬蟲排程端——>URL管理器——>網頁下載器——>頁面解析器——>有效資料 3.URL管理器實現方式：記憶體、關係資料庫SQL 、快取資料庫Redis。 4.頁面下載器：使用ur

python之簡單爬蟲（爬取豆瓣出版社）

ok，開始我們的實驗 1.開啟瀏覽器，輸入網址，右擊網頁，檢視網頁原始碼，這裡我用的是谷歌瀏覽器 2.看上圖我們發現許多出版社名稱，接下來我們查詢一個出版社名稱，例如重慶大學觀察下圖我們發現它們都在一個div標籤內，且class=”name” ,

python搭建簡單爬蟲框架，爬取獵聘網的招聘職位資訊

該專案將主要有五個部分負責完成爬取任務，分別是：URL管理器，HTML下載器，HTML解析器，資料儲存器，爬蟲排程器。具體程式碼如下： URL管理器： import hashlib import pickle import time class UrlManag

Python開發基礎-Day15正則表達式爬蟲應用，configparser模塊和subprocess模塊

表達 port 進行 false popen ext signal -- 默認正則表達式爬蟲應用（校花網） 1 import requests 2 import re 3 import json 4 #定義函數返回網頁的字符串信息 5 def getPage_

python實現簡單圖片爬蟲並保存

.com 貪婪模式 web頁面 logs urn 並不是 python 保存 light 先po代碼 #coding=utf-8 import urllib.request #3之前的版本直接用urllib即可，下同 #該模塊提供了web頁面讀取數據的接口，使得我們可以

Python之Scrapy爬蟲框架安裝及簡單使用

intern 原理 seda api release linux發行版 3.5 pic www 題記：早已聽聞python爬蟲框架的大名。近些天學習了下其中的Scrapy爬蟲框架，將自己理解的跟大家分享。有表述不當之處，望大神們斧正。一、初窺Scrapy Scrapy是

python開發mysql:表關系&單表簡單查詢

for 查詢 comment modify tween upd price odi nbsp 一一對多，多對一 1 1.1 建立多對一，一對多的關系需要註意 2 先建立被關聯的表，被關聯的字段必須保證時唯一的 3 在創建關聯的表，關聯的字

Python學習 —— 實現簡單爬蟲

發現 guid openssl 取圖 lib 列表了解菜鳥頁面數據　　為了加快學習python3.x於是直接看了許多有實際操作的小項目，查了許多資料後寫了這個腳本，這個腳本主要是爬取百度圖片‘東方幻想鄉‘的圖片，但發現有幾個問題：　　　　1.圖片會重復兩次。

python 簡單爬蟲

.... ror gbk 訪問 req 爬取 exc .cn 所有使用urllib.request 和re 模塊 1 from urllib.request import * 2 import re #處理網絡訪問 3 #獲取網頁 4 url = ‘https:/

Python開發爬蟲之BeautifulSoup解析網頁篇：爬取安居客網站上北京二手房數據

澳洲 pytho 目標 www. 委托 user info .get web 目標：爬取安居客網站上前10頁北京二手房的數據，包括二手房源的名稱、價格、幾室幾廳、大小、建造年份、聯系人、地址、標簽等。網址為：https://beijing.anjuke.com/sale/

使用簡單的python語句編寫爬蟲定時拿取信息並存入txt

item line 簡單 ror article 5.5 quest win tail # -*- coding: utf-8 -*- #解決編碼問題import urllibimport urllib2import reimport osimport timepag

使用Python開發一個超級簡單的接水果小遊戲，零基礎也可以學會

python 遊戲有趣零基礎編程 Pylash項目地址創建項目這樣的話我們的項目就創建好了，然後只用往Main.py裏填寫代碼運行即可。編寫Hello World小程序編寫遊戲有以上對pylash的小小了解，我們接下來可以開始編寫遊戲了。首先我們把第四行以後所有代碼刪除。引入所需全局

python簡單爬蟲筆記

wow write file except .com 下載 app sina retrieve python模擬遊覽器爬取相關頁面 import urllib.request url="http://blog.51cto.com/itstyle/2146899" #模擬

Python--開發簡單爬蟲

相關推薦