python 簡單的爬蟲

阿新 • • 發佈：2018-11-30

import urllib.request
import re
import ssl  # 處理https請求
import time
import os  # 建立目錄用


def get_html(url):
    page = urllib.request.urlopen(url)
    html = page.read()  # 返回的是 <class 'bytes'> 需要轉碼為字串型別
    html = html.decode('utf-8')  # 返回的是 <class 'str'>
    return html


reg = 'src="(.+?\.jpg)" width 
'  # 正則表示式
reg_img = re.compile(reg)  # 編譯一下，執行更快
ssl._create_default_https_context = ssl._create_unverified_context  # 因為爬蟲物件是https連結，匯入一個ssl模組就可以解決問題
imglist = reg_img.findall(get_html('http://tieba.baidu.com/p/1753935195'))  # 進行匹配


def mkdir(path):
    # 去除首位空格
    path = path.strip()
    # 去除尾部 \ 符號 

    path = path.rstrip("\\")

    # 判斷路徑是否存在
    # 存在     True
    # 不存在   False
    isExists = os.path.exists(path)

    # 判斷結果
    if not isExists:
        # 如果不存在則建立目錄
        # 建立目錄操作函式
        os.makedirs(path)
        print(path + ' 建立成功')
        return True
    else:
        # 如果目錄存在則不建立，並提示目錄已存在 

        print(path + ' 目錄已存在')
        return False


# 定義要建立的目錄
mkpath = "picture"
# 呼叫函式
picture = mkdir(mkpath)

x = 0
for img in imglist:
    urllib.request.urlretrieve(img, mkpath+'/%s.jpg' % time.time())
    x += 1

print("圖片下載完成")

python 簡單爬蟲

.... ror gbk 訪問 req 爬取 exc .cn 所有使用urllib.request 和re 模塊 1 from urllib.request import * 2 import re #處理網絡訪問 3 #獲取網頁 4 url = ‘https:/

python簡單爬蟲筆記

wow write file except .com 下載 app sina retrieve python模擬遊覽器爬取相關頁面 import urllib.request url="http://blog.51cto.com/itstyle/2146899" #模擬

python簡單爬蟲

url get out res except urlopen 5.0 html_ lse from urllib import request,parse from urllib.error import HTTPError,URLError def get(url,he

python:簡單爬蟲示例，含分析文件，建庫，程式程式碼

環境：ubantu18.04，mysql5.7，python3.6 1.分析文件 1.1 目標爬取笑話集-最新兒童笑話大全前三頁的笑話題目，訪問量，發表時間 1.2 URL 第一頁：www.jokeji.cn/list7_1.htm 第三頁：www.jokej

python簡單爬蟲程式碼示例2

目標網站：view-source:http://www.weather.com.cn/weather/101270101.shtml 程式碼： from urllib.request import urlopen from bs4 import Beautifu

【Python簡單爬蟲設計】對豆瓣TOP100的電影名及簡要的爬取

1.使用Designer建立圖形介面（詳細操作見往期部落格點選開啟連結）對UI控制元件的繫結程式碼片段def __init__(self): QtGui.QMainWindow.__init__(self) pachong.Ui_MainWindow.__in

Python簡單爬蟲專案

專案搭建過程一、新建python專案在對應的地址中開啟 cmd 輸入：scrapy startproject first 2、在pyCharm 中開啟新建立的專案，建立spider 爬蟲核心檔案ts.py import scrapy from firs

python簡單爬蟲：爬取並統計自己部落格頁面的資訊（一）

1. 什麼是爬蟲也叫網路爬蟲，簡單來說，爬蟲就是從一個根網站出發，根據某種規則獲得更多的相關網站的url，自動下載這些網頁並自動解析這些網頁的內容，從中獲取需要的資料。例如爬取某種圖片、某類文字資訊等。爬蟲還可以用於編纂搜尋引擎的網路索引。爬蟲所涉及的知

Python簡單爬蟲例項

前剛接觸python，看了一下基本語法，照著網上的一篇部落格寫了個很簡單的爬蟲小demo，有興趣的可以看下實現，將一個網頁中的所有jpg圖片，及網頁中所有.html格式的跳轉連結中的jpg檔案取出來儲存到本地主要用到一個urllib庫，使用很簡單，用於讀

python簡單爬蟲多執行緒爬取京東淘寶資訊教程

1,需要準備的工作，電腦已經安裝好python，如果沒裝，可以執行去https://www.python.org/官網下載，初學者可以安裝輕量級的wingide python開發工具，python安裝成功後配置好環境變數，在dos環境使用pip install 模組將需要用

python簡單爬蟲練習

開始學爬蟲了，記錄一下這兩天的瞎鼓搗抓取一個網頁先從最簡單的來，指定一個url，把整個網頁程式碼抓下來，這裡就拿csdn的主頁實驗 # -*- coding: UTF-8 -*- from urllib import request url = 'h

幾個python簡單爬蟲例項

# coding=utf-8 import requests import re header = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.11; rv:47.0) Gec

python簡單爬蟲程式碼，python入門

python爬取慕課網首頁課程標題與內容介紹效果圖：思路：獲取頁面內容存入html –> 利用正則表示式獲取所有課程塊的div盒子存入everydiv –> 在每個課程

Python簡單爬蟲爬取多頁圖片

初學爬蟲簡單的爬了爬貼吧圖片 #!/usr/bin/python # coding utf-8 import re import time import urllib def getHtml():

#python python簡單爬蟲示例——爬取自己的所有部落格，並將所有的部落格匯出到一個網頁

#python python簡單爬蟲示例——爬取自己的所有部落格，並將所有的部落格匯出到一個網頁學習本文需要先準備的知識點：python基本語法 1.前期準備（知識點講解） (1)、urllib.request庫——開啟url的可擴充套件庫 urll

【一】，python簡單爬蟲實現

cli 正則表達式 doctype cve 中一則表達式正則表達分享圖片 mage 1.獲取當前頁的課程名稱，地址：https://www.ichunqiu.com/courses/webaq 2.選區其中一門課程名稱查看源代碼：代碼如下： &l

Python簡單網頁爬蟲

tab write open python2.x row browser mod err urlopen 由於Python2.x與Python3.x存在很的差異，Python2.x調用urllib用指令urllib.urlopen（），運行時報錯：AttributeErr

Python開發簡單爬蟲（二）---爬取百度百科頁面數據

class 實例實例代碼編碼 mat 分享 aik logs title 一、開發爬蟲的步驟 1.確定目標抓取策略：打開目標頁面，通過右鍵審查元素確定網頁的url格式、數據格式、和網頁編碼形式。 ①先看url的格式, F12觀察一下鏈接的形式;② 再看目標文本信息的

python實現簡單爬蟲功能

我們目錄 size .com all 本地文件使用 url alt 　在我們日常上網瀏覽網頁的時候，經常會看到一些好看的圖片，我們就希望把這些圖片保存下載，或者用戶用來做桌面壁紙，或者用來做設計的素材。　　我們最常規的做法就是通過鼠標右鍵，選擇另存為。但有些圖片鼠標右

Python簡單的爬蟲

tex spa html -a per com odin 6.0 n) Python3 的requests的requests 庫 1 安裝：　　在配好python的基礎上，在dos命令框中，使用 pip install requests 就行了 2 演示：　　pyth

python 簡單的爬蟲

相關推薦