Python爬蟲系列之郵編區號爬取

阿新 • • 發佈：2018-11-11

Python爬蟲之<—>全國郵編區號爬取

僅供交流探討
歡迎提出改進

程式碼部分

import re
import requests
import time
import MySQLdb
'''
	@author:王磊
	@time  :2018/11/8 21:15:05
'''

cursor = MySQLdb.connect(user='root', password='root', database='python', charset='utf8').cursor()


def getHTML(url):
    '''通過url獲取html' 
''
    res = requests.get(url)
    return res.content.decode(res.apparent_encoding, 'ignore')

def getPrivince(html):
    req1 = re.compile(r'<td><a href="(.*?)" target="_blank">.*?</a></td>')
    res = re.findall(req1, html)
    nowIndex = 0
    for res0 in res:
        if 'http' 
 in res0:
            res.pop(nowIndex)
        else:
            res[nowIndex] = "http://www.ip138.com" + res0
            nowIndex += 1
    return res[0:-2]


def getCity(html):
    req1 = re.compile(r'<tr bgcolor="#ffffff"><td><a href=".*?"><b>(.*?)</a></b></td><td><a href=".*?">(.*?)</a></td><td><a href=".*?">(.*?)</a></td>' 
)
    citys = re.findall(req1, html)
    req2 = re.compile(r'<td>(.*?)</td><td><a href=".*?">(.*?)</a></td><td><a href=".*?">(.*?)</a></td>')
    req3 = re.compile(r'<td>([^<a|^&nbsp;].*?)</td><td><a href=".*?">(.*?)</a></td><td><a href=".*?">(.*?)</a></td>')
    if citys:
        '''省區帶市區部分'''
        area = re.findall(req3, html)
        if area:
            '''區存在'''
            return citys + area
        else:
            return citys
    else:
        '''直轄部分，只有區'''
        citys = re.findall(req2, html)
        return citys


def run():
    urlIndex = 'http://www.ip138.com/post/'
    indexHtml = getHTML(urlIndex)
    provinceUrls = getPrivince(indexHtml)
    with open('c:/Users/asus/Desktop/pc/text/zipCode.txt', 'a') as f:
        for provinceUrl in provinceUrls:
            provinceHtml = getHTML(provinceUrl)
            citys = getCity(provinceHtml)
            for city in citys:
                try:
                    wStr = "地區：%s ,郵編：%s ,區號：%s \r\n" % city
                    f.write(wStr)
                    cursor.execute("insert city_zip_code values('%s', '%s', '%s')" % city)
                except Exception as e:
                    pass
            time.sleep(2)


if __name__ == '__main__':
    run()

☞點選這裡與我探討☚

♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪
♪♪後續會更新系列基於Python的爬蟲小例子，歡迎關注。♪♪
♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪

Python爬蟲系列之郵編區號爬取

Python爬蟲之<—>全國郵編區號爬取僅供交流探討歡迎提出改進程式碼部分 import re import requests import time import MySQLdb ''' @author:王磊 @time :201

python爬蟲系列(3.7-使用 bs4 爬取獲取貴州農產品)

一、爬取資料步驟 1、爬取網站地址 2、實現程式碼 import requests from bs4 import BeautifulSoup class Food(object): def __init__(self): &nb

Python爬蟲系列之小說網爬取

今日爬蟲—小說網再次宣告所有爬蟲僅僅為技術交流，沒有任何惡意，若有侵權請☞私信☚ 此次爬取由主頁爬取到各本小說地址，然後通過這些地址獲取到小說目錄結構，在通過目錄結構獲取章節內容，同時以小說名字為資料夾，每一個章節為txt文字儲存到本地。話不多說，直接上程式碼

Python爬蟲系列之百度貼吧爬取

今天給的一個爬蟲小事例，貼吧段子爬取這樣一個小功能，資料呢僅僅娛樂，沒有惡意想法若有侵權，請私信刪除此次用到的一個解析庫Beautiful Soup，更輕量簡單地對資料進行解析，已獲得目標資料貼吧做的還是比較好，有一定的反爬機制，所以我們也應該有一定的應對措施

Python爬蟲系列之四：利用Python爬取PyODPS頁面並整合成PDF文件

文章架構開發場景在日常開發過程中，經常需要參考一些文件。對於線上文件，往往由於網速等原因，用起來總不是那麼（ma）順（fan）心。開發工具 Anaconda Python 2 實現方案基於 bs4 模組標籤解析爬取

python爬蟲系列之爬取百度文庫（一）

一、什麼是selenium 在爬取百度文庫的過程中，我們需要使用到一個工具selenium（瀏覽器自動測試框架），selenium是一個用於web應用程式測試的工具，它可以測試直接執行在瀏覽器中，就像我們平時用瀏覽器上網一樣，支援IE(7，8，9，10，11),firefo

Python爬蟲系列之微信小程式實戰

Python爬蟲系列之微信小程式實戰基於Scrapy爬蟲框架實現對微信小程式資料的爬取首先，你得需要安裝抓包工具，這裡推薦使用Charles，至於怎麼使用後期有時間我會出一個事例最重要的步驟之一就是分析介面，理清楚每一個介面功能，然後連線起來形成介面串思路,再通

Python爬蟲系列之----Scrapy

一、環境 Windows10 64位 Python3.6.1 64位二、安裝Python3.x 點選進行安裝選擇新增到環境變數中去下一步點選安裝安裝成功測試是否安

Python爬蟲系列之----Scrapy(一)爬蟲原理

一、Scrapy簡介 Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架。可以應用在包括資料探勘，資訊處理或儲存歷史資料等一系列的程式中。 Scrapy 使用 Twisted這個

7-13爬蟲入門之BeautifulSoup對網頁爬取內容的解析

obj logs utf 進行 pan 審查 pri 全球網頁爬取通過beautifulsoup對json爬取的文件進行元素審查，獲取是否含有p標簽 # -*- coding:utf-8 -*- from lxml import html import request

Python爬蟲實例（一）爬取百度貼吧帖子中的圖片

選擇圖片查看負責 targe mpat wid agent html headers 程序功能說明：爬取百度貼吧帖子中的圖片，用戶輸入貼吧名稱和要爬取的起始和終止頁數即可進行爬取。思路分析：一、指定貼吧url的獲取例如我們進入秦時明月吧，提取並分析其有效url如下

Python 爬蟲實例（7）—— 爬取新浪軍事新聞

secure host agen cat hand .com cati ica sts 我們打開新浪新聞，看到頁面如下，首先去爬取一級 url，圖片中藍色圓圈部分第二zh張圖片，顯示需要分頁，

python 爬蟲（一） requests+BeautifulSoup 爬取簡單網頁代碼示例

utf-8 bs4 rom 文章都是 Coding man header 文本以前搞偷偷摸摸的事，不對，是搞爬蟲都是用urllib，不過真的是很麻煩，下面就使用requests + BeautifulSoup 爬爬簡單的網頁。詳細介紹都在代碼中註釋了，大家可以參閱。

Python爬蟲基礎：驗證碼的爬取和識別詳解

今天要給大家介紹的是驗證碼的爬取和識別，不過只涉及到最簡單的圖形驗證碼，也是現在比較常見的一種型別。執行平臺：Windows Python版本：Python3.6 IDE: Sublime Text 其他：Chrome瀏覽器簡述流程：步驟1：簡單介紹驗證碼步驟2：

python爬蟲學習筆記三：圖片爬取

圖片爬取的程式碼 r.content 檔案的二進位制格式 Python引入了with語句來自動幫我們呼叫close()方法： open(path, ‘-模式-‘,encoding=’UTF-8’) w：以寫方式開啟， a：以追加模式開啟 (從 EOF 開始, 必要時建

Python爬蟲實習筆記 | Week4 專案資料爬取與反思

2018/11/05 1.所思所想：今天我把Python爬蟲實戰這本書Chapter6看完，很有感觸的一點是，書本中對爬蟲實現的模組化設計很給我靈感，讓我對專案中比較無語的函式拼接有了解決之道，內省還是比較興奮。此外，在吃飯問題上需要認真思考下，是否應注意合理的膳食，是否應對要吃的進行好好考究。下

Python爬蟲——代理伺服器進行資訊的爬取

利用代理伺服器進行資訊的爬取以防止自己的IP的被伺服器封 def function1(url,IP):#url IP """代理伺服器進行資訊的爬取以防止自己的IP的被伺服器封""" proxy=urllib.request.ProxyHandler({"http":IP}

python 爬蟲如何通過scrapy框架簡單爬取網站資訊--以51job為例

Scrapy框架三大優點： Scrapy框架是用純Python實現一個為了爬取網站資料、提取結構性資料而編寫的應用框架，用途非常廣泛。框架的力量，使用者只需要定製開發幾個模組就可以輕鬆的實現一個爬蟲，用來抓取網頁內容以及各種圖片，非常之方便。 Scrapy

python爬蟲總結: 網頁內容需要分類爬取

自學爬蟲中........... 有個在一爬蟲公司上班的朋友,今天和他聊了一會,給了我一個小專案,在這裡給大家分享一下專案需求: 在一個政府網站上爬取該市的環境處理公告分類爬取受理, 審批, 批覆頁面的表格內容以及釋出時間 2.要是用代理i

Python爬蟲練手小專案：爬取窮遊網酒店資訊

Python爬蟲練手小專案：爬取窮遊網酒店資訊 Python學習資料或者需要程式碼、視訊加Python學習群：960410445 前言對於初學者而言，案例主要的是為了讓大家練手，明白其中如何這樣寫的思路，而不是拿著程式碼執行就完事了。基本環境配置系統

Python爬蟲系列之郵編區號爬取

Python爬蟲之<—>全國郵編區號爬取

程式碼部分

相關推薦