Python爬取手機號碼前7位號段歸屬地及運營商

阿新 • • 發佈：2018-11-08

最近剛好因為工作需要，邊學邊實踐了爬取手機號碼前7位號段歸屬地及運營商，感覺還是挺有用，特地拿來分享一下。

我爬取的網址是：http://www.ip138.com:8080/search.asp?mobile=
介面是這樣的
在這裡插入圖片描述

我發現輸入一個號段查詢之後的網址是這樣：http://www.ip138.com:8080/search.asp?mobile=1772798&action=mobile
就是http://www.ip138.com:8080/search.asp?mobile=+號段+&action=mobile
查詢結果如下
在這裡插入圖片描述
下面就開始寫爬蟲程式碼啦！

1.引用一些需要的包，如果沒安裝的要先pip install一下這些包哦；

# -*- coding: utf-8 -*-
import re
import bs4
import urllib.request  
from bs4 import BeautifulSoup 
import urllib.parse
import sys
import time
import socket
import os

2.建立一個要儲存爬蟲結果的檔案；

#進入工作目錄
os.chdir('C:\\Users\\Administrator\Desktop')
os.getcwd()
file=open(r"號段結果.txt",'w')

3.開啟你要查詢的號段文件；

f = open(r"查詢號段.txt")

4.設定超過時間；

socket.setdefaulttimeout(30)

5.防止反爬蟲，構造合理的HTTP請求頭；這個是根據每個人的瀏覽器不同設定的，可以檢視自己的瀏覽器。開啟瀏覽器，按F12，選取Network，按F5重新整理一下，點開Name下面隨便一個文件就可以看到User-Agent。
在這裡插入圖片描述

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36" 
}

6.按行讀取查詢文件內容；

search_item = f.readline()
	#如果讀取完了就退出
    if not search_item:
        print("Finished")
        break

7.抓取網頁資訊；

url = 'http://www.ip138.com:8080/search.asp?mobile='+urllib.parse.quote(search_item)+'&action=mobile'
#print(url)
#用來抓取網頁的html原始碼
html = urllib.request.urlopen(url)  
html.encoding = 'gb2312'
#用來代替正則式取原始碼中相應標籤中的內容
soup = BeautifulSoup(html, "lxml")

8.檢視要爬取結果的位置；
在這裡插入圖片描述

res = soup.find('tr',bgcolor="#EFF1F3")
res1=res.next_sibling.next_sibling.find('td',class_="tdc2").get_text()
res1=res1.strip()
if len(res1)==0:
    province=''
    city=''
else:
     res1=res.next_sibling.next_sibling.find('td',class_="tdc2").get_text()
     province=res1.split()[0]
     if len(res1.split())==1:
         city = res1.split()[0]+'市'
     else :
         city = res1.split()[1]
type1=res.next_sibling.next_sibling.next_sibling.next_sibling.find('td',class_="tdc2").get_text()

這裡有兩個if，第一個if是如果查詢的號段歸屬地是空的就賦予空值，第二個if是要將省市拆成兩個欄位，而如果出現像北京這種沒有省的話就會報錯，所以就設定省和市都是北京。

9.整合結果；

file.write("{},{},{},{}".format(province, city, type1,search_item))
print("search result:","{},{},{},{}".format(province, city, type1,search_item))

10.防止訪問過於頻繁被阻止，要關閉網頁，並設定休眠時間；

html.close()
time.sleep(15)

11.記得關閉檔案。

f.close()
file.close()

最後附上完整程式碼

# -*- coding: utf-8 -*-
import re
import bs4
import urllib.request  
from bs4 import BeautifulSoup 
import urllib.parse
import sys
import time
import socket
import os

#先建立一個儲存爬蟲結果的檔案
#進入工作目錄
os.chdir('C:\\Users\\Administrator\Desktop')
os.getcwd()
file=open(r"號段結果.txt",'w')
#開啟你要查詢的號段文件
f = open(r"查詢號段.txt")
#設定超時時間
socket.setdefaulttimeout(30)
#防止反爬蟲，構造合理的HTTP請求頭
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"}
while True:
    #按行讀取文件
    search_item = f.readline()
	#如果讀取完了就退出
    if not search_item:
        print("Finished")
        break
    #print (search_item)
    while True:
        try:
            url = 'http://www.ip138.com:8080/search.asp?mobile='+urllib.parse.quote(search_item)+'&action=mobile'
            #print(url)
			#用來抓取網頁的html原始碼
            html = urllib.request.urlopen(url)  
            html.encoding = 'gb2312'
			#用來代替正則式取原始碼中相應標籤中的內容
            soup = BeautifulSoup(html, "lxml")  
            res = soup.find('tr',bgcolor="#EFF1F3")
            res1=res.next_sibling.next_sibling.find('td',class_="tdc2").get_text()
            res1=res1.strip()
            if len(res1)==0:
                province=''
                city=''
            else:
                res1=res.next_sibling.next_sibling.find('td',class_="tdc2").get_text()
                province=res1.split()[0]
                if len(res1.split())==1:
                    city = res1.split()[0]+'市'
                else :
                    city = res1.split()[1]
            type1 =res.next_sibling.next_sibling.next_sibling.next_sibling.find('td',class_="tdc2").get_text()
            file.write("{},{},{},{}".format(province, city, type1,search_item))
            print("search result:","{},{},{},{}".format(province, city, type1,search_item))
            html.close()
            break
        except :
            print("Failed!Please wait!")
            time.sleep(15)
f.close()
file.close()

爬取的結果
在這裡插入圖片描述
第一次寫部落格，主要是為了記錄自己第一次成功爬蟲，也是為了分享給有需要的人，可能有些理解有錯誤的地方，請大家批評指正，謝謝！

Python爬取手機號碼前7位號段歸屬地及運營商

最近剛好因為工作需要，邊學邊實踐了爬取手機號碼前7位號段歸屬地及運營商，感覺還是挺有用，特地拿來分享一下。我爬取的網址是：http://www.ip138.com:8080/search.asp?mobile= 介面是這樣的我發現輸入一個號段查詢之後的網址是這樣：http://

呼叫第三方API ，實現手機號碼歸屬地及運營商查詢

執行結果：中國電信西雙版納西雙版納,中國電信程式碼： import java.io.BufferedReader; import java.io.InputStream; import java.io.InputStreamReader; import ja

用Python爬取手機APP

本文轉自：https://mp.weixin.qq.com/s?__biz=MzAxMjUyNDQ5OA==&mid=2653558162&idx=1&sn=73ae2ee5d2453773bceec078e39ca0ed&chksm=806e3b2fb71

MySql 根據手機號碼前三位和後四位查詢

MySql ------------------------------------------------------------- select iphone from likeiphone where iphone LIKE '150%%38395' ---------

Python爬取手機APP上面的資料

前言在我們在爬取手機APP上面的資料的時候，都會藉助Fidder來爬取。今天就教大家如何爬取手機APP上面的資料。環境配置 1、Fidder的安裝和配置下載Fidder軟體地址：https://www.telerik.com/download/fiddler 然

Python爬取手機APP

之前寫了一個自動簽到的指令碼，我姐本來讓我給她寫一個手機app自動簽到的指令碼的，後來發現自己不會爬手機app，現在抽時間找了教程，看完教程後來爬一下手機app試一試。在爬手機app時先要安裝的的軟體是Fiddler : 下載地址: https://pan.baidu.co

使用scrapy爬取手機版鬥魚主播的房間圖片及昵稱

發現對手 std pipeline obj ted += 指定 foo 目的：通過fiddler在電腦上對手機版鬥魚主播進行抓包，爬取所有主播的昵稱和圖片鏈接關於使用fiddler抓取手機包的設置：把手機和裝有fiddler的電腦處在同一個網段（同一個wifi），手機

python 爬取豆瓣電影評論，並進行詞雲展示及出現的問題解決辦法

本文旨在提供爬取豆瓣電影《我不是藥神》評論和詞雲展示的程式碼樣例 1、分析URL 2、爬取前10頁評論 3、進行詞雲展示 1、分析URL 我不是藥神短評第一頁url https://movie.douban.com/subject/26752088/comments?start=0&limit=2

python 爬取京東手機圖

跳過 close 高手 cnblogs port cep findall pen 得到初學urllib，高手勿噴... import re import urllib.request #函數：每一頁抓取的30張圖片 def craw(url,page): ima

我的第一個python爬蟲：爬取豆瓣top250前100部電影

爬取豆瓣top250前100部電影 1 # -*-coding=UTF-8 -*- 2 3 import requests 4 from bs4 import BeautifulSoup 5 6 headers = {'User-Agent':'Moz

python 爬取新浪網站 NBA球員最近2個賽季庫裡前20場資料

1. 分析新浪網站中球員資料的獲取方式(F12 開發者模式，除錯網頁)：一般網站儲存資料的方式分為2種：1. 靜態網頁儲存；2. 動態請求；對於靜態網頁儲存來說，就是開啟瀏覽器中檢視原始碼，就可以從原始碼中獲取所需要的資料；對於動態請求來說，採用F12的開發者模式中，才能從伺服器的

python爬取彩票網站開獎號碼

一直以來對python特別感興趣，但卻沒有一個目標去好好學習這門語言。昨天突然有個想法，老爸喜歡買七星彩，為何不抓取每一期的開獎號碼，通過郵件推送給他呢。這樣他既能第一時間知道開獎號碼了。然後就動手開幹，但是為什麼選擇python，其實用php我寫得更快一些

python爬取淘寶華為手機

import re from selenium import webdriver from selenium.common.exceptions import TimeoutException from selenium.webdriver.common.by impor

python爬取網頁包含動態js資訊（3.7 +，2.7+）

post_param = {'action': '', 'start': '0', 'limit': '1'} return_data =

python爬取百度新聞所有的新聞的前1頁標題和URL地址

這是我自己寫的一個爬取百度新聞的一個程式碼，歡迎大家多來討論，謝謝！(自己已經測試可以使用，在文章最後見效果圖) ''' re模板：2.2.1 requests模板：2.18.4 bs4模板：4.

Python爬取豆瓣高分電影前250名

score work format 表頭 amp apple 演員 dir 日期 import requests import pymysql import time import re import xlwt from lxml import etree headers

python爬取網易雲音樂歌單音樂

string attrs default textarea bsp color read contents dom 在網易雲音樂中第一頁歌單的url：http://music.163.com/#/discover/playlist/ 依次第二頁：http://music.1

python 爬取qidian某一頁全部小說

decode return data- dib read etc break beautiful range 1 import re 2 import urllib.request 3 from bs4 import BeautifulSou

Python爬取今日頭條段子

找到 eat 修改是什麽一次時間地址 style 用戶名剛入門Python爬蟲，試了下爬取今日頭條官網中的段子，網址為https://www.toutiao.com/ch/essay_joke/源碼比較簡陋，如下： 1 import requests 2 i

利用python爬取龍虎榜數據及後續分析

登錄 one 可能股市 .com 爬蟲但我由於相關 ##之前已經有很多人寫過相關內容，但我之前並未閱讀過，這個爬蟲也是按照自己的思路寫的，可能比較醜陋，請見諒！本人作為Python爬蟲新手和股市韭菜，由於時間原因每晚沒辦法一個個翻龍虎榜數據，所以希望借助爬蟲篩選出

Python爬取手機號碼前7位號段歸屬地及運營商

相關推薦