python 爬蟲總結(一)

阿新 • • 發佈：2019-01-27

__author__ = 'fen'
# coding=utf8
import urllib2
import urllib
from StringIO import StringIO
import bs4
def base1(url):
    content=urllib2.urlopen(url).read
    return content
def agent(url):
    proxy_support=urllib2.ProxyHandler({'http':url})  #通過代理重定向請求
opener=urllib2.build_opener(proxy_support,urllib2.HTTPHandler)
    urllib2.install_opener(opener)
    content=urllib2.urlopen(url).read()

    # 
新增頭資訊，模仿瀏覽器抓取網頁，對付返回403禁止訪問的問題
i_headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.48'}
    req = urllib2.Request(url,headers=i_headers)
    html = urllib2.urlopen(req)
    if url == html.geturl():
        html = html.read()
        return html

    return  
content
def para1(url,page):
    import requests     # 用'?'的post
header_agent = 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:37.0) Gecko/20100101 Firefox/37.0' #頭資訊可以修改成多種
headers = {'User-Agent':header_agent}
    #某些網站反感爬蟲的到訪，於是對爬蟲一律拒絕請求。這時候我們需要偽裝成瀏覽器，這可以通過修改http包中的header
pqyload={'curr_Page':page}  #  curr_Page,condition.pageNo ? 
後面連線的引數
r=requests.get(url,params=pqyload)
    html=requests.get(url,headers = headers,params=pqyload).text
    return html

def para2(url,page,rn1,rn2):
    #url='http://gsxt.hnaic.gov.cn/notice/search/ent_except_list'
header_agent = "Mozilla/5."+str(rn1)+"(X11; Ubuntu; Linux x86_32; rv:37.0) Gecko/20100101 Firefox/36."+str(rn2)
    headers = {'User-Agent':header_agent}
    #將header資訊隨機生成,以免訪問受阻
values={
        'random':'1440940998226',
'cxyzm':'no',
'page.currentPageNo':str(page),
}     # &的情況
data=urllib.urlencode(values)  #進行引數封裝
req=urllib2.Request(url,data,headers=headers)
    req.add_header('Accept-encoding', 'gzip')

    response = urllib2.urlopen(req)
    html =StringIO(response.read())  #原始碼有可能被壓縮 通過這個可以看到更真實的原始碼
html=bs4.BeautifulSoup(html)  #bs 自動編碼,也可以通過一下獲取原始碼編碼方式,下面的方法較慢
# charset=chardet.detect(html)
    # code=charset['encoding']#獲取原始碼的編碼方式
# text=str(html).decode(code,'ignore').encode('utf-8')
html=str(html) #用到bs包的 先將強制轉換成str
return  html

#print agent('http://gsxt.ngsh.gov.cn/ECPS/enterpriseAbnAction_enterpriseList.action?curr_Page=2')
#print para1('http://gsxt.ngsh.gov.cn/ECPS/enterpriseAbnAction_enterpriseList.action',2)
#print para2(url='http://gsxt.hnaic.gov.cn/notice/search/ent_except_list',page=2,rn1=3,rn2=2)

python 爬蟲總結(一)

__author__ = 'fen' # coding=utf8 import urllib2 import urllib from StringIO import StringIO import bs4 def base1(url): content=urllib

Python爬蟲（一）：基本概念

popu 通用字符 spider dai 自身部分螞蟻 people 網絡爬蟲的定義網絡爬蟲（Web Spider。又被稱為網頁蜘蛛。網絡機器人，又稱為網頁追逐者），是一種依照一定的規則，自己主動的抓取萬維網信息的程序或者腳本。另外一些不常使用

Python爬蟲入門一之綜述

復用智能實現進一步 -a web 蜘蛛 urllib 機器首先爬蟲是什麽？網絡爬蟲（又被稱為網頁蜘蛛，網絡機器人，在FOAF社區中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動的抓取萬維網信息的程序或者腳本。根據我的經驗，要學習Python爬蟲，我們要

python爬蟲（一）

返回沒有發現學習內容部分訪問 family 司機獲得 1.首先你需要一些Python的基礎知識和相關的開發環境，沒有相關基礎的同學推薦可以先去網易雲的Mooc觀看學習相關教程 2.什麽是網絡爬蟲？　　我們上網會在瀏覽器中輸入連接，然後服務器會返回給我們相關的信

Python爬蟲(十一)_案例：使用正則表達式的爬蟲

main try 不出測試 ref 分享圖片封裝 ram 成員方法本章將結合先前所學的爬蟲和正則表達式知識，做一個簡單的爬蟲案例，更多內容請參考:Python學習指南現在擁有了正則表達式這把神兵利器，我們就可以進行對爬取到的全部網頁源代碼進行篩選了。下面我們一

最全Python爬蟲總結(轉載)

其中網頁 -i 變量 oba cati nod style 應該 [html] view plain copy 最近總是要爬取一些東西，索性就把Python爬蟲的相關內容都總結起來了，自己多動手還是好。（1）普通的內容爬取（2）保存爬取的圖片/

python爬蟲總結

use 禁止訪問不同安裝docker 初學者 http sel 類型破解 [TOC] 由於某些原因最近終於可以從工作的瑣事中抽出身來，有時間把之前的一些爬蟲知識進行了一個簡單的梳理，也從中體會到階段性地對過往知識進行梳理是真的很有必要。常用第三方庫對於爬蟲初學者

python 爬蟲（一） requests+BeautifulSoup 爬取簡單網頁代碼示例

utf-8 bs4 rom 文章都是 Coding man header 文本以前搞偷偷摸摸的事，不對，是搞爬蟲都是用urllib，不過真的是很麻煩，下面就使用requests + BeautifulSoup 爬爬簡單的網頁。詳細介紹都在代碼中註釋了，大家可以參閱。

Python 爬蟲入門(一)——爬取糗百

upa ext win comment 地址 odi 批量爬蟲程序 article 爬取糗百內容 GitHub 代碼地址https://github.com/injetlee/Python/blob/master/qiubai_crawer.py 微信公眾號：【智能制造專

自學Python爬蟲（一）認識爬蟲

1、爬蟲的概念這裡就不解析了，可自行百度拋連結： https://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB/5162711?fr=aladdin 2、爬蟲的基本流程 2.1發起請求通過HTTP

python 爬蟲總結

一，爬蟲是什麼爬蟲：一段自動抓取網際網路資訊的程式，從網際網路上抓取對於我們有價值的資訊。二，爬蟲的基本構架爬蟲分為五個基本構架：排程器：相當於一臺電腦的CPU，主要負責排程URL管理器、下載器、解析器之間的協調工作。 URL管理器：包括待爬取的URL地址和已爬

Python爬蟲（一）：編寫簡單爬蟲之新手入門

最近學習了一下python的基礎知識，大家一般對“爬蟲”這個詞，一聽就比較熟悉，都知道是爬一些網站上的資料，然後做一些操作整理，得到人們想要的資料，但是怎麼寫一個爬蟲程式程式碼呢？相信很多人是不會的，今天寫一個針對新手入門想要學習爬蟲的文章，希望對想要學習的你能有所幫助~~廢話不多說，進入正文！

Python爬蟲基礎(一）

最近在學習python，順便了解一下網路爬蟲，整理了一下爬蟲基礎（基於py2.7）：獲取網頁資料的三種方法： # encoding=utf-8 import urllib2 def download1(url): return urllib2.urlopen(url

Python爬蟲基礎 | (一)爬蟲基本庫的使用

本篇部落格所有示例使用Jupyter NoteBook演示。 Python爬蟲基礎系列筆記基於：Python3網路爬蟲開發實戰-崔慶才下載密碼：wuuc 示例程式碼下載密碼:02f4 目錄一、簡介二、使用urllib

python爬蟲——記一次前所未有的經歷（爬取魔方格作文）

前言我還是第一次遇到魔方格這麼處理請求的網站，這裡記錄一下過程 1、爬取物件：http://zuowen.mofangge.com/html/zwDetail/20161023/u111424965.html 需要抓取中間作文格里的作文

python爬蟲Scrapy(一)-我爬了boss資料 MongoDB基本命令操作

一、概述學習python有一段時間了，最近了解了下Python的入門爬蟲框架Scrapy，參考了文章Python爬蟲框架Scrapy入門。本篇文章屬於初學經驗記錄，比較簡單，適合剛學習爬蟲的小夥伴。這次我選擇爬取的是boss直聘來資料，畢竟這個網站的

python爬蟲（一）---智聯招聘實戰

智聯校園招聘資料爬取 1 本次實驗只爬取一頁內容，適合入門學習xpath，excel檔案寫入。 2 url =‘https://xiaoyuan.zhaopin.com/full/538/0_0_160000_1_0_0_0_1_0’ 3 結尾會附上全部程式碼大神請繞過本部落格

python爬蟲（一）--------selenium+python+PhantomJS的使用

　　最近爬取相關網站時，發現沒有找到js包的地址，我就採用selenium來爬取資訊，相關實戰連結：python爬蟲實戰（一）--------中國作物種質資訊網一、Selenium介紹　　Selenium 是什麼？一句話，自動化測試工具。它支援各種瀏覽器，包括 Chr

python基礎總結(一)

1.基本資料型別: 字串、整數、小數、bool 2.基本語法(以python3.0為準) //輸入 input(); //得到輸入的值 value=eval(input()); //得到一個數字 value=int(input()); //輸出 print(); print('%d

Python爬蟲(十一)_案例：使用正則表示式的爬蟲

本章將結合先前所學的爬蟲和正則表示式知識，做一個簡單的爬蟲案例，更多內容請參考:Python學習指南現在擁有了正則表示式這把神兵利器，我們就可以進行對爬取到的全部網頁原始碼進行篩選了。下面我們一起嘗試一下爬取內涵段子網站： http://www.neihan8.

python 爬蟲總結(一)

相關推薦