python requests爬蟲

阿新 • • 發佈：2018-10-31

1、介紹

requests是爬蟲的利器，可以設定代理ip，cookies，headers等多種反爬蟲手段，過濾資料笨的辦法可以使用正則，比較可靠穩定的辦法使用xpath，找了一個爬蟲騰訊招聘的code簡要說下

2、程式碼

設定tr標籤的屬性值：tr[@class='c bottomline']
td[1] 表示第一個td標籤
.// ：表示選取當前節點開始匹配，直到匹配到符合條件的

# -*- coding: utf-8 -*-

from lxml import etree
import requests

BASE_DOMAIN="http://hr.tencent.com/"
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) '
                  'AppleWebKit/537.36 (KHTML, like Gecko)'
                  ' Chrome/67.0.3396.99 Safari/537.36'
}

BASE_URL="https://hr.tencent.com/position.php?keywords=python&lid=0&tid=0&start=0"


def parse_detail_page(url):
    position={}
    response=requests.get(url,headers=HEADERS)
    html=etree.HTML(response.text)
    work_name=html.xpath("//tr[@class='h']/td/text()")[0]
    work_place=html.xpath("//tr[@class='c bottomline']/td[1]/text()")[0]
    work_category=html.xpath("//tr[@class='c bottomline']/td[2]/text()")[0]
    work_lack_number=html.xpath("//tr[@class='c bottomline']/td[3]/text()")[0]
    more_infos=html.xpath("//ul[@class='squareli']")
    work_duty=more_infos[0].xpath(".//text()")
    work_require=more_infos[1].xpath(".//text()")

    position['work_name']=work_name
    position['work_place']=work_place
    position['work_category']=work_category
    position['work_lack_number']=work_lack_number
    position['work_duty']=work_duty
    position['work_require']=work_require

    return position

def get_detail_urls(url):
    response=requests.get(url=BASE_URL,headers=HEADERS)
    text=response.text
    html=etree.HTML(text)
    links=html.xpath("//tr[@class='even']//a/@href")
    links=map(lambda url:BASE_DOMAIN+url,links)
    return links


def spider():
    base_url="https://hr.tencent.com/position.php?keywords=python&lid=0&tid=0&start={}#a"
    positions=[]
    for x in range(0, 4): #43
        x*=10
        url=base_url.format(x)
        detail_urls=get_detail_urls(url)
        for detail_url in detail_urls:
            position=parse_detail_page(detail_url)
            positions.append(position)
            with open('tecentRecruit.txt','a',encoding='utf-8') as f:
                for (key,value) in position.items():
                    if(key=='work_duty'):
                        str='work_duty :{}'
                        f.write(str.format(value))
                        f.write('\n')
                    elif(key=='work_require'):
                        str="work_require :{}"
                        f.write(str.format(value))
                        f.write('\n')
                    else:
                        f.write(key+":"+value)
                        f.write('\n')
                f.write('\n'*3)


if __name__ == '__main__':
    spider()

lxml中xpath的使用詳細講解

Xpath語法詳細講解

python requests爬蟲

1、介紹 requests是爬蟲的利器，可以設定代理ip，cookies，headers等多種反爬蟲手段，過濾資料笨的辦法可以使用正則，比較可靠穩定的辦法使用xpath，找了一個爬蟲騰訊招聘的code簡要說下 2、程式碼設定tr標籤的屬性值：tr[@class='c bottom

python requests爬蟲使用lxml解析HTML獲取資訊不對等的問題

python requests爬蟲使用lxml解析HTML獲取資訊不對等的問題我們在用lxml解析HTML文字時，有時會碰到“<”p“>”標籤有換行“<“br”>”的情況，如果我們用獲取xpath的方法，迴圈獲得該元素下的所有text()文字，同一個“<

Python requests爬蟲例項

作業系統：Windows Python：3.5 歡迎加入學習交流QQ群：657341423 需要用到的庫： requests wxPython docx win32api需要安裝pywin32 解釋： requests這個用來做爬蟲，基本上不用多作解釋 wx

Python之爬蟲-- Requests

目錄 Requests-獻給人類一、簡介二、安裝方式三、 GET請求四、POST請求五、顯示json檔案六、代理（proxies引數）七、使用者驗證八、Cookies 和 Session 1、Cookies 2、Se

Requests庫函式的學習（玩轉python網路爬蟲）

一、請求方式 HTTP常用的請求方式是GET和POST，Requests對此區分兩種不同的請求方式。（1）GET請求 Requests的GET請求分為兩種：不帶引數和帶引數。判斷URL是否帶有引數，通過對“？”進行判斷，“？”表示帶有引數。 import requests # 第一

Python網路爬蟲之requests庫Scrapy爬蟲比較

requests庫Scrapy爬蟲比較相同點：都可以進行頁面請求和爬取，Python爬蟲的兩個重要技術路線兩者可用性都好，文件豐富，入門簡單。兩者都沒有處理JS，提交表單，應對驗證碼等功能（可擴充套件）想爬取有驗證碼的，換需要學習別的庫知識。不同點： Scrapy,非同

使用python-requests+Fiddler4+appium爬蟲,批量爬取抖音小視訊

抖音很火，大家都知道，樓主決定使用python爬取抖音小視訊，人家都說天下沒有爬不到的資料，so，樓主決定試試水，純屬技術愛好，分享給大家。。 1.樓主首先使用Fiddler4來抓取手機抖音app這個包，具體配置的操作，網上有很多教程供大家參考。上面得出抖音的視訊的url，這些url均能在網頁中

嵩天教授的Python網路爬蟲與資訊提取課程筆記——單元1. requests庫入門

本文目錄 Requests庫介紹 requests.get(url, params, **kwargs)方法及其他請求方法介紹 Response類屬性簡介 Reponse類中的encoding與app

python requests做爬蟲爬取oxford詞典單詞音標

import requests import re def phonetic_spelling(word): word=word.replace(" ","_") phoneticSpelling="" #ur

python之requests 爬蟲遇到的時間坑

如圖：瀏覽器顯示的時間： train_date ： Mon+Nov+05+2018+00:00:00+GMT+0800 這裡面的時間顯示中存在加號 + 。注意：當你的cookie 確定沒沒問題時，請求引數和瀏覽器上面顯示的也一模一樣，可是請求就是不成功。這是

網路爬蟲：Python+requests+re+xlwt 爬取淘寶商品並把價格和名字寫入Excel表格

由於學東西比較死，不夠靈活，學校的acm實驗室做演算法題，打比賽，我是真的跟不上那些大佬...就看到人以前實驗室退出的，加到其他實驗室學習專案，做專案，做專案相對學習演算法來說，沒有那麼燒腦，還能做出有趣的東西....我就想學習做專案，因為打比賽我是拿不到能看的成績....

Python網路爬蟲與資訊提取-Day5-Requests庫網路爬取實戰

一、京東商品頁面的爬取先選取一個商品頁面直接利用之前的程式碼框架即可 import requests url = "https://item.jd.com/12186192.html" try: r = requests.get(url) r.raise_for

網路爬蟲：Python+requests+bs4+xlwt 爬取京東商品存入Excel表

學了網路爬蟲兩週了，還是比較喜歡用網頁級庫requests，很靈活方便，scrapy網站級面向物件庫，還不熟悉，可能是原來c++學習面向物件就沒學好，對面向物件程式設計還沒理解好吧...兩週中爬了淘寶，京東，天貓（爬取失敗，反爬蟲把我這種新手難倒了，登入驗證就卡死），爬取搜狗

python網路爬蟲例項：Requests+正則表示式爬取貓眼電影TOP100榜

一、前言最近在看崔慶才先生編寫的《Python3網路爬蟲開發實戰》這本書，學習了requests庫和正則表示式，爬取貓眼電影top100榜單是這本書的第一個例項，主要目的是要掌握requests庫和正則表示式在實際案例中的使用。二、開發環境執行平

python：爬蟲0

電驢 cati body nbsp 爬蟲 esp 域名對象通過什麽是網頁爬蟲，也叫網頁蜘蛛。把互聯網比作一個蜘蛛網，有好多節點，這個蜘蛛在網上爬來爬去，對對網頁中的每個關鍵字進行建立索引，然後建立索引數據庫，經過復雜的排序算法後，這些算法的結果將按照相關度的高低展現出

Python簡易爬蟲

5.0 抓取 content utf ade response con pla bsp # coding: utf-8 import urllib import urllib2 import re import os if __name__==‘__main__‘:

PYTHON REQUESTS的安裝與簡單運用

Coding import out compile 鏈接客戶端 detail 但我編輯 PYTHON REQUESTS的安裝與簡單運用 2013.07.09 強烈推薦！requests官方文檔已有了中文版，請見http://cn.python-requests.o

python+SQLAlchemy+爬蟲

raise unit 模塊 enumerate print date col pid 一個 python+SQLAlchemy+爬蟲前面分享了SQLAl

Python簡易爬蟲爬取百度貼吧圖片

decode works 接口 def 讀取 min baidu 得到 internal 　　　　　通過python 來實現這樣一個簡單的爬蟲功能，把我們想要的圖片爬取到本地。(Python版本為3.6.0) 一.獲取整個頁面數據　　 def getHtml(url)

Python urllib2爬蟲豆瓣小說名稱和評分

log color .com imp fin com open cor douban #-*- coding:utf-8 -*- import urllib2 import re url = ‘https://book.douban.com/tag/%E5%B0%8F%

python requests爬蟲

1、介紹

2、程式碼

相關推薦