python爬蟲demo

阿新 • • 發佈：2018-12-22


 #!/usr/bin/python
# -*- coding: utf-8 -*-
import urllib2
import json
import sys
import time

keyword = 'port:8080'  # 獲取查詢關鍵字
page = '1'  # 獲取頁數
f = open('result.txt', 'w')
# keyword = sys.argv[1]  # 獲取查詢關鍵字
# page = sys.argv[2]  # 獲取頁數
# get_cookie = sys.argv[3]  # 獲取cookie的值
for i in range(int(page)):
    req = urllib2.Request(
        'https://www.oshadan.com:443/search?info={"c":"' 
 + keyword + '","p":' + str(
            i + 1) + ',"q":0,"clear":false}&_='+str(time.time()).replace('.','')+'0')
    req.add_header('Host', 'www.oshadan.com')
    req.add_header('User-Agent', 'Mozilla/5.0 (X11; Linux x86_64; rv:47.0) Gecko/20100101 Firefox/47.0')
    req.add_header('Accept', 'application/json, text/javascript, */*; q=0.01' 
)
    req.add_header('Accept-Language', 'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3')
    req.add_header('X-Requested-With', 'XMLHttpRequest')
    req.add_header('Referer', 'https://www.oshadan.com/main')
    req.add_header('Cookie', 'sid=s%3Abojn6UmMsWcvTlf97yWtsHLM.BWamQyVwpPz1L4JwelKJqgrEoK0JXqRZF1xy19EN7Co')
    # req.add_header('Cookie', get_cookie) 

    response = urllib2.urlopen(req)
    the_page = response.read()
    json_re = json.loads(the_page)
    # print json_re['result']['result']['recordNum']  # 個數

    for j in json_re['result']['result']['data']:
        if j['notcomponentFields']['url'] != None:
            print j['notcomponentFields']['url']
            f.write(j['notcomponentFields']['url'])
            f.write('\n')
        else:
            print f.write(j['notcomponentFields']['ip'])
            f.write(j['notcomponentFields']['ip'])
            f.write(j['notcomponentFields']['port'])
            f.write('\n')
    print '第' + str(i + 1) + '頁爬取完畢'
f.close()
print '爬蟲任務全部結束'

python爬蟲demo

#!/usr/bin/python # -*- coding: utf-8 -*- import urllib2 import json import sys import time keywor

抄來的一個Python爬蟲demo,備忘

從知乎上抄過來的demo，作者是在ios下開發的，直接拿到windows平臺上執行有報錯。所以做了修改，下面是修改後的原始碼：# -*- coding: utf-8 -*- """ Created on Wed Apr 11 14:57:23 2018 @author: s

32個Python爬蟲專案demo

今天為大家整理了32個Python爬蟲專案。整理的原因是，爬蟲入門簡單快速，也非常適合新入門的小夥伴培養信心。所有連結指向GitHub，祝大家玩的愉快~O(∩_∩)O WechatSogou [1]- 微信公眾號爬蟲。基於搜狗微信搜尋的微信公眾號爬蟲介面，可以擴充套件成基於搜狗搜尋的爬蟲，返回

python爬蟲執行scrapy crawl demo出現： import win32api ModuleNotFoundError: No module named 'win32api'錯誤

執行： >scrapy crawl demo 可能會出現這個錯誤： import win32api ModuleNotFoundError: No module named 'win32api' 下載依賴唄：https://pypi.org/project/py

python爬蟲爬取全站url，完美小demo（可防止連結到外網等各種強大篩選）

上次完成的url爬取專案並不能滿足需求，在此完成了一個更為強大的爬取程式碼，有需要的可以直接執行，根據自己爬取的網站更改部分正則和形參即可。前排提示：執行需要耐心，因為幾千個url爬完的話，還是建議花生瓜子可樂電影準備好。話不多說，直接上程式碼，程式碼有註釋，很容易理解。

python 爬蟲（一）urllib使用demo

import urllib.request #向指定的url地址發起請求，並返回伺服器響應的資料（檔案的物件） response = urllib.request.urlopen("http://www.baidu.com") #直接將檔案寫入指定路徑， filePath = r"C:/Use

python爬蟲利器 scrapy和scrapy-redis 詳解一入門demo及內容解析

## 架構及簡介 Scrapy是用純Python實現一個為了爬取網站資料、提取結構性資料而編寫的應用框架，用途非常廣泛。 Scrapy 使用了 Twisted(其主要對手是Tornado)非同步網路框架來處理網路通訊，可以加快我們的下載速度，不用自己去實現非同步框架，並且包含了各種中介軟體介面，可以靈活的

一個鹹魚的Python爬蟲之路（三）：爬取網頁圖片

you os.path odin 路徑生成存在 parent lose exist 學完Requests庫與Beautifulsoup庫我們今天來實戰一波，爬取網頁圖片。依照現在所學只能爬取圖片在html頁面的而不能爬取由JavaScript生成的圖。所以我找了這個網站

[Python爬蟲] 之十五：Selenium +phantomjs根據微信公眾號抓取微信文章

頭部 drive lac 過程標題操作函數軟件測試 init 　　借助搜索微信搜索引擎進行抓取　　抓取過程　　1、首先在搜狗的微信搜索頁面測試一下，這樣能夠讓我們的思路更加清晰　　　　　　在搜索引擎上使用微信公眾號英文名進行“搜公眾號&r

Python爬蟲：學爬蟲前得了解的事兒

編寫 election 檢查語言 jpg mage 圖片一個網頁這是關於Python的第14篇文章，主要介紹下爬蟲的原理。提到爬蟲，我們就不得不說起網頁，因為我們編寫的爬蟲實際上是針對網頁進行設計的。解析網頁和抓取這些數據是爬蟲所做的事情。對於大部分網頁來講，它

Python爬蟲-萌妹子圖片

存在創建目錄無效 images width ebr file logs read 最近發現一個可以看圖的地方，一張張翻有點累，畢竟只有一只手（難道鼠標還能兩只手翻？）。能不能下到電腦上看呢，畢竟不用等網速，還可以預覽多張，總之很方便，想怎麽就怎麽，

Python爬蟲-爬取糗事百科段子

hasattr com ima .net header rfi star reason images 閑來無事，學學python爬蟲。在正式學爬蟲前，簡單學習了下HTML和CSS，了解了網頁的基本結構後，更加快速入門。 1.獲取糗事百科url http://www.qiu

python 爬蟲1 開始，先拿新浪微博開始

大括號版本 install esp con data- 定位 ble Language 剛剛開始學。目的地是兩個。一個微博，一個貼吧存入的話，臨時還沒想那麽多。先存到本地目錄吧分詞和推薦後面在整合 mysql mongodb hadoop redius 後面在用

python爬蟲入門-Scrapy的安裝

命令集成 ssl tool sta python2 執行成功 pytho 下載集成包鏈接：http://pan.baidu.com/s/1pKD2zBP 密碼：f75b因為沒有支持python3的Scrapy,所以這裏采用python2.7.9安裝步驟：1.安裝pyth

簡談-Python爬蟲破解JS加密的Cookie

ref 我們 cep tro python 復雜 load comment get 　　通過Fiddler抓包比較，基本可以確定是JavaScript生成加密Cookie導致原來的請求返回521。發現問題：　　打開Fiddler軟件，用瀏覽器打開目標站點(http:/

python爬蟲：爬取網站視頻

爬蟲 python python爬取百思不得姐網站視頻：http://www.budejie.com/video/新建一個py文件，代碼如下：#!/usr/bin/python # -*- coding: UTF-8 -*- import urllib,re,requests import sys

python爬蟲xpath的語法

並且 info title get .com 百度 tar 5.0 其中 python爬蟲xpath的語法有朋友問我正則，，okey，其實我的正則也不好，但是python下xpath是相對較簡單的簡單了解一下xpath： XPath 是一門在 XML 文檔中查找

python爬蟲從入門到放棄（五）之正則的基本使用

語言代碼例子 name 添加 iter ima 制表符 imp things 什麽是正則表達式正則表達式是對字符串操作的一種邏輯公式，就是事先定義好的一些特定字符、及這些特定字符的組合，組成一個“規則字符”，這個“規則字符” 來表達對字符的一種過濾邏輯。正則並不是

Python爬蟲(三)爬淘寶MM圖片

name os.path app dir util mozilla user mac baseurl 直接上代碼: # python2 # -*- coding: utf-8 -*- import urllib2 import re import string impo

python爬蟲從入門到放棄（六）之 BeautifulSoup庫的使用

src 表達支持正則表達必須這樣的 com 子節點 prettify 上一篇文章的正則，其實對很多人來說用起來是不方便的，加上需要記很多規則，所以用起來不是特別熟練，而這節我們提到的beautifulsoup就是一個非常強大的工具，爬蟲利器。 beautifulS

python爬蟲demo

相關推薦