爬取例項練習

阿新 • • 發佈：2019-02-09

urllib.request.urlretrieve("http://www.youku.com/",filename="./網頁/資料探勘例項網頁.html")

#這是網頁下載到本地檔案中
urllib.request.urlcleanup()

#清理快取
file=urllib.request.urlopen("http://www.hellobi.com")
print("環境資訊：",file.info())
# getcode()狀態編碼
# geturl()獲取網頁的函式
print(file.getcode())
print(file.geturl())

#解決網址中含有中文的亂碼問題

keywd=urllib.request.quote（“中文”）

#模擬http請求通過post和get 兩種方式來請求，比如登入和搜尋的資訊的時候可能會用到。

#爬蟲的網址

html = "http://www.iqianyue.com/mypost/"

#設定表單資料

mydata=urllib.parse.urlencode({ "name":"[email protected]", "pass":"5695262623" }).encode("utf-8")

#設定請求

req=urllib.request.Request(html,mydata)

#提交的網址，提交的資訊

data=urllib.request.urlopen(req).read()

#寫入檔案 fw=open("./作業二","wb")

fw.write(data)

fw.close()

爬取例項練習

urllib.request.urlretrieve("http://www.youku.com/",filename="./網頁/資料探勘例項網頁.html") #這是網頁下載到本地檔案中 urll

http://www.kfc.com.cn 爬取(案例練習：ajax、post)

#!/usr/bin/env python # -*- coding: utf-8 -*- import urllib import urllib.request import urllib.parse # ajax post post_url = 'http://www

Python 正則練習(一) 爬取國內代理ip

取代替代 use -a int 5.0 tdi col 則表達式簡單的正則表達式練習，爬取代理 ip。僅爬取前三頁，用正則匹配過濾出 ip 地址和端口，分別作為key、value 存入 validip 字典。如果要確定代理 ip 是否真的可用，還需要再對代理

爬蟲練習3 爬取堆糖網校花照片

ring http 正在 usr sts 多線程 src 技術 strings 知識點：多線程的實現圖片的下載及寫入字符串高級查找了解動態加載和jsonrequest 的用法獲取數據的api‘https://www.duitang.com/napi/blog/lis

練習--爬取xici可用代理IP

colspan lsp com pan python print app agent flag 通過爬蟲實現xici可以使用的代理IP 端口主要代碼： #!/usr/bin/env python #coding:utf8 import telnetlib from u

爬蟲練習-爬取小說

nbsp wait none tor lpar text int pre www # 程序啟動文件 start.py#!/usr/bin/python # -*- coding: utf-8 -*- import os, sys BASEPATH = os.pat

練習-爬取某圖片及查詢IP地址

AI for AR 信息 enc 查詢 ext text 建立爬取某圖片的程序： #圖片爬取全代碼 import requests import os url=‘http://img0.dili360.com/rw9/ga/M01/4A/3D/wKgBy1p6qJ6AL

鏈家深圳租房信息爬取練習附加源碼

list enc dom \n referer brush csv文件 writer nec from urllib import request from time import sleep from lxml import etree import csv # i

百度音樂爬取文件練習

PE F12 正則表達式 con hit 歌曲 content 導入存儲 import requests import re #正則表達式庫導入倒推部分下載文件的代碼url=‘http://zhangmenshiting.qianqian.com/data2/music/

Python基礎練習（二）筆趣看《伏天氏》全文章節爬取

平臺空行 ges 會有好的 clas 追加 ref 版本大家如果覺得有幫助的話，可以關註我的知乎https://www.zhihu.com/people/hdmi-blog/posts，裏面有寫了一些我學習爬蟲的練習~ 今天我們想要爬取的是筆趣看小說網上的網絡小說，並

crawler碎碎念5 豆瓣爬取操作之登錄練習

保存網頁 utf 程序 val with open 平臺 xxxxxxxx edi import requests import html5lib import re from bs4 import BeautifulSoup s = requests.Sess

Python練習三:爬蟲練習,從一個提供免費代理的網站中爬取IP地址資訊

西刺代理,http://www.xicidaili.com/,提供免費代理的IP,是爬蟲程式的目標網站. 開始寫程式 import urllib.requestimport re def open_url(url): 　　req = urllib.request.Request(url) 　　req

Python練習四:爬取圖片

貼吧地址 https://tieba.baidu.com/p/5272413637?red_tag=0606091703 程式如下import urllib.requestimport redef open_url(url): 　　req = urllib.request.Request(

python爬取淘寶搜尋頁（練習）

1、本博文中程式碼是轉載內容，原文章地址如下： https://segmentfault.com/a/1190000014688216 2、原作者講解的很詳細，我只是在原文程式碼的基礎上稍作修改，添加了一些註釋及無關緊要的程式碼 3、本篇博文涉及知識點如下： ①通過對比頁面構

python 學習 - 爬蟲入門練習爬取鏈家網二手房資訊

import requests from bs4 import BeautifulSoup import sqlite3 conn = sqlite3.connect("test.db") c = conn.cursor() for num in range(1,101): url = "h

scrapy例項 ----- 爬取小說

參考：靜覓scrapy教程爬取目標：頂點小說網 http://www.23us.com/ 希望頂點小說網不要生氣首先來編寫items.py #-*- coding:utf-8 -*- # Define here the models for your scrape

[Python爬蟲]爬蟲例項:爬取PEXELS圖片---解決非同步載入問題

第一次嘗試爬取—>[Python爬蟲]爬蟲例項:三種方式爬取PEXELS圖片在爬取PEXELS時,遇到了這樣問題: 頁面使用Ajax的非同步載入技術來實現分頁,所以通過request.text無法獲取動態載入的內容.而如果想正確獲取這些資料,則需要使用名為逆向工程的過程(“抓包”

[Python爬蟲]爬蟲例項:三種方式爬取PEXELS圖片

PEXELS:Best free stock photos in one place. Pexels是一個提供免費高品質圖片,並且可商用的圖片網站.但是因為網站時外國的,所以連線和下載速度都略慢… 這裡只是為了講解圖片爬取和下載儲存的流程. 三種方式是指:分別指使用Lxml,Be

[Python爬蟲]爬蟲例項:線上爬取噹噹網暢銷書Top500的圖書資訊

本例項還有另外的離線爬蟲實現,有興趣可點選離線爬取噹噹網暢銷書Top500的圖書資訊爬蟲說明 1.使用requests和Lxml庫爬取,(用BS4也很簡單,這裡是為了練習Xpath的語法) 2.爬蟲分類為兩種,一種是離線爬蟲,即先將所爬取的網頁儲存到本地,再從本

[Python爬蟲]爬蟲例項:離線爬取噹噹網暢銷書Top500的圖書資訊

本例項還有另外的線上爬蟲實現,有興趣可點選線上爬取噹噹網暢銷書Top500的圖書資訊爬蟲說明 1.使用requests和Lxml庫爬取,(用BS4也很簡單,這裡是為了練習Xpath的語法) 2.爬蟲分類為兩種,一種是線上爬蟲,即在網站中一邊開啟網頁一邊進行爬取;第

爬取例項練習

相關推薦