1. 程式人生 > >爬取例項練習

爬取例項練習

urllib.request.urlretrieve("http://www.youku.com/",filename="./網頁/資料探勘例項網頁.html")

#這是網頁下載到本地檔案中
urllib.request.urlcleanup()

#清理快取
file=urllib.request.urlopen("http://www.hellobi.com")
print("環境資訊:",file.info())
# getcode()狀態編碼
# geturl()獲取網頁的函式
print(file.getcode())
print(file.geturl())

#解決網址中含有中文的亂碼問題

keywd=urllib.request.quote(“中文”)

#模擬http請求 通過post和get 兩種方式來請求,比如登入和搜尋的資訊的時候可能會用到。

#爬蟲的網址

html = "http://www.iqianyue.com/mypost/"

#設定表單資料

mydata=urllib.parse.urlencode({ "name":"[email protected]", "pass":"5695262623" }).encode("utf-8")

#設定請求

req=urllib.request.Request(html,mydata)

#提交的網址,提交的資訊

data=urllib.request.urlopen(req).read()

#寫入檔案 fw=open("./作業二","wb")

fw.write(data)

fw.close()

相關推薦

例項練習

urllib.request.urlretrieve("http://www.youku.com/",filename="./網頁/資料探勘例項網頁.html") #這是網頁下載到本地檔案中 urll

http://www.kfc.com.cn (案例練習:ajax、post)

#!/usr/bin/env python # -*- coding: utf-8 -*- import urllib import urllib.request import urllib.parse # ajax post post_url = 'http://www

Python 正則練習(一) 國內代理ip

取代 替代 use -a int 5.0 tdi col 則表達式 簡單的正則表達式練習,爬取代理 ip。 僅爬取前三頁,用正則匹配過濾出 ip 地址和 端口,分別作為key、value 存入 validip 字典。 如果要確定代理 ip 是否真的可用,還需要再對代理

爬蟲練習3 堆糖網校花照片

ring http 正在 usr sts 多線程 src 技術 strings 知識點: 多線程的實現圖片的下載及寫入字符串高級查找了解動態加載和jsonrequest 的用法 獲取數據的api‘https://www.duitang.com/napi/blog/lis

練習--xici可用代理IP

colspan lsp com pan python print app agent flag 通過爬蟲實現xici可以使用的代理IP 端口 主要代碼: #!/usr/bin/env python #coding:utf8 import telnetlib from u

爬蟲練習-小說

nbsp wait none tor lpar text int pre www # 程序啟動文件 start.py#!/usr/bin/python # -*- coding: utf-8 -*- import os, sys BASEPATH = os.pat

練習-某圖片及查詢IP地址

AI for AR 信息 enc 查詢 ext text 建立 爬取某圖片的程序: #圖片爬取全代碼 import requests import os url=‘http://img0.dili360.com/rw9/ga/M01/4A/3D/wKgBy1p6qJ6AL

鏈家深圳租房信息練習 附加源碼

list enc dom \n referer brush csv文件 writer nec from urllib import request from time import sleep from lxml import etree import csv # i

百度音樂文件練習

PE F12 正則表達式 con hit 歌曲 content 導入 存儲 import requests import re #正則表達式庫導入倒推部分下載文件的代碼url=‘http://zhangmenshiting.qianqian.com/data2/music/

Python基礎練習(二)筆趣看《伏天氏》全文章節

平臺 空行 ges 會有 好的 clas 追加 ref 版本 大家如果覺得有幫助的話,可以關註我的知乎https://www.zhihu.com/people/hdmi-blog/posts,裏面有寫了一些我學習爬蟲的練習~ 今天我們想要爬取的是筆趣看小說網上的網絡小說,並

crawler碎碎念5 豆瓣操作之登錄練習

保存 網頁 utf 程序 val with open 平臺 xxxxxxxx edi import requests import html5lib import re from bs4 import BeautifulSoup s = requests.Sess

Python練習三:爬蟲練習,從一個提供免費代理的網站中IP地址資訊

西刺代理,http://www.xicidaili.com/,提供免費代理的IP,是爬蟲程式的目標網站. 開始寫程式 import urllib.requestimport re def open_url(url):   req = urllib.request.Request(url)   req

Python練習四:圖片

貼吧地址 https://tieba.baidu.com/p/5272413637?red_tag=0606091703   程式如下import urllib.requestimport redef open_url(url):   req = urllib.request.Request(

python淘寶搜尋頁(練習

1、本博文中程式碼是轉載內容,原文章地址如下: https://segmentfault.com/a/1190000014688216 2、原作者講解的很詳細,我只是在原文程式碼的基礎上稍作修改,添加了一些註釋及無關緊要的程式碼 3、本篇博文涉及知識點如下: ①通過對比頁面構

python 學習 - 爬蟲入門練習 鏈家網二手房資訊

import requests from bs4 import BeautifulSoup import sqlite3 conn = sqlite3.connect("test.db") c = conn.cursor() for num in range(1,101): url = "h

scrapy例項 ----- 小說

參考: 靜覓scrapy教程 爬取目標:頂點小說網 http://www.23us.com/ 希望頂點小說網不要生氣 首先來編寫items.py #-*- coding:utf-8 -*- # Define here the models for your scrape

[Python爬蟲]爬蟲例項:PEXELS圖片---解決非同步載入問題

第一次嘗試爬取—>[Python爬蟲]爬蟲例項:三種方式爬取PEXELS圖片 在爬取PEXELS時,遇到了這樣問題: 頁面使用Ajax的非同步載入技術來實現分頁,所以通過request.text無法獲取動態載入的內容.而如果想正確獲取這些資料,則需要使用名為逆向工程的過程(“抓包”

[Python爬蟲]爬蟲例項:三種方式PEXELS圖片

PEXELS:Best free stock photos in one place. Pexels是一個提供免費高品質圖片,並且可商用的圖片網站.但是因為網站時外國的,所以連線和下載速度都略慢… 這裡只是為了講解圖片爬取和下載儲存的流程. 三種方式是指:分別指使用Lxml,Be

[Python爬蟲]爬蟲例項:線上噹噹網暢銷書Top500的圖書資訊

本例項還有另外的離線爬蟲實現,有興趣可點選離線爬取噹噹網暢銷書Top500的圖書資訊 爬蟲說明 1.使用requests和Lxml庫爬取,(用BS4也很簡單,這裡是為了練習Xpath的語法) 2.爬蟲分類為兩種,一種是離線爬蟲,即先將所爬取的網頁儲存到本地,再從本

[Python爬蟲]爬蟲例項:離線噹噹網暢銷書Top500的圖書資訊

本例項還有另外的線上爬蟲實現,有興趣可點選線上爬取噹噹網暢銷書Top500的圖書資訊 爬蟲說明 1.使用requests和Lxml庫爬取,(用BS4也很簡單,這裡是為了練習Xpath的語法) 2.爬蟲分類為兩種,一種是線上爬蟲,即在網站中一邊開啟網頁一邊進行爬取;第