爬取例項練習
urllib.request.urlretrieve("http://www.youku.com/",filename="./網頁/資料探勘例項網頁.html")
#這是網頁下載到本地檔案中
urllib.request.urlcleanup()
#清理快取
file=urllib.request.urlopen("http://www.hellobi.com")
print("環境資訊:",file.info())
# getcode()狀態編碼
# geturl()獲取網頁的函式
print(file.getcode())
print(file.geturl())
#解決網址中含有中文的亂碼問題
keywd=urllib.request.quote(“中文”)
#模擬http請求 通過post和get 兩種方式來請求,比如登入和搜尋的資訊的時候可能會用到。
#爬蟲的網址
html = "http://www.iqianyue.com/mypost/"
#設定表單資料
mydata=urllib.parse.urlencode({ "name":"[email protected]", "pass":"5695262623" }).encode("utf-8")
#設定請求
req=urllib.request.Request(html,mydata)
#提交的網址,提交的資訊
data=urllib.request.urlopen(req).read()
#寫入檔案 fw=open("./作業二","wb")
fw.write(data)
fw.close()
相關推薦
爬取例項練習
urllib.request.urlretrieve("http://www.youku.com/",filename="./網頁/資料探勘例項網頁.html") #這是網頁下載到本地檔案中 urll
http://www.kfc.com.cn 爬取(案例練習:ajax、post)
#!/usr/bin/env python # -*- coding: utf-8 -*- import urllib import urllib.request import urllib.parse # ajax post post_url = 'http://www
Python 正則練習(一) 爬取國內代理ip
取代 替代 use -a int 5.0 tdi col 則表達式 簡單的正則表達式練習,爬取代理 ip。 僅爬取前三頁,用正則匹配過濾出 ip 地址和 端口,分別作為key、value 存入 validip 字典。 如果要確定代理 ip 是否真的可用,還需要再對代理
爬蟲練習3 爬取堆糖網校花照片
ring http 正在 usr sts 多線程 src 技術 strings 知識點: 多線程的實現圖片的下載及寫入字符串高級查找了解動態加載和jsonrequest 的用法 獲取數據的api‘https://www.duitang.com/napi/blog/lis
練習--爬取xici可用代理IP
colspan lsp com pan python print app agent flag 通過爬蟲實現xici可以使用的代理IP 端口 主要代碼: #!/usr/bin/env python #coding:utf8 import telnetlib from u
爬蟲練習-爬取小說
nbsp wait none tor lpar text int pre www # 程序啟動文件 start.py#!/usr/bin/python # -*- coding: utf-8 -*- import os, sys BASEPATH = os.pat
練習-爬取某圖片及查詢IP地址
AI for AR 信息 enc 查詢 ext text 建立 爬取某圖片的程序: #圖片爬取全代碼 import requests import os url=‘http://img0.dili360.com/rw9/ga/M01/4A/3D/wKgBy1p6qJ6AL
鏈家深圳租房信息爬取練習 附加源碼
list enc dom \n referer brush csv文件 writer nec from urllib import request from time import sleep from lxml import etree import csv # i
百度音樂爬取文件練習
PE F12 正則表達式 con hit 歌曲 content 導入 存儲 import requests import re #正則表達式庫導入倒推部分下載文件的代碼url=‘http://zhangmenshiting.qianqian.com/data2/music/
Python基礎練習(二)筆趣看《伏天氏》全文章節爬取
平臺 空行 ges 會有 好的 clas 追加 ref 版本 大家如果覺得有幫助的話,可以關註我的知乎https://www.zhihu.com/people/hdmi-blog/posts,裏面有寫了一些我學習爬蟲的練習~ 今天我們想要爬取的是筆趣看小說網上的網絡小說,並
crawler碎碎念5 豆瓣爬取操作之登錄練習
保存 網頁 utf 程序 val with open 平臺 xxxxxxxx edi import requests import html5lib import re from bs4 import BeautifulSoup s = requests.Sess
Python練習三:爬蟲練習,從一個提供免費代理的網站中爬取IP地址資訊
西刺代理,http://www.xicidaili.com/,提供免費代理的IP,是爬蟲程式的目標網站. 開始寫程式 import urllib.requestimport re def open_url(url): req = urllib.request.Request(url) req
Python練習四:爬取圖片
貼吧地址 https://tieba.baidu.com/p/5272413637?red_tag=0606091703 程式如下import urllib.requestimport redef open_url(url): req = urllib.request.Request(
python爬取淘寶搜尋頁(練習)
1、本博文中程式碼是轉載內容,原文章地址如下: https://segmentfault.com/a/1190000014688216 2、原作者講解的很詳細,我只是在原文程式碼的基礎上稍作修改,添加了一些註釋及無關緊要的程式碼 3、本篇博文涉及知識點如下: ①通過對比頁面構
python 學習 - 爬蟲入門練習 爬取鏈家網二手房資訊
import requests from bs4 import BeautifulSoup import sqlite3 conn = sqlite3.connect("test.db") c = conn.cursor() for num in range(1,101): url = "h
scrapy例項 ----- 爬取小說
參考: 靜覓scrapy教程 爬取目標:頂點小說網 http://www.23us.com/ 希望頂點小說網不要生氣 首先來編寫items.py #-*- coding:utf-8 -*- # Define here the models for your scrape
[Python爬蟲]爬蟲例項:爬取PEXELS圖片---解決非同步載入問題
第一次嘗試爬取—>[Python爬蟲]爬蟲例項:三種方式爬取PEXELS圖片 在爬取PEXELS時,遇到了這樣問題: 頁面使用Ajax的非同步載入技術來實現分頁,所以通過request.text無法獲取動態載入的內容.而如果想正確獲取這些資料,則需要使用名為逆向工程的過程(“抓包”
[Python爬蟲]爬蟲例項:三種方式爬取PEXELS圖片
PEXELS:Best free stock photos in one place. Pexels是一個提供免費高品質圖片,並且可商用的圖片網站.但是因為網站時外國的,所以連線和下載速度都略慢… 這裡只是為了講解圖片爬取和下載儲存的流程. 三種方式是指:分別指使用Lxml,Be
[Python爬蟲]爬蟲例項:線上爬取噹噹網暢銷書Top500的圖書資訊
本例項還有另外的離線爬蟲實現,有興趣可點選離線爬取噹噹網暢銷書Top500的圖書資訊 爬蟲說明 1.使用requests和Lxml庫爬取,(用BS4也很簡單,這裡是為了練習Xpath的語法) 2.爬蟲分類為兩種,一種是離線爬蟲,即先將所爬取的網頁儲存到本地,再從本
[Python爬蟲]爬蟲例項:離線爬取噹噹網暢銷書Top500的圖書資訊
本例項還有另外的線上爬蟲實現,有興趣可點選線上爬取噹噹網暢銷書Top500的圖書資訊 爬蟲說明 1.使用requests和Lxml庫爬取,(用BS4也很簡單,這裡是為了練習Xpath的語法) 2.爬蟲分類為兩種,一種是線上爬蟲,即在網站中一邊開啟網頁一邊進行爬取;第