record-12 爬蟲程序練習

阿新 • • 發佈：2018-01-20

爬蟲 utf-8 read 打開 open 保存 true 方法網頁

#__author: hasee
#date:  2018/1/20

from urllib.request import urlopen, urlretrieve
from urllib.parse import quote
from re import findall

url = ‘http://www.cdtest.cn/‘  # 確定URL
f = urlopen(url)  # 利用urlopen()打開URL資源文件
content = f.read()  # 讀取文件內容
# content=content.decode(encoding=‘utf-8‘) #將讀取到的內容解碼處理，轉換成字符串
print(content)
f.close()  # 關閉文件

# 正則表達式中|符號表示或者
url_list = findall(r‘img/.*png|img/.*jpg‘, content)  # 利用正則表達式獲取網頁中所有png/jpg的圖片URL，並存放在列表中
print(url_list)
for u in url_list:  # 循環遍歷列表，依次完成列表中每一個url的處理
    url1 = url + quote(u)  # 網頁中圖片URL不完整，需要補充‘http://www.cdtest.cn/‘，並且因為URL中包含中文，利用quote方法進行編碼處理

    u1 = u.split(‘/‘)  # 提取圖片URL中最後的圖片名稱，在下載時作為本地保存名稱使用
    path1 = ‘e:\\test\\‘ + u1[-1]  # 設置下載時，本地保存路徑

    urlretrieve(url1, path1)  # 開始完成當前url1所標識圖片資源的下載

record-12 爬蟲程序練習

爬蟲 utf-8 read 打開 open 保存 true 方法網頁 #__author: hasee #date: 2018/1/20 from urllib.request import urlopen, urlretrieve from urllib.pars

Python初學時購物車程序練習實例

處理 close 下標說了 inpu bcb opp aps lan 不多說了，直接上代碼： 1 #Author:Lancy Wu 2 3 product_list=[ 4 (‘Iphone‘,5800), 5 (‘Mac Pro‘,980

第一個爬蟲程序

head cache max app 爬蟲 ofa conn parser quest from urllib import request from urllib import parse from bs4 import BeautifulSoup req =req

11月14日互聯網技術-揭秘Java網絡爬蟲程序原理

dia uav zhong http and 網絡 dai 100% 聯網 %E6%9C%89100%E4%B8%AA%E4%BA%BA%E5%9B%B4%E6%88%90%E4%B8%80%E4%B8%AA%E5%9C%88%E4%BB%8E1%E5%BC%80%E5%A

# 學號12 《程序設計與數據結構》第11周學習總結

arc 軟件進行 pri images 可能第七周生成新增教材學習內容總結遍歷深度優先遍歷：深度優先遍歷，從初始訪問結點出發，我們知道初始訪問結點可能有多個鄰接結點，深度優先遍歷的策略就是首先訪問第一個鄰接結點，然後再以這個被訪問的鄰接結點作為初始結點，

購物程序練習

lis one rate image 顯示 ftime sele strftime 分享圖片 import time #商品列表，采用列表嵌套元祖方式 goods_list=[ (‘水杯‘,25), (‘牙刷‘,15), (‘手機‘,3500), (‘耳機‘,

Python學習--課本程序練習（周更）

tor bar 工作日刷新 () 一次 ima pos else 1.繪制正方形螺旋線 import turtle turtle.setup(600,300,200,200) turtle.pensize(1) turtle.color(‘green‘) i=0

程序練習2：購物車程序

odin post 電視 odi 到你轉化是否為數字 env col 程序練習2：購物車程序需求: 啟動程序後，讓用戶輸入工資，然後打印商品列表允許用戶根據商品編號購買商品用戶選擇商品後，檢測余額是否夠，夠就直接扣款，不夠就提醒可隨時退出，退出時，打印已購買

程序練習（1）

目前 item 文件菜單 {} with open art -s it! 一.商品買賣程序：要求：1.啟動程序後，讓用戶輸入工資，然後打印商品列表；　　 2.允許用戶根據商品編碼購買商品　　 3.用戶購買商品後，檢測余額是否夠，夠就直接扣款，不夠就提醒

2018-3-14Linux系統管理(12) Linux程序包管理(2)yum前端管理工具

Linux 系統管理我們在之前的章節中講到了Linux的程序包管理的基礎與實現，後面也講述了RPM包的管理命令實現了管理包的功能，主要用的是rpm命令，那麽rpm實現程序管理總結如下： rpm命令實現程序管理：安裝：-ivh, --nodeps, --replacepkgs

購物車程序練習

執行 true log [] 購物不足 one img info 購物車程序需求：代碼如下： #coding=utf-8 salary=input(‘請輸入工資：‘) goods=[[‘iphone‘,5800],[‘book‘,30],[‘bike‘,800]

Linux命令應用大詞典-第12章程序編譯

刪除 font AC 初步更新調試器應用調試 osc 12.1 gcc：GNU項目的C和C++編譯器 12.2 gdberver：為GNU調試的遠程服務器 12.3 cmake：跨平臺的Makefile生成工具 12.4 indent：更改通過插入或刪除空格的C程

網絡爬蟲基礎練習

style 列表 pan inf ews post itl htm 生成 0.可以新建一個用於練習的html文件，在瀏覽器中打開。 1.利用requests.get(url)獲取網頁頁面的html文件 import requests newsurl=‘http://ne

網絡爬蟲基本練習

imp import print ttr sele spa clas from OS 1.取出h1標簽的文本 import requests url = ‘http://news.gzcc.cn/html/2018/xiaoyuanxinwen_0328/9113.htm

C程序練習

lose 年輕 hide return cas HA nbsp 智力計算 1.編程從鍵盤任意輸入兩個時間（例如4時55分和1時25分），計算並輸出這兩個時間之間的間隔。要求不輸出時間差的負號。 #include<stdio.h> int main() {

Python小程序練習一之登陸接口

AD lse aps 錯誤用戶名添加 admin 賬戶 AS 登陸接口並實現猜數字遊戲輸入用戶名密碼認證成功後顯示歡迎信息進行猜數字遊戲，可猜三次輸錯三次後鎖定 1、Adduser.py 1 # The author is tou

Python小程序練習二之裝飾器小例子

現實 none align style args ldap .net dad 現在 Python小程序練習二之裝飾器小例子裝飾器：裝飾器實際上就是為了給某程序增添功能，但該程序已經上線或已經被使用，那麽就不能大批量的修改源代碼，這樣是不科學的也是不現實的

一個簡單的進程池版的爬蟲程序

clas sts AR windows url ike AS html HR # http://www.doutula.com/article/list/?page=1 第一頁 # http://www.doutula.com/article/list/?page=2 翻頁

小爬蟲程序協程版

write 提升 con AD pic exceptio 代碼 www. == import gevent from gevent import monkey import requests,time,re,os """ 協程爬蟲的意義在於解決堵塞的耗時操作，epoll機

一個簡單c#爬蟲程序

count www 數據排名其他瀏覽器 pytho 分享很多 attr 這篇文章只是簡單展示一個基於HTTP請求如何抓取數據的文章，如覺得簡單的朋友，後續我們再慢慢深入研究探討。圖1：如圖1，我們工作過程中，無論平臺網站還是企業官網，總少不了新聞展示。

record-12 爬蟲程序練習

相關推薦