Python文本爬蟲實戰

阿新 • • 發佈：2017-06-15

文本文取出 www close each 取圖爬蟲 edit 正則表達式

轉載請註明原文地址：http://www.cnblogs.com/ygj0930/p/7019950.html

一：流程

目標：爬取目標網頁的圖片

1：獲取網頁源碼

2：用Python讀取源碼

3：使用正則表達式從網頁源碼提取圖片地址

4：根據圖片地址下載圖片

二：實現

1：源碼獲取

文本爬蟲，是在已有的文本內容中爬取需要的信息，這區別於網絡爬蟲。

由於被檢索的內容是現成的，因此，文本爬蟲又叫“半自動爬蟲”。

在本例中，我們以昵圖網首頁為目標網址，因此，我們先到昵圖網首頁，右鍵—>查看源代碼—>保存源碼到txt文件。

2：編寫代碼

#coding:utf8
import re
import 
 requests

#1：讀取文本文件，存到一個變量中
f=open("src.txt","r+")
htmls=f.read()
f.close()

#2:使用正則表達式，從獨取出來的文本內容中進行提取
img_url=re.findall(‘<img src="(.*?)"‘,htmls,re.S)

#3：遍歷正則表達式的匹配結果，使用requests模塊功能連接圖片並通過文件寫操作把圖片保存下來
i=1;
for each in img_url:
    #連接到圖片
    img=requests.get(each)
    #創建圖片文件
    fp=open(‘img 
‘+str(i)+‘.jpg‘,"wb")
    #把鏈接到的圖片內容寫入文件
    fp.write(img.content)
    #關閉文件
    fp.close()
    i=i+1

Python文本爬蟲實戰

文本文取出 www close each 取圖爬蟲 edit 正則表達式轉載請註明原文地址：http://www.cnblogs.com/ygj0930/p/7019950.html 一：流程目標：爬取目標網頁的圖片 1：獲取網頁源碼 2：用Python讀取源

Python網絡爬蟲實戰案例之：7000本電子書下載（2）

3.2 pytho oss 部署 .html http term ext 開發環境安裝一、前言本文是《Python開發實戰案例之網絡爬蟲》的第二部分：7000本電子書下載網絡爬蟲開發環境安裝部署。配套視頻課程詳見51CTO學院。二、章節目錄（1）Python開發環境

Python網絡爬蟲實戰案例之：7000本電子書下載（1）

批量 cad 3.2 img oss 開發批量導出 ucc 學院一、前言本文是《Python開發實戰案例之網絡爬蟲》的第一部分：7000本電子書下載網絡爬蟲完整案例演示。配套視頻課程詳見[51CTO學院] 章節目錄：（1）頁面分析1：列表頁-圖書清單（2）頁面分析2

Python網絡爬蟲實戰案例之：7000本電子書下載（3）

RoCE img http cfa ext 頁面 ffffff 分享 html 一、前言本文是《Python開發實戰案例之網絡爬蟲》的第三部分：7000本電子書下載網絡爬蟲開發實戰詳解。配套視頻課程詳見51CTO學院請添加鏈接描述。二、章節目錄 3.1 業務流程3.2

Python網絡爬蟲實戰案例之：7000本電子書下載（4）

視頻課程 3.1 剖析 src jpg -html proc 下載 blog 一、前言本文是《Python開發實戰案例之網絡爬蟲》的第四部分：7000本電子書下載網絡爬蟲-源碼框架剖析。配套視頻課程詳見：51CTO學院。二、章節目錄 3.1 requests-html文

2017.08.11 Python網絡爬蟲實戰之Beautiful Soup爬蟲

文件的華僑定位 spa 文件目錄 lxml odi nco unicode 1.與Scrapy不同的是Beautiful Soup並不是一個框架，而是一個模塊；與Scrapy相比，bs4中間多了一道解析的過程（Scrapy是URL返回什麽數據，程序就接受什麽數據進行過濾

python文本操作

ons 根據讀取一個 ear 只讀 open del clas file_obj=file("文件路徑","模式") 打開文件的模式有： r，以只讀方式打開文件 w，打開一個文件只用於寫入。如果該文件已存在則將其覆蓋。如果該文件不存在，創建新文件。 a，打開一個文件用

python文本處理練習-3

處理 style urn span bsp 最小 turn python3 num "計算數組中最小的兩個數的和" #!usr/bin/python3 #-*- coding:utf-8 -*- numbers=np.array((4,3,7,5,6)) def sum

python文本處理--定位motif在fasta文件上的位置，並給出位置信息

find span dna pytho 文件 str odin color 所有 #!/usr/bin/python3 #-*- coding:utf-8 -*- #在序列文件上找出所有的指定motif的位置 dna=‘ATGCGAGAGAGAGAGAAGTGCTGTGT

python文本聯系--計算字符串中各個字符的數量

gpo odi -c asd cad font port style pre 1 #!/usr/bin/python3 2 #-*- coding:utf-8 -*- 3 #計算字符串中，各個字符串的含量 4 str=‘adfadfafdfaafasdfas

python文本處理---計算fasta文件中不同氨基酸的數目

ros family pos port line import 文本不同 split #::!/usr/bin/python3 #-*- coding:utf-8 -*- #計算fasta文件中各個氨基酸的含量 import sys args=sys.argv f=

python文本去掉字符串前後空格

style posit -s abc -i acer consola lac run python文本去掉字符串前後空格場景：去掉字符串前後空格可以使用strip，lstrip，rstrip方法 >>> a="abc".center (30)

python文本字符與字符值轉換

場景 print div chm python str -s blog () python文本字符與字符值轉換場景：將字符轉換成ascii或者unicode編碼在轉換過程中，註意使用ord和chr方法 >>> print(ord(‘a‘))

python文本字符串對齊

center rda 使用 -c nbsp repeat 容易 log back python 字符串對齊場景：字符串對齊 python提供非常容易的方法，使得字符串對齊 >>> print("abc".center (30,‘-‘)) --

python文本拼接或合並字符串

bottom word 大致 rep class repeat 字符 position sof python文本拼接、合並字符串場景：拼接、合並字符串在這個場景中，我們首先想到的當然是使用+或者+=將兩個字符串連接起來 >>> a=‘a‘

python文本 maketrans和translate

刪除字符 repeat 保留不能需要映射 class 接受 python文本 maketrans和translate 場景：過濾字符串的某些字符，我們從例子出發 >>> tb=str.maketrans (‘abc‘,‘123‘) &g

python文本單獨處理每個字符的方法匯總

其他 pri gin att bcd one ima post space python文本單獨處理字符串每個字符的方法匯總場景：用每次處理一個字符的方式處理字符串方法： 1.使用list（str） >>> a=‘abcdefg‘ >

python文本判斷對象裏面是否是類字符串

log 場景是否 text 但是 normal line -c ring python文本判斷對象裏面是否是類字符串場景：判斷對象裏面是否是類字符串一般立刻會想到使用type()來實現 >>> def isExactlyAString(obj

零基礎學習Python文本處理

python源 | 小象文 | 賈庸本文將帶領小夥伴們一起，使用Python進行文本處理，先來看下要處理的文本，文件名為“data.txt”，文件裏面的內容是三行中英對照的文本，和兩個空行，我們要實現的功能就是從這三行文本中分別抽取出中文及其對應的英文，這個功能再加上爬蟲，就可以制作自己專屬的英

Python文本處理: 分詞和詞雲圖

wordcloud jieba python3 詞雲分詞 ‘‘‘ import os import jieba # 分詞包 import numpy # numpy計算包 import codecs # codecs提供open方法指定打開的文件的語言編碼，它會在讀取時自動轉換為內

Python文本爬蟲實戰

相關推薦