網路爬蟲的簡易實現(1)

阿新 • • 發佈：2018-12-25

這個爬蟲主要實現對http://pic.yesky.com這個網站圖片的爬取；

import urllib
import urllib2
import re
import time
from bs4 import BeautifulSoup
send_headers = {}
send_headers["Host"] = "http://pic.yesky.com"
send_headers["User-Agent"] = "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 UBrowser/6.1.3228.1 Safari/537.36"
send_headers["Accept"] = "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8"
send_headers["Connection"] = "keep-alive"
#print(send_headers)


#f = urllib2.urlopen("https://www.4399.com")
req = urllib2.Request("http://pic.yesky.com")    #偽裝頭部的請求
#print(req.headers)
f = urllib2.urlopen(req)
html = f.read()
print(html)
soup = BeautifulSoup(html)
yy = soup.select("img")    #按標籤進行查詢
print(yy)
ruffix = "jpg"     #儲存字尾


i = 1
for temp in yy:
#	print(temp['src'])
	print('-'*50)
	print(temp.prettify())
	str =temp['src'].encode('gbk')     #unicode編碼轉為string型別,查詢字尾
	ruffix = str[str.rfind('.'):str.rfind('.')+4:1]
	print(ruffix)
	print(type(str))
	if str.find("htt") != -1:
		print(temp['src'])
		urllib.urlretrieve(temp['src'],filename="/home/lxt/Desktop/pach/4399Pic/%d%s"%(i,ruffix))   #儲存圖片到本地
		i+=1
		time.sleep(1)

網路爬蟲的簡易實現(1)

這個爬蟲主要實現對http://pic.yesky.com這個網站圖片的爬取； import urllib import urllib2 import re import time from bs4 import BeautifulSoup send_headers = {

DHT網路爬蟲的實現

DHT協議原理以及一些重點分析：要做DHT的爬蟲，首先得透徹理解DHT，這樣才能知道在什麼地方究竟該應用什麼演算法去解決問題。關於DHT協議的細節以及重要的參考文章，請參考文末1 DHT協議作為BT協議的一個輔助，是非常好玩的。它主要是為了在BT正式下載

使用MATLAB的神經網路工具箱簡易實現BP網路

%準備好訓練集 %人數(單位：萬人) numberOfPeople=[20.55 22.44 25.37 27.13 29.45 30.10 30.96 34.06 36.42 38.09 39.13 39.99 41.93 44.59 47.30 52.89 55.73

C++網路爬蟲的實現——WinSock程式設計

寫了一個網路爬蟲，可以抓取網上的圖片。需要給定初始網站即可。在vs2010中編譯通過。需要使用多位元組字符集進行編譯， vs2010預設的是Unicode字符集。編譯後，執行即可，有驚喜哦！！！爬蟲原理從最開始的網址開始，在其中找到連結到其他網頁的超連

python3實現網路爬蟲（2）--BeautifulSoup使用（1）

這一次我們來了解一下美味的湯--BeautifulSoup，這將是我們以後經常使用的一個庫，並且非常的好用。 BeautifuleSoup庫的名字取自劉易斯·卡羅爾在《愛麗絲夢遊仙境》裡的同名詩歌。在故事中，這首歌是素甲魚唱的。就像它在仙境中的說法一樣，BeautifulS

python3實現網路爬蟲（1）--urlopen抓取網頁的html

準備開始寫一些python3關於爬蟲相關的東西，主要是一些簡單的網頁爬取，給身邊的同學入門看。首先我們向網路伺服器傳送GET請求以獲取具體的網頁，再從網頁中讀取HTML內容。我們大家平時都使用網路瀏覽器，並且它已經成為我們上網不可或缺的軟體。它建立資訊的資

用java實現一個簡易編譯器1-詞法解析入門

new 概念自加我們 sta 數字獲得 () 操作系統本文對應代碼下載地址為： http://download.csdn.net/detail/tyler_download/9435103 視頻地址： http://v.youku.com/v_show/id_XMT

淺談網路爬蟲中深度優先演算法和簡單程式碼實現

學過網站設計的小夥伴們都知道網站通常都是分層進行設計的，最上層的是頂級域名，之後是子域名，子域名下又有子域名等等，同時，每個子域名可能還會擁有多個同級域名，而且URL之間可能還有相互連結，千姿百態，由此構成一個複雜的網路。當一個網站的URL非常多的時候，我們務必要設計好URL，否則在後期的理解

搜片神器之DHT網路爬蟲的程式碼實現方法

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

Python爬蟲實戰專案1 | 基礎爬蟲的實現（爬取100條百度百科詞條）

【基礎爬蟲篇】本篇講解一個比較簡單的Python爬蟲。這個爬蟲雖然簡單，但五臟俱全，大爬蟲有的模組這個基礎爬蟲都有，只不過大爬蟲做的更全面、多樣。 1.實現的功能：這個爬蟲實現的功能為爬取百度百科中的詞條資訊。爬取的結果見6。 2.背景知識：(1).Python語法；(2).Be

淺談網路爬蟲中廣度優先演算法和程式碼實現

前幾天給大家分享了網路爬蟲中深度優先演算法的介紹及其程式碼實現過程，沒來得及上車的小夥伴們可以戳這篇文章——淺談網路爬蟲中深度優先演算法和簡單程式碼實現。今天小編給大家分享網路爬蟲中廣度優先演算法的介紹及其程式碼實現過程。廣度優先演算法和深度優先演算法恰好相反，這裡繼續以上圖的二叉樹為例。

Python網路爬蟲之股票資料Scrapy爬蟲例項介紹，實現與優化！（未成功生成要爬取的內容！）

結果TXT文本里面竟然沒有內容！cry~ 編寫程式：步驟： 1. 建立工程和Spider模板 2. 編寫Spider 3. 編寫ITEM Pipelines 程式碼：成功建立 D:\>cd pycodes D:\pycodes>

Java基於httpclient獲取網頁資料，實現簡單網路爬蟲

1、pom檔案引入httpclient依賴 <dependency> <groupId>org.apache.httpcompon

《 Python3 網路爬蟲開發實戰》學習筆記1-爬蟲基礎

本記錄將按照本人的學習程序，將學習過程中遇到的問題和重難點如實記錄下來，一個是鞏固自身所學，另一個也希望能對後來人有所幫助。目錄（第1部分）第1章開發環境配置第2章爬蟲基礎 2.1 HTTP基本原理 2.1.1 URI和URL 2.1.2超文字 2.1

嵩天教授的Python網路爬蟲與資訊提取課程筆記——單元1. requests庫入門

本文目錄 Requests庫介紹 requests.get(url, params, **kwargs)方法及其他請求方法介紹 Response類屬性簡介 Reponse類中的encoding與app

python3網路爬蟲——day1-1

網路爬蟲教材： python3 網路爬蟲開發實戰——崔慶才直接從第二章開始學習。 2.1 HTTP基本原理 URI:Uniform Resource Identifier，統一資源識別符號 URL:Uniform Resource Locator ，統一資源定位符

網路爬蟲入門1

網路爬蟲包括了四大部分：url管理器，url下載器，url解析器，url輸出器。最後由主程式呼叫者四個部分首先來看 url管理器：主要功能是將未解析的url和已經解析過的url分開，以防重複解析 url_manager.py class UrlManager

利用Python網路爬蟲實現對網易雲音樂歌詞爬取

今天小編給大家分享網易雲音樂歌詞爬取方法。本文的總體思路如下：找到正確的URL，獲取原始碼；利用bs4解析原始碼，獲取歌曲名和歌曲ID；呼叫網易雲歌曲API，獲取歌詞；將歌詞寫入檔案，並存入本地。本文的目的是獲取網易雲音樂的歌詞，並將歌詞存入到本地檔案。整

python3網路爬蟲第三章: Scrapy 爬蟲框架 (1)

1.認識目錄結構安裝略過,使用命令建立專案 scrapy startproject myfirstpjt 這裡面 scrapy.cfg 是爬蟲專案配置檔案,專案的同名子資料夾中,init.py 是初始化檔案,items.py 是爬蟲專案的資料容器檔案,piplines

基於HttpClient4.5實現網路爬蟲

個人部落格站已經上線了，網址 www.llwjy.com ~歡迎各位吐槽~-------------------------------------------------------------------------------------------------

網路爬蟲的簡易實現(1)

相關推薦