Python3_爬蟲實踐（爬取電子書）

阿新 • • 發佈：2018-11-23

一、我的小書屋

　　這個爬蟲能爬取　　http://mebook.cc/　　網站的電子書下載路徑。（只是小練習，侵刪）

　　爬取網站使用了　　BeautifulSoup　　進行解析，

二、爬取原始碼

 1 #!/usr/bin/python
 2 # -*- coding: UTF-8 -*-
 3 import re
 4 import urllib.request
 5 from bs4 import BeautifulSoup
 6 #程式設計書籍
 7 url = "http://mebook.cc/category/gjs/bckf/"
 8 #獲得各個書本的連結 

 9 def getbook(url):
10     html_doc = urllib.request.urlopen(url).read()
11     soup = BeautifulSoup(html_doc,"html.parser",from_encoding="GB18030")
12     links = soup.select('#primary .img a')
13     for link in links:
14         str = link['href'] + link['title'] + '\n'
15         print (str)
 
16         bookfile(str)
17 #將各個書本的連結追加儲存到txt檔案（待處理）
18 def bookfile(str):
19     fo = open("file.txt","a")
20     fo.write(str)
21     fo.close()
22 #獲取所有書本連結
23 def test():
24     getbook(url)
25     for x in range(2,18):
26         url = "http://mebook.cc/category/gjs/bckf/page/" + str(x)
27         try 
:
28             getbook(url)
29             bookfile("第"+str(x)+"頁\n")
30         except UnicodeEncodeError:
31             pass
32         continue
33 # 獲取各個書本的下載連結
34 def getDownload(id):
35     url = "http://mebook.cc/download.php?id="+id
36     html_doc = urllib.request.urlopen(url).read()
37     soup = BeautifulSoup(html_doc,"html.parser",from_encoding="GB18030")
38     links = soup.select('.list a')
39     for link in links:
40         print (link)
41     pwds = soup.select('.desc p')
42     for pwd in pwds:
43         print (pwd.encode(encoding='utf-8' ,errors = 'strict'))
44 
45 #test
46 getDownload(str(25723))

View Code

三、爬取結果

四、問題發現

　　4.1、Python3爬取網站資訊時的gbk編碼問題

　　　　Python預設字元是ASCII的，decode('GBK')或decode('GB18030')都不成

　　　　考慮進行字串處理，參考：https://www.yiibai.com/python/python_strings.html

Python3_爬蟲實踐（爬取電子書）

一、我的小書屋　　這個爬蟲能爬取　　http://mebook.cc/　　網站的電子書下載路徑。（只是小練習，侵刪）　　爬取網站使用了　　BeautifulSoup　　進行解析，二、爬取原始碼 1 #!/usr/bin/python 2 # -*- c

一個簡單Python爬蟲例項（爬取的是前程無憂網的部分招聘資訊）

從今天開始學習爬蟲，展示我的第一個例項（用的是Python3寫的，Python2需要加個編碼方式吧，或許還有其他的不相容的地方吧，我就不知道了），把這分享給大家，希望對大家有一些幫助 import urllib,re import urllib.request import xlwt #開啟網頁

Python爬蟲入門（爬取某網頁財經部分股票資料）

1：反思部分之前上學期也是看過一點點爬蟲的東西，然後時間太久了也基本哪裡學的又還給哪裡了。然後這兩週的時間被班主任的要求下開始一點一點接觸爬蟲，開始的時候覺的很害怕。可能是因為我這個人的性格，對於未接觸過的事物總有一些莫名的恐懼感，而且之前做東西總習慣了旁邊

爬蟲實戰 -- （爬取證券期貨市場失信記錄平臺）

這裡我們要通過實際展示爬取證券期貨市場失信記錄平臺上的搜尋資料。我們現在要通過爬蟲給定一個姓名,機構程式碼，爬取獲得的結果。這裡主要說明兩點： 1. 這是一個動態網頁，因此我採用 selenium 方法。 2.這裡的驗證碼圖片並不在原始碼內，因此前面的

Python爬蟲（前言）：有趣的一個爬蟲例項（爬取段子，笑話，情感句子）

這次準備介紹Python爬蟲爬取網頁資料、解析並應用於實踐，打算寫幾篇文章，從最基礎的Python爬蟲語法開始介紹爬蟲，步步深入，最終實現一個較完整的例項。這一系列文章包括： request庫介紹及應用。 beautifulsoup庫介紹及應用。正則表示式匹配及應

網絡爬蟲（爬取網站圖片，自動保存本地）

accep RoCE itl mage pytho range @class == title 事先申明一點，這個人品沒有什麽問題，只是朋友發一段python源碼，再這裏分享大家。 1 import requests 2 from lxml import html

原生爬蟲（爬取熊貓直播人氣主播排名）

show () 字節碼 content see http color open span ‘‘‘‘ This is a module ‘‘‘ import re from urllib import request # 斷點調試 class Spider()

Python 爬蟲簡單實現（爬取下載連結）

原文地址：https://www.jianshu.com/p/8fb5bc33c78e 專案地址：https://github.com/Kulbear/All-IT-eBooks-Spider 這幾日和朋友搜尋東西的

Python爬蟲實戰專案1 | 基礎爬蟲的實現（爬取100條百度百科詞條）

【基礎爬蟲篇】本篇講解一個比較簡單的Python爬蟲。這個爬蟲雖然簡單，但五臟俱全，大爬蟲有的模組這個基礎爬蟲都有，只不過大爬蟲做的更全面、多樣。 1.實現的功能：這個爬蟲實現的功能為爬取百度百科中的詞條資訊。爬取的結果見6。 2.背景知識：(1).Python語法；(2).Be

python爬蟲設計刷部落格訪問量（刷訪問量，贊，爬取圖片）

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

python爬蟲——記一次前所未有的經歷（爬取魔方格作文）

前言我還是第一次遇到魔方格這麼處理請求的網站，這裡記錄一下過程 1、爬取物件：http://zuowen.mofangge.com/html/zwDetail/20161023/u111424965.html 需要抓取中間作文格里的作文

爬蟲---------scrapy------瀏覽器爬取（）

# -*- coding: utf-8 -*- import scrapy # from scrapy.linkextractors import LinkExtractor # from scrapy.spiders import CrawlSpider, Rule from Zhilia

python實戰之網路爬蟲（爬取新聞內文資訊）

（1）前期準備：開啟谷歌瀏覽器，進入新浪新聞網國內新聞頁面，點選進入其中一條新聞，開啟開發者工具介面。獲取當前網頁資料，然後使用BeautifulSoup進行剖析，程式碼： import requests from bs4 import BeautifulSoup res = requests.

python實戰之網路爬蟲（爬取網頁新聞資訊列表）

關於大資料時代的資料探勘（1）為什麼要進行資料探勘：有價值的資料並不在本地儲存，而是分佈在廣大的網路世界，我們需要將網路世界中的有價值資料探勘出來供自己使用（2）非結構化資料：網路中的資料大多是非結構化資料，如網頁中的資料都沒有固定的格式（3）非結構化資料的挖掘--ETL：即三個步

使用golang+代理IP+goquery開發爬蟲（爬取國外電影網站）

package main import ( "fmt" "github.com/PuerkitoBio/goquery" "net/http" "net/url" "time" "strconv"

Python爬蟲實戰專案2 | 動態網站的抓取（爬取電影網站的資訊）

1.什麼是動態網站？動態網站和靜態網站的區別在於，網頁中常常包含JS，CSS等動態效果的內容或者檔案，這些內容也是網頁的有機整體。但對於瀏覽器來說，它是如何處理這些額外的檔案的呢？首先瀏覽器先下載html檔案，然後根據需要，下載JS等額外檔案，它會自動去下載它們，如果我們要爬取這些網頁中的動態

python爬蟲（爬取羊車門作業的作業）

程式碼如下 import requests import json import time import os from threading import Timer def getHTML(url): try: r=requests.get(url,t

利用python爬蟲技術動態爬取地理空間資料雲中的元資料（selenium）

python爬取地理空間資料雲selenium動態點選爬取的網址秀一下：爬取的資訊是什麼呢？這個資訊的爬取涉及到右邊按鈕的點選，這屬於動態爬取的範疇，需要用到selenium 好了，那麼開始寫程式碼吧首先匯入selenium from seleni

python 爬蟲（爬取網頁的img並下載）

from urllib.request import urlopen # 引用第三方庫 import requests #引用requests/用於訪問網站（沒安裝需要安裝） from pyquery import PyQuery as pq #引用PyQuery用於解析 # def get_url(

java實現簡單的網路爬蟲（爬取電影天堂電影資訊）

在最開始，我們要在網上下載所用到的jar包，應為這只是一個簡單的網路爬蟲所以很多包裡的內容沒有用到。下面幾個包就可以了。並且要引入這些包。主類Bigdata.javaimport org.htmlparser.util.ParserException; public

Python3_爬蟲實踐（爬取電子書）

相關推薦