python 爬蟲練習

阿新 • • 發佈：2018-04-14

utf 組裝 float request splay isp -o values align

bs去除特定標簽。

# url
import easygui as g
import urllib.request
from bs4 import BeautifulSoup
import os
import sys
import re
import config.story2 as urls

# 獲取url
def set_url():

    msg = "請填寫一下信息(其中帶*號的項為必填項)"
    title = "爬蟲練習"
    fieldNames = ["*小說目錄地址", "*組裝前半段", "後半段"]
    fieldValues  
= []
    fieldValues = g.multenterbox(msg, title, fieldNames)
    while True:
        if fieldValues == None:
            break
        errmsg = ""
        for i in range(len(fieldNames)):
            option = fieldNames[i].strip()
            if fieldValues[i].strip() == "" and option[0] == " 
*":
                errmsg += ("【%s】為必填項   " % fieldNames[i])
        if errmsg == "":
            break
        fieldValues = g.multenterbox(errmsg, title, fieldNames, fieldValues)

    return fieldValues


# 下載網頁內容,找到文章標題和對應的下載路徑
def get_urls(seed_url,pre_url,last_url):
    # 保存文章名稱和地址
    storyList = {}
    response  
= urllib.request.urlopen(seed_url)
    html = response.read().decode(‘utf-8‘)
    bs = BeautifulSoup(html, "html.parser")
    contents = bs.find_all("div", {"class": "c-line-bottom"})
    for each in contents:
        # 或者文章的data-nsrc屬性
        nsrc = each.a["data-nsrc"]
        #組裝url
        seed_url = pre_url+nsrc+last_url
        # 獲取文件標題
        title = each.p.string
        storyList[title] = seed_url

    return storyList

# 獲取每個小說並下載
def getStory():
    savepath = r"E:\\stories\\"
    storyList = get_urls(urls.url1,urls.url2,urls.url3)
    storyNames = list(storyList.keys())
    for i in range(len(storyNames)):
        # 獲取小說：
        html = urllib.request.urlopen(storyList[storyNames[i]]).read().decode(‘utf-8‘)
        bs = BeautifulSoup(html,"html.parser")

        [s.extract() for s in bs(‘br‘)]   # 後來發現這個可以啊
        content = bs.find_all(‘p‘)
        #[ss.extract() for ss in content(‘p‘)]  # 放到這裏是否可以,發現不行。TypeError: ‘ResultSet‘ object is not callable
        # # 用替換方式去掉br修飾，發現不行
        # oldstr = r‘<br style="font-size:16px;font-weight:normal;‘ \
        #          r‘margin-left:4px;margin-right:4px;float:none;color:rgb(0, 0, 0);‘ \
        #          r‘text-align:-webkit-auto;text-indent:0px;white-space:normal;‘ \
        #          r‘text-overflow:clip;clear:none;display:inline;"/>‘
        #

       # print(content)

        with open(savepath+storyNames[i]+".txt",‘w‘) as f:
             f.writelines(str(content))

# download(get_url())
# get_url()
getStory()

python 爬蟲練習

python爬蟲練習1:豆瓣電影TOP250

import ria fff python top font beautiful code pen 項目1:實現豆瓣電影TOP250標題爬取: 1 from urllib.request import urlopen 2 from bs4 import Beaut

python 爬蟲練習

utf 組裝 float request splay isp -o values align bs去除特定標簽。 # url import easygui as g import urllib.request from bs4 import BeautifulS

python爬蟲練習 -- 簽名器+GUI界面（Tkinter）

語言 gen 模塊 geometry rep mode 窗口下載參考效果圖：實現步驟如下：實現原理：其實就是套了一層GUI的殼，主要還是爬蟲抓取某個網站返回的數據，然後利用python自帶的GUI工具包Tkinter來實現gui界面： 1.爬蟲分析：目標站點：

Python爬蟲練習

小P同學學習Python已經有一段時間了，這不，今天開始準備接觸Python爬蟲方面的知識。今天要爬的比較簡單，度娘首頁和搜尋頁 ? 爬蟲之前的準備工作工欲善其事，必先利其器。小P開始對Python的爬蟲工具進行準備。作業系統：Win10 Python

Python爬蟲練習之一：抓取美團資料

{'poiId': 1653468, 'frontImg': 'http://p0.meituan.net/600.600/mogu/7f102559bd246c78d7f2d2ab066a12d0139144.jpg', 'title': '火宴山（大悅城店）', 'avgScore': 4.9, 'all

模擬登陸CSDN -- Python爬蟲練習之正則表示式和cookie

　　這周學習的主題是正則表示式和cookie，原本是計劃每天晚上11點下班到家，練上一兩個鍾就把這部分過了，結果這周各種事情和不再狀態，所以沒整完，直至今天才把相關問題過掉。其實這部分也挺不錯的，也並沒有想象中容易，所以好事多磨。這周練習的綜合習題就是模擬登陸C

Python爬蟲練習三：爬取豆瓣電影分類排行榜

目標網址url: https://movie.douban.com/typerank?type_name=%E5%8A%A8%E4%BD%9C&type=5&interval_id=100:90&action= 使用谷歌瀏覽器的檢查

python爬蟲練習--爬上海法院開庭公告資訊

本次練習的物件是上海法院開庭公告資訊。資料來源如下：該網站是上海法院的官方網站，網站內會公示未來已確定的開庭資訊。如上圖所示，網站顯示共有資料30528條。這些資料就是本次爬蟲的目標。（一）分析頁面1. 開啟google瀏覽器開發者工具，點選頁面下一頁，觀察網路請求可以發現，

Python爬蟲練習——爬取騰訊新聞

在解析後的文字中，使用select選擇器，在文字中選擇指定的元素，通常我們還會使用find()和findall()方法來進行元素選擇。這一步返回的為一個列表，列表內的元素為匹配的元素的HTML原始碼。

python爬蟲練習之爬取豆瓣讀書所有標籤下的書籍資訊

第一步，爬取所有圖書標籤及分類到達圖書標籤頁，分類瀏覽，第一步需要爬取所有分類及其分類下的所有標籤並用dict儲存需要解析的內容 1.bs4解析 import requests from bs4 import Beau

Python練習三:爬蟲練習,從一個提供免費代理的網站中爬取IP地址資訊

西刺代理,http://www.xicidaili.com/,提供免費代理的IP,是爬蟲程式的目標網站. 開始寫程式 import urllib.requestimport re def open_url(url): 　　req = urllib.request.Request(url) 　　req

Python爬蟲--BeautifulSoup4教程、練習

練習1 #coding=utf-8 from bs4 import BeautifulSoup html=""" <html><head><title>The Dormouse's story</title&g

python爬蟲爬取百度貼吧（入門練習）

需求說明：從控制檯輸入指定爬取的貼吧名稱，起始頁面，結束頁面，並在檔案中建立以貼吧名稱+“爬取內容” 為名字建立檔案件，裡面的每一個檔案都是爬取到的每一頁html檔案，檔名稱：貼吧名稱_page.html import urllib.reque

python簡單爬蟲練習

開始學爬蟲了，記錄一下這兩天的瞎鼓搗抓取一個網頁先從最簡單的來，指定一個url，把整個網頁程式碼抓下來，這裡就拿csdn的主頁實驗 # -*- coding: UTF-8 -*- from urllib import request url = 'h

原 python爬蟲——程式碼練習鄭州公交線路的爬取

down_site_list = [] ＃將每條公交的線路資訊存放到字典中item = { '線路名'：bus_number，'執行時間'：run_time，'票價資訊'：ticket_info，'更新時間'：gxsj，'上行站數'：up_total，'上行站點'：up_site_list，'下行站數'：do

Python網路爬蟲練習

1. 豆瓣top250電影 1.1 檢視網頁目標網址：https://movie.douban.com/top250?start=0&filter= start=後面的數字從0，25，50一直到225，共10頁，每頁25條資訊頁面截圖：由此主頁面獲取各個電影的連結，然後分別跳轉至對應對應的連結

一個鹹魚的Python爬蟲之路（三）：爬取網頁圖片

you os.path odin 路徑生成存在 parent lose exist 學完Requests庫與Beautifulsoup庫我們今天來實戰一波，爬取網頁圖片。依照現在所學只能爬取圖片在html頁面的而不能爬取由JavaScript生成的圖。所以我找了這個網站

[Python爬蟲] 之十五：Selenium +phantomjs根據微信公眾號抓取微信文章

頭部 drive lac 過程標題操作函數軟件測試 init 　　借助搜索微信搜索引擎進行抓取　　抓取過程　　1、首先在搜狗的微信搜索頁面測試一下，這樣能夠讓我們的思路更加清晰　　　　　　在搜索引擎上使用微信公眾號英文名進行“搜公眾號&r

Python爬蟲：學爬蟲前得了解的事兒

編寫 election 檢查語言 jpg mage 圖片一個網頁這是關於Python的第14篇文章，主要介紹下爬蟲的原理。提到爬蟲，我們就不得不說起網頁，因為我們編寫的爬蟲實際上是針對網頁進行設計的。解析網頁和抓取這些數據是爬蟲所做的事情。對於大部分網頁來講，它

Python爬蟲-萌妹子圖片

存在創建目錄無效 images width ebr file logs read 最近發現一個可以看圖的地方，一張張翻有點累，畢竟只有一只手（難道鼠標還能兩只手翻？）。能不能下到電腦上看呢，畢竟不用等網速，還可以預覽多張，總之很方便，想怎麽就怎麽，

python 爬蟲練習

相關推薦