利用urllib和BeautifulSoup基於python3的爬蟲demo

阿新 • • 發佈：2019-02-12

京東金融標題:

# coding=utf-8
from urllib.request import urlopen
from  bs4 import BeautifulSoup

# 開啟url，獲取HTML內容
html = urlopen("http://jr.jd.com")
# 找到所選標籤
bs_obj = BeautifulSoup(html.read(), "html.parser")
text_list = bs_obj.find_all("a", "nav-item-primary")

for text in text_list:
    print(text.get_text())

html.close()

在這裡插入圖片描述

結果：

首頁
財富
眾籌
保險
白條
股票
東家財富
企業金融
金融雲
城市計算

網易歌單:

# -*- coding:utf-8 -*-


from selenium import webdriver
import csv

# 網易雲音樂歌單第一頁的url
url = 'https://music.163.com/#/discover/playlist/?order=hot&cat=%E5%85%A8%E9%83%A8&limit=35&offset=0'
# 用PhantomJS介面建立一個Selenium的webdriver
driver = webdriver.PhantomJS()
# 準備好儲存歌單csv
csv_file = open("playlist.csv", "w", newline='', encoding='utf-8-sig')
writer = csv.writer(csv_file)
writer.writerow(['標題', '播放數', '連結'])
# 解析每一頁，直到‘下一頁’為空
while url != 'javascript:void(0)':
    # 用webDriver載入頁面
    driver.get(url)
    # 切換到內容的iframe
    driver.switch_to.frame("contentFrame")
    # 定位歌單標籤
    data = driver.find_element_by_id("m-pl-container").find_elements_by_tag_name("li")
    # 解析一頁中所有歌單
    for i in range(len(data)):
        # 獲取播放數
        nb = 0
        if data[i].find_element_by_class_name("nb"):
            nb = data[i].find_element_by_class_name("nb").text
        if '萬' in nb and int(nb.split("萬")[0]) > 1000:
            # 獲取播放數大於500萬的歌單的封面
            msk = data[i].find_element_by_css_selector("a.msk")
            # 把封面上的標題和連結連同播放數一起寫到檔案中
            writer.writerow([msk.get_attribute('title'), nb, msk.get_attribute('href')])
            # 定位'下一頁'的url
    url = driver.find_element_by_css_selector("a.zbtn.znxt").get_attribute('href')
csv_file.close()

在這裡插入圖片描述

結果：

標題,播放數,連結
你的青春裡有沒有屬於你的一首歌？,5260萬,https://music.163.com/playlist?id=2201879658
耳朵喜歡你 好聽到可以單曲迴圈,4222萬,https://music.163.com/playlist?id=2232237850
2018上半年最熱新歌TOP50,1588萬,https://music.163.com/playlist?id=2303649893
〖純音樂〗輕旋淡律，也可以抓住你的耳朵,1114萬,https://music.163.com/playlist?id=2235097256
失戀必聽歌單 | 因為你突然聽懂了很多歌,1332萬,https://music.163.com/playlist?id=2385384236
【經典】聼一首老歌，想念一段時光,1366萬,https://music.163.com/playlist?id=2236351380
單循輯｜我想和你共享耳機,2272萬,https://music.163.com/playlist?id=2337333174
予你情詩百首，餘生你是我的所有,2208萬,https://music.163.com/playlist?id=2230318386
這麼熱的天 當然要勤洗頭啦,1091萬,https://music.163.com/playlist?id=2258899307
“以前喜歡一個人，現在喜歡一個人”,1121萬,https://music.163.com/playlist?id=2329680016
歐美精選 | 嗨 夥計 要來首10w+嗎？,1041萬,https://music.163.com/playlist?id=2301227992
攢了一大堆好聽的歌想和你一起聽,3447萬,https://music.163.com/playlist?id=2353471182
這世界上情歌那麼多，卻沒有一首屬於我,1812萬,https://music.163.com/playlist?id=2335662972
2018年十月最熱新歌TOP50,1373萬,https://music.163.com/playlist?id=2494952275
別急，甜甜的戀愛馬上就輪到你了,1667萬,https://music.163.com/playlist?id=2430524968
聽說你也在找好聽的華語歌,1521萬,https://music.163.com/playlist?id=2438292020
翻唱比原唱好聽系列（個人向）,1125萬,https://music.163.com/playlist?id=2250548490
最是粵語最為情深 也唯獨你最難忘懷,1280萬,https://music.163.com/playlist?id=2388322013
提神醒腦 瘋狂抖腿魔性搖頭.GIF,1251萬,https://music.163.com/playlist?id=2364146680

注意：
1.亂碼問題：

csv_file = open("playlist.csv", "w", newline='', encoding='utf-8-sig')
//encoding='utf-8-sig' 避免寫入亂碼

2.url的http是否帶s
3.find_elements_by_tag_name與find_elements_by_tag_name的區別，一個帶s，一個不帶

利用urllib和BeautifulSoup基於python3的爬蟲demo

京東金融標題: # coding=utf-8 from urllib.request import urlopen from bs4 import BeautifulSoup # 開啟url，獲取

node 利用http和cheerio編寫簡易爬蟲

trim -s 監聽 fin this init utf8 爬蟲簡易爬蟲首先cnpm init創建一個package.json 引入cheerio模塊 cnpm install --save cheerio 然後開始編寫代碼 let cheerio = requi

基於python3爬蟲的對12306餘票查詢的圖形介面

學了爬蟲也有將近四個月了，寫過的爬蟲也有蠻多的。最近剛要開學，學生來校大多坐火車來，就尋思做一個餘票查詢的小工具，順帶溫習一下所學的爬蟲知識還有對python程式設計的一些用法，將從12306網上爬取到達實時資料做成圖形介面，以下便是我的小工具的vers

利用HttpClient和HtmlParser構造簡單爬蟲

/** * 爬蟲主方法入口類 * @author Qing * */ public class Clawler { /** * 用種子url初始化url佇列 * @param seeds */ private void initCrawlerWit

Python3網絡爬蟲(二)：利用urllib.urlopen向有道翻譯發送數據獲得翻譯結果

-c doctype result click 如果 enc tex 自己數據一、urlopen的url參數 Agent url不僅可以是一個字符串，例如:http://www.baidu.com。url也可以是一個Request對象，這就需要我們先定義一個

Python3網絡爬蟲(一)：利用urllib進行簡單的網頁抓取

robot 資源 urlopen 解碼支付寶編碼方式只需要服務器 net 一、預備知識 1.Python3.x基礎知識學習：可以在通過如下方式進行學習： (1)廖雪峰Python3教程(文檔)： URL：http://www.liaoxue

python3爬蟲入門（urllib和requests簡單使用）

知道python有強大的的爬蟲庫，但是對於我們普通小白來說，寫一個完整的爬蟲需要知道什麼甚至瞭解什麼都是很重要的。掌握了這些基本點，才能夠熟悉爬蟲的構成和獲取有用的資訊。編寫一個小爬蟲個人感覺可以分為三個階段： 1：請求，這個就是使用urlib2或者requests

Python爬蟲（urllib.request和BeautifulSoup）

學習urllib.request和beautifulsoup，並從dribbble和behance上爬取了一些圖片，記錄一下。一、urllib.request 1. url的構造構造請求的url遇到的主要問題是如何翻頁的問題，dribbble網站是下拉到底自動載入下

Python3.6 爬蟲初體驗--urllib、beautifulsoup（一）

經常查詢IP地址相關，有時目標太多需要批量操作，於是想到python爬蟲，批量查詢、模式輸出，廢話不多說，程式碼奉上！ p.s. 涉及到的兩個主要模組–urllib、BeautifulSoup p.s. 本文主要介紹以上兩模組使用，故涉及到的IP查詢網站就用

基於BeautifulSoup的Python3實戰：四周實現爬蟲系統筆記

章節1 第零周：開始之前勤快寫，多動手，不浮躁，堅持堅持堅持。-----慢慢來，做完美科學上網好的IDE 工具理解模仿實戰畫流程圖，新增異常處理幾種爬蟲比較 urllib+正則：無第三方依賴 requests+BeautifulSoup：libra

Python3網路爬蟲——（1）利用urllib進行簡單的網頁抓取

利用urllib進行簡單的網頁抓取urllib是Python提供的用於操作URL的模組l、快速使用urllib爬取網頁# -*- coding: UTF-8 -*- from urllib import

Python3網路爬蟲(一)：利用urllib進行簡單的網頁抓取

執行平臺：Windows Python版本：Python3.x IDE：Sublime text3 一直想學習Python爬蟲的知識，在網上搜索了一下，大部分都是基於Python2.x的。因此打算寫一個Python3.x的爬蟲筆記，以便後續回顧

第一個爬蟲程式，基於requests和BeautifulSoup

斷斷續續學了1年多python，最近總算感覺自己入門了，記錄下這幾天用requests和BeautifulSoup寫的爬蟲。 python的環境是anaconda+pycharm。直接上程式碼 @requires_authorization """

python網絡爬蟲-正則表達式和BeautifulSoup

python www. dns pytho .com .html soup jin dnn ilaiut澇脊贅沙級撇http://www.docin.com/app/user/userinfo?userid=179057661ldn5ng押靨撓被槳映http://shufa

Python3爬蟲(1)_使用Urllib進行網絡爬取

onkeydown role dism 百度 parse format enter art 百度百科網絡爬蟲又被稱為網頁蜘蛛，網絡機器人，在FOAF社區中間，更經常的稱為網頁追逐者，是一種按照一定的規則，自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的

基於Requests和BeautifulSoup實現“自動登錄”

mem input set 用戶驗證 bin spa ida password live 基於Requests和BeautifulSoup實現“自動登錄”實例自動登錄抽屜新熱榜 #!/usr/bin/env python # -*-

python3爬蟲-快速入門-爬取圖片和標題

瀏覽器 ebr tle path requests itl edi 大致應用直接上代碼，先來個爬取豆瓣圖片的，大致思路就是發送請求-得到響應數據-儲存數據，原理的話可以先看看這個 https://www.cnblogs.com/sss4/p/7809821.html

更新版-基於python3實現的抓取騰訊視頻所有電影的爬蟲-親測可用

地址找到換行 download 8.0 txt nload details nexus 本人Python小白一枚(妹)，大家都說爬蟲是python入門必學，找了幾個實例，無奈無法運行，猜測可能是技術更新太快，有些已經不適用了。本著學習的決心，試試能不能調通。原貼地址

【Python3爬蟲】Scrapy使用IP代理池和隨機User-Agent

findall 4.3 sdch 5.0 agen and 由於付費 status 在使用爬蟲的時候，有時候會看到由於目標計算機積極拒絕，無法連接...，這就是因為我們的爬蟲被識別出來了，而這種反爬蟲主要是通過IP識別的，針對這種反爬蟲，我們可以搭建一個自己的IP代理池，

Python爬蟲實習筆記 | Week2 Python正則和BeautifulSoup學習與試煉

2018/10/22 23 1.所思所想：今天狀態一直不佳，一是因為自己晚上晚睡，睡眠不足，比較睏倦;二是自己爬蟲基礎還不牢靠，還需要努力學習，比較慚愧;三是之前的專案，組長趙某乃不值得信賴之人物，使得自己多生煩憂，《MySQL》也上交了。。還好下午把學長寫的爬蟲跑通了，今天下午把程式碼理解一遍，然

利用urllib和BeautifulSoup基於python3的爬蟲demo

京東金融標題:

網易歌單:

相關推薦