Python3-selenium\phantomjs\bs4爬取鬥魚頁面

阿新 • • 發佈：2019-02-04

from selenium import webdriver
import time
from bs4 import BeautifulSoup

class douyuSelenium():
    #初始化，啟動鬥魚瀏覽器
def setup(self):
        self.driver=webdriver.PhantomJS()

    #獲取鬥魚房間資訊
def testDouyu(self):
        self.driver.get('https://www.douyu.com/directory/all')

        while True:
            time.sleep(2 
)

            #指定解析器，生成一個soup物件
soup=BeautifulSoup(self.driver.page_source,'lxml')

            # 獲取當前頁面所有的房間標題，觀眾人數
titles=soup.find_all('h3',{'class':'ellipsis'})
            # for title in titles:
            #     title=title.text.strip()
            #     print(title)
            # #人氣
nums=soup.find_all('span' 
,{'class':'dy-num fr'})
            # for num in nums:
            #     num=num.text.strip()'房間標題：'+title.text.strip()+'\t'+'人氣：'+num.text
            #     print(num)
            # print(title+'\t'+num)
for title,num in zip(titles,nums):#感覺標題和人氣不匹配
info='房間標題：' + title.text.strip() + '\t' + '人氣：'  
+ num.text
                print(info)

            #下一頁
            #查詢下一頁
            # self.driver.find_element_by_class_name('shark-pager-next shark-pager-disable shark-pager-disable-next')
if self.driver.page_source.find('shark-pager-disable-next')!=-1:
                break
#點選
next_page=self.driver.find_element_by_class_name('shark-pager-next')
            next_page.click()
    #退出
def shutdown(self):
        print('載入完成。。。。')
        self.driver.quit()
if __name__=='__main__':
    douyu=douyuSelenium()
    douyu.setup()
    douyu.testDouyu()
    douyu.shutdown()

Python3-selenium\phantomjs\bs4爬取鬥魚頁面

from selenium import webdriver import time from bs4 import BeautifulSoup class douyuSelenium():

Python3使用selenium爬取鬥魚直播平臺數據

進入鬥魚平臺首頁，點選頁面底部下一頁，發現url地址沒有發生變化，這樣的話再使用urllib2傳送請求將獲取不到完整的資料，這時候我們可以使用selenium和Chrome來模擬瀏覽器點選下一頁，這樣就可以獲取到完整的響應資料了程式程式碼： from selenium import

Python爬蟲-爬取鬥魚網頁selenium+bs

爬取鬥魚網頁（selenium+chromedriver得到網頁，用Beasutiful Soup提取資訊） ============================= ================================= =============================

多線程Beatiful Soup爬取鬥魚所有在線主播的信息

category con 讀取教程 stc https rom webkit date 　　最近看了個爬蟲的教程，想著自己也常在鬥魚看直播，不如就拿它來練練手。於是就寫了個爬取鬥魚所有在線主播的信息，分別為類別、主播ID、房間標題、人氣值、房間地址。　　需要用到的工具p

python+scrapy爬取鬥魚圖片

建立scrapy的專案請參考：https://blog.csdn.net/qq_35723619/article/details/83614670 items的實現： DouyumeinvSpider建立：這次我們爬去的是json資料包：我們可以通過network監控：

爬取鬥魚平臺

知識點： 1.運用selenium自動化驅動模組 2.find_elements_by_xpath（）與fin_element_by_xpath（）的區別，以及對元素的定位，內容的提取 3.獲取請求下一頁方法，注：time.sleep() 程式碼： #encoding=utf-8

【爬蟲小程式：爬取鬥魚所有房間資訊】Xpath(執行緒池版)

# 本程式親測有效,用於理解爬蟲相關的基礎知識，不足之處希望大家批評指正 from queue import Queue import requests from lxml import etree from multiprocessing.dummy import Pool import t

【爬蟲小程式：爬取鬥魚所有房間資訊】Xpath(多執行緒版)

# 本程式親測有效,用於理解爬蟲相關的基礎知識，不足之處希望大家批評指正 from queue import Queue import requests from lxml import etree from threading import Thread "

【爬蟲小程式：爬取鬥魚所有房間資訊】Xpath(多程序版)

# 本程式親測有效,用於理解爬蟲相關的基礎知識，不足之處希望大家批評指正 1 import requests 2 from lxml import etree 3 from multiprocessing import JoinableQueue as Queue 4 from

爬取鬥魚主播名字和熱度

from selenium import webdriver from lxml import etree import csv # 建立瀏覽器物件,發請求 driver = webdriver.Chrome() driver.get("https://www.douyu.com/director

Python爬取鬥魚的彈幕，看看奇葩網友都說了些什麽

run 重要技術直接執行 number encoding noop 一段 0.前言前幾天(寒假前咯)閑著無聊，看到舍友們都在看鬥魚TV，雖然我對那些網絡遊戲都不是非常感興趣,但是我突然間想到，如果我可以獲取上面的彈幕內容,不就有點意思了麽？ 1.分析階段如果我想要

Python爬取鬥魚的彈幕，看看奇葩網友都說了些什麼

0.前言前幾天(寒假前咯)閒著無聊，看到舍友們都在看鬥魚TV，雖然我對那些網路遊戲都不是非常感興趣,但是我突然間想到，如果我可以獲取上面的彈幕內容,不就有點意思了麼？ 1.分析階段如果我想要抓取網頁上面的東西，無非就是兩種方法使用瀏覽器，手工（自己點選）或者非手工（

java爬取鬥魚：與虎牙對比

看了下鬥魚的基礎頁面，感覺和虎牙的有點像，但是實際上確有點不同。首先想要獲取頁數，看了鬥魚的html頁面，發現卻不顯示頁面。這是因為鬥魚把介面藏在了js頁面中，谷歌瀏覽器的右擊檢查那麼接下來就是選取一款可以解析js的工具並且提取裡面的資訊了。

python 爬取鬥魚 Ajax動態載入js分頁使用phontomjs無介面瀏覽器

python2.7版本 #coding:utf8 import unittest from selenium import webdriver from bs4 import BeautifulSo

使用Scrapy爬取鬥魚圖片

1.具體檔案結構 2.程式碼： items # -*- coding: utf-8 -*- # Define here the models for your scraped items # # See documentation in: # http://doc.

Python爬蟲實例（二）使用selenium抓取鬥魚直播平臺數據

def 獲取平臺 es2017 抓取設置 log ips driver 程序說明：抓取鬥魚直播平臺的直播房間號及其觀眾人數，最後統計出某一時刻的總直播人數和總觀眾人數。過程分析：一、進入鬥魚首頁http://www.douyu.com/directory/all 進

python3爬蟲 -----爬取鬥圖息-------www.doutula.com

run __init__ args gin uid == utf-8 date src 普通爬取： 1 # -*- coding:utf-8 -*- 2 # author:zxy 3 # Date:2018-10-21 4 import requests 5 f

python3使用Selenium+Chrome+BeautifulSoup爬取國家統計局資料

資料網址：https://link.jianshu.com/?t=http%3A%2F%2Fdata.stats.gov.cn%2Feasyquery.htm%3Fcn%3DE0101 爬取目的：爬取固定資產與房地產兩個父指標下，所有子指標裡所有省市自2013年以後的資料使用瀏覽器自

python3[爬蟲實戰] 使用selenium，xpath爬取京東手機（上）

當然了，這個任務也是從QQ群裡面接過來的，主要是想提升自己的技術，一接過來是很開心的，但是，接完之後，寫了又寫，昨晚寫了3小時，前提晚上寫了2小時，搞的有些晚了，搞來搞去就卡在一個地方了，希望懂的大神們多幫忙指點一下，使用selenium ，可能感覺用

Python3+Beautiful Soup4+Selenium爬蟲，爬取網站視訊

其中有個使用瀏覽器的步驟需要根據報錯的提示，下載exe檔案，放到某個目錄，然後再修改Selenium中的原始碼，指明exe的目錄。 import bs4 import urllib.request from selenium import webdriver import

Python3-selenium\phantomjs\bs4爬取鬥魚頁面

相關推薦