selenium爬取新浪滾動新聞新聞

阿新 • • 發佈：2018-12-18

selenium安裝方法

pip3 install selenium

chromedriver安裝方法

chromedriver版本	支援的Chrome版本
v2.41	v67-69
v2.40	v66-68
v2.39	v66-68
v2.38	v65-67
v2.37	v64-66
v2.36	v63-65
v2.35	v62-64
v2.34	v61-63
v2.33	v60-62
v2.32	v59-61
v2.31	v58-60
v2.30	v58-60
v2.29	v56-58
v2.28	v55-57
v2.27	v54-56
v2.26	v53-55
v2.25	v53-55
v2.24	v52-54
v2.23	v51-53
v2.22	v49-52
v2.21	v46-50
v2.20	v43-48
v2.19	v43-47
v2.18	v43-46

windows下安裝：

將下載好的檔案解壓
將chromedriver.exe移到python安裝目錄的Script中即可(可以開啟環境變數檢視python的安裝位置)

mac下安裝

開啟終端
輸入cd /usr/bin
輸入open .
然後把下載解壓好的chromedriver拖到開啟的檔案裡面
輸入chromedriver --version檢查一下

加入環境變數開啟終端,輸入： cd ~ 回車，會進入~資料夾然後輸入：touch .bash_profile，回車執行後，再輸入：open -e .bash_profile 回車會在TextEdit中開啟這個檔案（如果以前沒有配置過環境變數，那麼這應該是一個空白文件）。如果有內容，請在結束符前輸入，如果沒有內容，請直接輸入如下語句：
```
export PATH=$PATH:/usr/local/bin/ChromeDriver
```
然後儲存檔案，就可以看到，已經裝好了，可以試下

以下是爬取新浪滾動新聞頁面的程式碼

from selenium import webdriver
from selenium. 
webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
from selenium.common.exceptions import TimeoutException
from pyquery import PyQuery as pq

browser = webdriver.Chrome()
wait = WebDriverWait(browser, 10)
# 進入爬取頁面
def search():
    try:
        url = 'https://news.sina.com.cn/roll/#pageid=153&lid=2509&k=&num=50&page=1'
        browser.get(url)
        wait.until(EC.presence_of_element_located((By.ID, 'pL_Main')))
        getDetail()
        total = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#d_list > div > span:nth-child(14) > a')))
        return total.text
    except TimeoutError:
        return search()
# 得到具體資訊
def getDetail():
    html = pq(browser.page_source,parser="html")
    content = html.find('#d_list')
    uls = content.find('ul').items()
    for ul in uls:
        lis = ul('li').items()
        for li in lis:
            news = {
                'title': li.find('.c_tit a').text(),
                'href': li.find('.c_tit a').attr('href'),
                'time': li.find('.c_time').text()
            }
            print(news) # 輸出內容
# 爬取下一頁
def next_detail(page_number):
    try:
        nextBotton = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '#d_list > div > span:last-child > a')))
        nextBotton.click()
        wait.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR, '#d_list > div > span.pagebox_num_nonce'), str(page_number)))
        getDetail()
    except TimeoutException:
        next_detail(page_number)

def main():
    total = search()
    total = int(total)
    print(total)
    for i in range(2, total + 1):
        next_detail(i)

if __name__ == '__main__':
    main()

selenium爬取新浪滾動新聞新聞

selenium安裝方法 pip3 install selenium chromedriver安裝方法 chromedriver版本支援的Chrome版本 v2.41 v67-69 v2.40 v66-68 v2.39 v66-68

Webdriver 爬取新浪滾動新聞

Webdriver 爬取新浪滾動新聞初始想法本人現在是國際關係學院2016級的本科生，學的是資訊管理與資訊系統。講道理不知道這個專業到底是幹啥的，現在選擇的後續方向是資料科學與工程，並且在老師的自然語言處理小組。爬蟲是做自然語言處理的基礎嘛，學習機器學習之前先學學怎麼爬取內容還是

[python爬蟲] Selenium爬取新浪微博內容及使用者資訊

登入入口新浪微博登入常用介面：http://login.sina.com.cn/ 對應主介面：http://weibo.com/但是個人建議採用手機端微博入口：http://login.weibo.cn/login/ 其原因是手機端資料相對更輕量型，同時基本資料都齊全，可能缺少些個人基本資訊，如"個人資料

requests, Beautifusoup 爬取新浪新聞資訊

int 爬取 eight tex import soup imp encoding 資訊 import requestsfrom bs4 import BeautifulSoupres = requests.get(‘http://news.sina.com.cn/chin

Python 爬蟲實例（7）—— 爬取新浪軍事新聞

secure host agen cat hand .com cati ica sts 我們打開新浪新聞，看到頁面如下，首先去爬取一級 url，圖片中藍色圓圈部分第二zh張圖片，顯示需要分頁，

4-15 爬取新浪網

xlsx size text num mos das rip bs4 page import requests 3 from bs4 import BeautifulSoup 4 from datetime import datetime 5 import re 6

用Selenium抓取新浪天氣

空氣 rom cell parse beautiful 西北風 port $path 系統環境（1）用Selenium抓取新浪天氣系統環境：操作系統：macOS 10.13.6 python ：2.7.10 用虛擬環境實現一、創建虛擬環境： mkvirtua

python 爬取新浪網站 NBA球員最近2個賽季庫裡前20場資料

1. 分析新浪網站中球員資料的獲取方式(F12 開發者模式，除錯網頁)：一般網站儲存資料的方式分為2種：1. 靜態網頁儲存；2. 動態請求；對於靜態網頁儲存來說，就是開啟瀏覽器中檢視原始碼，就可以從原始碼中獲取所需要的資料；對於動態請求來說，採用F12的開發者模式中，才能從伺服器的

python爬蟲爬取新浪新聞的評論數以及部分評論

首先應該去找到評論數所對應的網頁元素：可以大致猜測，這裡是用JavaScript·去計算評論數量的。重新整理頁面，去觀測頁面的js部分，有沒有對應的連結，仔細檢視：找到之後，點選Preview，看到內部結構：可以看出count部分，total代表了參與人數，show欄位代

爬取新浪新聞

通過scrapy startproject xinlang爬蟲專案：通過scrapy genspider sina "sina.com.cn" 建立spider 建立Items spider: pipelines:

【轉】寫一個簡單的爬蟲來批量爬取新浪網的新聞

工具：Anaconda 先進入該頁，新浪新聞：http://news.sina.com.cn/china/ 往下翻，找到這樣的最新訊息先爬取單個頁面的資訊：（隨便點一個進去），該新聞網址：http://news.sina.com.cn/c/nd/2018-06-08/doc-ihcscwxa1

Python爬取新浪微博用戶信息及內容

pro 目標 oss 來源但是 blog .com 交流 exc 新浪微博作為新時代火爆的新媒體社交平臺，擁有許多用戶行為及商戶數據，因此需要研究人員都想要得到新浪微博數據，But新浪微博數據量極大，獲取的最好方法無疑就是使用Python爬蟲來得到。網上有一些關於使用Py

python：爬取新浪新聞的內容

import requests import json from bs4 import BeautifulSoup import re import pandas import sqlite3 commenturl='https://comment.sina.com.cn/page/info?

python爬取新浪股票資料—繪圖【原創分享】

目標：不做蠟燭圖，只用折線圖繪圖，繪出四條線之間的關係。注：未使用介面，僅爬蟲學習，不做任何違法操作。 1 """ 2 新浪財經，爬取歷史股票資料 3 """ 4 5 # -*- coding:utf-8 -*- 6 7 import num

關於爬取新浪微博，記憶體耗用過高的問題

最近在做網際網路輿情分析時，需要爬取新浪微博做相關實驗。雖然新浪微博開放了相關輿論的API，然而申請什麼的，並不想做，而且輿情變化快，最終還是自己爬取，相關輿情。在用selenium的時候，有時候經常發現記憶體耗

scrapy爬取新浪微博並存入MongoDB中

spider.pyimport json from scrapy import Request, Spider from weibo.items import * class WeiboSpider(Spider): name = 'weibocn'

python3[爬蟲實戰] 爬蟲之requests爬取新浪微博京東客服

爬取的內容為京東客服的微博及評論思路:主要是通過手機端訪問新浪微博的api介面，然後進行資料的篩選，這個主要是登陸上去的微博的url連結，可以看到的介面：這裡主要爬取的內容為：說說，說說下面的評論條目雖然很簡單，但是，不得不說句mmp，爬

用python寫網路爬蟲-爬取新浪微博評論

新浪微博需要登入才能爬取，這裡使用m.weibo.cn這個移動端網站即可實現簡化操作，用這個訪問可以直接得到的微博id。分析新浪微博的評論獲取方式得知，其採用動態載入。所以使用json模組解析json程式碼單獨編寫了字元優化函式，解決微博評論中的嘈雜干擾

70行python程式碼爬取新浪財經中股票歷史成交明細

最近在研究股票量化，想從每筆成交的明細著手，但歷史資料的獲取便是一個大問題，一些股票證券軟體又不能批量匯出成交資料。所以，我花了兩天時間，成功的從新浪財經爬取了我要的資料下面開始新浪股票明細資料介面為格式不用多說symbol=股票程式碼 date=日期 pa

用網路爬蟲爬取新浪新聞----Python網路爬蟲實戰學習筆記

今天學完了網易雲課堂上Python網路爬蟲實戰的全部課程，特在此記錄一下學習的過程中遇到的問題和學習收穫。我們要爬取的網站是新浪新聞的國內版首頁下面依次編寫各個功能模組 1.得到某新聞頁面下的評論數評論數的資料是個動態內容，應該是存在伺服器

selenium爬取新浪滾動新聞新聞

selenium安裝方法

chromedriver安裝方法

windows下安裝：

mac下安裝

以下是爬取新浪滾動新聞頁面的程式碼

相關推薦