爬蟲03-京東資料採集

阿新 • • 發佈：2018-11-01

import time
from selenium import webdriver
from bs4 import BeautifulSoup

url = "https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&wq=%E6%89%8B%E6%9C%BA&cid2=653&cid3=655&page=1&s=1&click=0"

driver = webdriver.Chrome()
driver.implicitly_wait(3)
driver.get(url)

# 模擬下滑到底部操作
for i in range(1, 5):
    driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    time.sleep(1)

# 將載入好的頁面原始碼給bs4解析
soup = BeautifulSoup(driver.page_source, "html.parser")

# 進行資訊的抽取（商品名稱，價格） p-name p-name-type-2
goods_info = soup.select(".gl-item")
for info in goods_info:
    title = info.select(".p-name.p-name-type-2 a")[0].text.strip()
    price = info.select(".p-price")[0].text.strip()
    print(title)
    print(price)

driver.close()

import requests
from bs4 import BeautifulSoup
import json


def check(items):
    if len(items) == 0:
        return "No Public House"
    else:
        return items


def got_html(url):
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) '
                             'Chrome/69.0.3497.100 Safari/537.36'}
    url = 'https://search.jd.com/Search?keyword=Java&enc=utf-8'
    response = requests.get(url, headers=headers)
    html = response.content.decode()
    # print(html)
    return html


def parse_html(html):
    soup = BeautifulSoup(html, 'lxml')
    item_list = soup.select('ul[class="gl-warp clearfix"] li')
    print(len(item_list))
    result = []
    for item in item_list:
        # css選擇器 選擇價格
        data_sku = '.J_' + item.attrs['data-sku'] + ' i'
        # print(data_sku)
        price = item.select(data_sku)[0].get_text()
        result.append(price)
        # print(price)
        # 書名
        name = item.select('div[class="p-name p-name-type-2"]')[0].get_text().strip()
        result.append(name)
        # print(name)
        # 評論數
        data_id = '#J_comment_' + item.attrs['data-sku']
        comments = item.select(data_id)[0].get_text().strip()
        result.append(comments)
        # print(comments)
        # 出版社
        # J_goodsList > ul > li:nth-child(1) > div > div.p-shop > span > a
        public = item.select('div > div.p-shop > span > a')[0].get_text().strip()
        public = check(public)
        result.append(public)
        # print(public)
        return result


def save_data(data):
    data = json.dumps(data, ensure_ascii=False)
    with open('Java_book.json', 'a', encoding='utf-8') as F:
        F.write(data)


def main():
    url_start = 'https://search.jd.com/Search?keyword=Java&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&page='
    url_end = '&s=58&click=0'
    for i in range(1, 11):
        url = url_start + str(i) + url_end
        html = got_html(url)
        details = parse_html(html)
        save_data(details)

爬蟲03-京東資料採集

import time from selenium import webdriver from bs4 import BeautifulSoup url = "https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&enc=utf-8

Python網路爬蟲--歷史天氣資料採集

在很多機器學習應用中，天氣資料為重要的輔助特徵資料，故本文主要介紹如何利用Python獲取歷史天氣資料。目標網站資料爬取的目標網站為天氣網程式設計實現匯入相關包 import requests # 匯入reques

初識python爬蟲 Python網路資料採集1.0 BeautifulSoup安裝測試

*文章說明這個學習資料是Ryan Mitchel的著作<Web Scraping with Python: Collecting Data from the Modern Web>我算是一步一步跟著一起去學習。分享自及遇到的問題。總結*環境說明我使用的是pytho

爬蟲02-淘寶資料採集

""" __title__ = '' __author__ = 'Thompson' __mtime__ = '2018/7/24' # code is far away from bugs with the god animal protecting I love animals. The

學會使用爬蟲程式，高效採集同花順圈子評論資訊資料

大資料是什麼？對於“大資料”（Big data）研究機構Gartner給出了這樣的定義。“大資料”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的資訊資產。而麥肯錫全球研究所給出的定義是：一種規模大到在獲取、儲存、管理、分析方面大大超出了傳統資料庫軟

乾貨推薦|教你使用爬蟲程式零基礎採集噹噹網商品銷售資料

“大資料”這一術語從2008年開始在科技領域中出現，隨之引起學術界的廣泛研究興趣。《Nature》與《Science》雜誌分別出版專刊，從網際網路技術、網際網路經濟學、超級計算、環境科學、生物醫藥等多個方面討論大資料處理和應用專題。世界各國政府也高度重視大資料領域的研究和探索，並從國家戰略的層面推出

資料採集爬蟲ip代理基本原理-飛蟻代理

我們在做爬蟲的過程中經常會遇到這樣的情況，最初爬蟲正常執行，正常抓取資料，一切看起來都是那麼正常，然而一杯茶的功夫可能就會出現錯誤，比如403 Forbidden，這時候開啟網頁一看，可能會看到“您的IP訪問頻率太高”這樣的提示。出現這種現象的原因是網站採取了一些反爬蟲措施。比如，伺服器會檢

淺談資料採集（爬蟲）的一些工作經驗

這裡先談談我的學習背景吧，不喜歡可以繞過，純屬自學之路，然後求職之路，沒有任何技術原理。。學了一個月的python,，可能語法比較簡單的關係，很快就接觸到python爬蟲，一開始我真的很不理解爬蟲是幹什麼的，後來到傳智部落格的官網看了一下python的課程，也發現也有爬蟲的課程，就開始嗑視訊了

python資料採集1-初見爬蟲

初見網路爬蟲網路連線註解當我們在訪問百度(http://www.baidu.com/)，在你敲入網址並按下回車之後，將會發生以下神奇的事情：現在本地的hosts檔案中找url對應的ip，找不到舊區DNS伺服器中找在DN

[雪峰磁針石部落格]2018最佳人工智慧資料採集(爬蟲)工具書下載

Python網路資料採集 Python網路資料採集 - 2016.pdf 本書採用簡潔強大的Python語言，介紹了網路資料採集，併為採集新式網路中的各種資料型別提供了全面的指導。第 1部分重點介紹網路資料採集的基本原理：如何用Python從網路伺服器請求資訊，如何對伺服器的響應

python網路爬蟲-資料採集之遍歷單個爬蟲

之所以稱之為爬蟲（Web Carwler）是因為它們可以沿著網路爬行。它們的本質就是一種遞迴方式。為了找到URL連結，它們必須首先獲取網頁內容，檢查這個頁面的內容，在尋找另外一個URL，然後後獲取URL對應的網頁內容，不斷迴圈這一過程。不過要注意的是：你可以這樣重

爬蟲--網路資料採集

用一週的時間翻完了python網路資料採集，在此整理一下。 0x000資料採集資料採集是一個很寬泛的概念，總的來說應該包含以下部分。選擇採集目標源–>組織構建資料庫–>編寫爬蟲–>資料清洗–>資料整理–>存入資料庫，一般情

Python爬蟲實戰：批量採集股票資料，並儲存到Excel中

小編說：通過本文，讀者可以掌握分析網頁的技巧、Python編寫網路程式的方法、Excel的操作，以及正則表示式的使用。這些都是爬蟲專案中必備的知識和技能。本文選自《Python帶我起飛》。例項描述：通過編寫爬蟲，將指定日期時段內的全部上市公司股票資料爬取下來，並按照股

基於java社會化海量資料採集爬蟲框架搭建（附程式碼）

小數點2014-10-31 9:49:08大資料技術評論(2) 隨著BIG DATA大資料概念逐漸升溫，如何搭建一個能夠採集海量資料的架構體系擺在大家眼前。如何能夠做到所見即所得的無阻攔式採集、如何快速把不規則頁面結構化並存儲、如何滿足越來越多的資料採集還要在有限時間內採

爬蟲框架開發（4）--- 專案實戰——>新浪滾動新聞資訊實時資料採集

要求：儲存文章的標題、作者、釋出時間、正文、正文中的圖片連結、文章連結、文章所屬分類根據網站的實時更新(週期1分鐘)進行採集時間格式儲存為"yyyy-mm-dd HH:MM:SS" 儲存到mysql資料庫程式碼實現如下：新浪滾動的爬蟲檔案： # spid

python爬蟲案例——東方財富股票資料採集

通過python爬取東方財富的股票資訊。獲取每隻股票的：總市值淨資產淨利潤市盈率市淨率毛利率淨利率 ROE先爬取股票匯總頁面。在進入每隻股票的詳情頁，爬取每隻股票的具體資訊。需要安裝BeautifulSoup包（點選下載）、requests包（點選下載）、lxm

資料視覺化三步走（一）：資料採集與儲存，利用python爬蟲框架scrapy爬取網路資料並存儲

前言最近在研究python爬蟲，突然想寫部落格了，那就寫點東西吧。給自己定個小目標，做一個完整的簡單的資料視覺化的小專案，把整個相關技術鏈串聯起來，目的就是為了能夠對這塊有個系統的認識，具體設計思路如下： 1. 利用python爬蟲框架scr

Python網路資料採集（爬蟲）

寫程式碼之前擬個大綱或畫個流程圖是很好的程式設計習慣，這麼做不僅可以為你後期處理節省很多時間，更重要的是可以防止自己在爬蟲變得越來越複雜時亂了分寸。（自己當產品經理）新增處理異常會讓程式碼更好體驗，在寫爬蟲的時候，思考程式碼的總體格局，讓程式碼既可以捕捉異常又容

Flume資料採集結合etcd作為配置中心在爬蟲資料採集處理中的架構實踐。

Apache Flume是一個分散式的、可靠的、可用的系統,用於有效地收集、聚合和將大量日誌資料從許多不同的源移動到一個集中的資料儲存，但是其本身是以本地properties作為配置的，配置無法做到動態監聽和更新。一、Flume和ETCD的結合，使用ETCD作為flume 資料採集的配置中心。

爬蟲獲取京東商品價格方法

加載方法 sku 得到 http ets 指導價發現 json數據前幾天打算寫個價格提示器，用於提示自己購買的商品在一個以內價格是否有變動，以便申請價保。京東在這個功能上做得比較隱晦，而且價格調整的比較快。所以打算寫個爬蟲來做這樣的事情後來發現京東頁面上的價格並不是

爬蟲03-京東資料採集

相關推薦