爬取京東百度知乎

阿新 • • 發佈：2021-10-07

爬取京東資料商品(單頁)

關於延時等待

有時候我們在訪問網站資料的時候 載入需要一定的時間 沒有載入完全的情況下程式碼極其容易報錯 此時需要我們的等待頁面資料載入完畢 如何精確等待?

bro.implicitly_wait(10) #延時等待十秒(對於正常網速十秒足夠)

關於控制瀏覽器滑鼠滾輪下滑

window.document.body.scrollHeight  # 當前頁面螢幕高度
window.scrollTo  # 滾動到指定位置

import time #匯入時間模組
from selenium import webdriver # 匯入自動控制瀏覽器
from selenium.webdriver.common.keys import 
 Keys #匯入鍵盤模擬輸入
from openpyxl import Workbook
wb=Workbook()
wb1=wb.create_sheet('京東商品資料',0)
wb1.append(['商品圖','價格','詳情','連結','銷量','店鋪名','店鋪連結'])
bro=webdriver.Chrome() #使用谷歌瀏覽器開啟
bro.get('https://www.jd.com/') #開啟京東首頁
bro.implicitly_wait(10) #延時等待 載入完成即可執行命令
key=bro.find_element_by_id('key') #尋找輸入欄所對應的標籤找id欄位 

choice=input('請輸入需要搜尋的內容')
key.send_keys(choice) #輸入搜尋內容
key.send_keys(Keys.ENTER) # 按下enter鍵進入商品頁
for i in range(0,12000,1000): # 使用js程式碼控制滑鼠滾輪向下移動, 總共長度為8000 每一次滾1000的長度 並且延時等待0.5
    bro.execute_script('window.scrollTo(0,%s)'%i)
    time.sleep(0.5)
list=bro.find_elements_by_css_selector('li.gl-item') #獲取整個下拉完成後的頁面li標籤 

# print(len(list))
for li in list: #迴圈獲取list中的li標籤
    img_list=li.find_element_by_css_selector('div.p-img a img') #獲取圖片標籤
    img_src=img_list.get_attribute('src') #獲取圖片標籤內部屬性
    """內部src屬性內部存在懶載入現象"""
    if not img_src: # 懶載入的圖片標籤內部需加上https:構成圖片連結
        img_src='https:'+img_list.get_attribute('data-lazy-img')
    # print(img_src)
    price_list=li.find_element_by_css_selector('div.p-price strong') # 獲取價格所在標籤
    price=price_list.text #獲取價格標籤內部的文字內容
    src_list=li.find_element_by_css_selector('div.p-name a em') #獲取商品描述所在標籤
    src=src_list.text #獲取商品描述標籤內部的文字內容
    link_list=li.find_element_by_css_selector('div.p-name a') #獲取商品連結所在標籤
    link=link_list.get_attribute('href') #獲取標籤內部href屬性
    commit_list=li.find_element_by_css_selector('div.p-commit strong a') #獲取評論所在標籤
    commit=commit_list.text# 獲取評論標籤內部的文字內容
    shop_list=li.find_element_by_css_selector('div.p-shop span a') #獲取店鋪名所在標籤
    shop=shop_list.text# 獲取店鋪名所在標籤中的文字內容
    shop_link=li.find_element_by_css_selector('div.p-shop span a') #獲取店鋪連結所在的標籤
    shoplink=shop_link.get_attribute('href')  # 獲取標籤內部的店鋪連結
    wb1.append([img_src,price,src,link,commit,shop,shoplink])
wb.save('京東商品.xlsx')
bro.close()

知乎登入案例

1.電腦端知乎不登陸是無法直接訪問首頁的
2.network監控傳送登入請求體資料為加密
    加密的程式碼關鍵字:encrypt
    解密的程式碼關鍵字:decrypt
3.搜尋關鍵字encrypt通過斷點除錯檢視到內部真實資料
client_id=c3cef7c66a1843f8b3a9e6a1e3160e20&grant_type=password&timestamp=1566371889615&source=com.zhihu.web&signature=849409fe69f76b28a7ebfa95f0acc784d7c812bf&username=+8618896530856&password=dadasdasdas&captcha=nngt&lang=en&utm_source=&ref_source=other_https://www.zhihu.com/signin?next=%2F

百度自動登入

from selenium import webdriver
import time

# 1.使用谷歌瀏覽器訪問百度首頁
bro = webdriver.Chrome()
bro.get('https://www.baidu.com/')
# 2.查詢頁面上的登入按鈕
login_tag = bro.find_element_by_id('s-top-loginbtn')
# 3.點選登入按鈕
time.sleep(0.5)
login_tag.click()
'''延遲等待:頁面資料有時候需要時間載入 但是程式碼不會自動等'''
time.sleep(3)
# 4.查詢點選簡訊登入按鈕
message_tag = bro.find_element_by_id('TANGRAM__PSP_11__changeSmsCodeItem')
message_tag.click()
time.sleep(0.5)
# 5.查詢手機號輸入框並填寫內容
phone_tag = bro.find_element_by_id('TANGRAM__PSP_11__smsPhone')
phone_tag.send_keys(13585515712)
time.sleep(0.5)
# 6.查詢傳送驗證碼按鈕並點選
btn_tag = bro.find_element_by_id('TANGRAM__PSP_11__smsTimer')
btn_tag.click()
time.sleep(0.5)
# 7.查詢並點選登入按鈕
submit_tag = bro.find_element_by_id('TANGRAM__PSP_11__smsSubmit')
submit_tag.click()
time.sleep(0.5)

bro.close()

爬取京東百度知乎

爬取京東資料商品(單頁) 關於延時等待有時候我們在訪問網站資料的時候載入需要一定的時間沒有載入完全的情況下程式碼極其容易報錯此時需要我們的等待頁面資料載入完畢如何精確等待?

python爬蟲實戰之爬取任意百度圖片（升級版）

技術標籤：python的學習之旅python百度爬蟲 python爬蟲實戰之爬取任意百度圖片（升級版）

Python如何使用正則表示式爬取京東商品資訊

京東（JD.com）是中國最大的自營式電商企業，2015年第一季度在中國自營式B2C電商市場的佔有率為56.3%。如此龐大的一個電商網站，上面的商品資訊是海量的，小編今天就帶小夥伴利用正則表示式，並且基於輸入的關鍵詞來

Python基於BeautifulSoup爬取京東商品資訊

今天小編利用美麗的湯來為大家演示一下如何實現京東商品資訊的精準匹配~~

Python利用Xpath選擇器爬取京東網商品資訊

HTML檔案其實就是由一組尖括號構成的標籤組織起來的，每一對尖括號形式一個標籤，標籤之間存在上下關係，形成標籤樹；XPath 使用路徑表示式在 XML 文件中選取節點。節點是通過沿著路徑或者 step 來選取的。

Python CSS選擇器爬取京東網商品資訊過程解析

CSS選擇器目前，除了官方文件之外，市面上及網路詳細介紹BeautifulSoup使用的技術書籍和部落格軟文並不多，而在這僅有的資料中介紹CSS選擇器的少之又少。在網路爬蟲的頁面解析中，CCS選擇器實際上是一把效率甚高的利

爬取京東商城商品資訊

0x01 基於chrome+selenium爬取京東商城8G記憶體條 from selenium import webdriver from selenium.webdriver import ActionChains #獲取屬性

看看最近京東哪些產品最火，Python爬取京東的商品排行

確立需求目標之所以寫爬蟲，肯定是有需求才會寫，不然就沒啥意義了。我們今天這個爬蟲主要的任務就是，輸入一個關鍵字，然後將京東返回的商品結果按一定的條件取得前十的商品名稱和價格。知道了要幹什麼，就開始上乾

Java 利用爬蟲爬取京東、天貓商品資訊

是不是所有練習爬蟲的人都會去爬取商品資訊。。。下面是爬取京東上商品資訊的程式碼(只爬取了一頁資料)

Python爬取京東商品使用者的評價

一、爬取京東商品手機的使用者評價，包括評價、顏色、手機型號並存入資料庫（MySQL）

基於Python爬取京東雙十一商品價格曲線

一年一度的雙十一就快到了，各種砍價、蓋樓、挖現金的口令將在未來一個月內充斥朋友圈、微信群中。玩過多次雙十一活動的小編表示一頓操作猛如虎，一看結果2毛5。浪費時間不說而且未必得到真正的優惠，雙十一電商的“

利用Python爬取京東商品的一種辦法

前言如今的京東、淘寶、天貓等等已經不同往日了, 在使用者不登入的情況下, 很難通過技術手段來大規模獲取到我們關注的商品資訊. 關於京東等購物網站的自動登入也有很多人在做, 但是大廠的反爬能力確實很強, 目

python 爬蟲爬取京東ps4售賣情況

程式碼 #!/usr/bin/env python # -*- coding: utf-8 -*- # @File : HtmlParser.py # @Author: 趙路倉 # @Date : 2020/3/17

php-webdriver：PHP控制瀏覽器動作爬取京東商品

技術標籤：LaravelPHPselenium爬蟲laravelphp 專案地址：https://github.com/facebook/php-webdriver

爬蟲實戰：批量爬取京東內衣圖片（自動爬取多頁，非一頁）

技術標籤：爬蟲爬蟲python 做下男生想做的事，爬取大量妹子內衣圖。作者：電氣-餘登武

爬蟲-Scrapy（二）爬取糗百笑話-單頁

技術標籤：爬蟲-Scrapy爬蟲python 1. Scrapy 設定檔案修改配置檔案就是專案根路徑下的 settings,py ,改下面的配置資訊

Python爬蟲實戰，Scrapy實戰，爬取並簡單分析知網中國專利資料

前言今天我們就用scrapy爬一波知網的中國專利資料並做簡單的資料視覺化分析唄。讓我們愉快地開始吧~

使用Python 爬取京東，淘寶。商品詳情頁的資料。（避開了反爬蟲機制）

以下是爬取京東商品詳情的Python3程式碼，以excel存放連結的方式批量爬取。excel如下

Python爬蟲爬取京東某商品評論資訊存入mysql資料庫

1 \"\"\" 2 https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100006852812&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&f

python爬取京東商品評論

可爬取的內容上程式碼 import requests import json import csv from lxml import etree from bs4 import BeautifulSoup

爬取京東 百度 知乎

爬取京東資料商品(單頁)

知乎登入案例

百度自動登入

相關推薦

爬取京東百度知乎