python實戰

阿新 • • 發佈：2018-06-15

Go btn 美食 RM 所有 ML row 寫入產品

這個實戰內容包含，selenium、pyquery、re、pymongo
pymongo安裝去這裏：http://blog.51cto.com/13155409/2125020
實戰抓取淘寶美食信息並且存入MongoDB數據庫中

實現源碼如下：

import pymongo
from selenium import webdriver
import re
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from pyquery import PyQuery as pq

browser = webdriver.Chrome()         #導入瀏覽器驅動對象
wait = WebDriverWait(browser, 10)    #設置瀏覽器等待時間

client = pymongo.MongoClient(‘192.168.10.15‘)   #創建一個客戶端對象
db = client[‘taobao‘]   #設置數據庫名，會自動建立

def search():
        ‘‘‘
        函數主要功能是：通過webdriver.Chrome打開淘寶網頁，並對“美食”這個關鍵詞進行搜索。
        :return: 返回網頁的響應碼
        ‘‘‘
        browser.get(‘https://www.taobao.com‘)
        input = wait.until(
                EC.presence_of_element_located((By.CSS_SELECTOR,‘#q‘))
        )
        submit =wait.until(
                EC.element_to_be_clickable((By.CSS_SELECTOR, ‘#J_TSearchForm > div.search-button > button‘))
        )
        input.send_keys(‘美食‘)   #輸入搜索的關鍵詞
        submit.click()
        return browser.page_source

def trun_page(page):
        ‘‘‘
        該函數的功能是：實現翻頁
        :param page: 通過search頁面搜索到的內容頁數，返回到主函數，然後通過主函數傳遞到此處
        :return: 已經獲得了第一頁的內容了，第二頁開始就從這裏開始反復調用
        ‘‘‘
        index = wait.until(
                EC.presence_of_element_located((By.CSS_SELECTOR,‘#mainsrp-pager > div > div > div > div.form > input‘))
        )
        submit = wait.until(
                EC.element_to_be_clickable((By.CSS_SELECTOR,‘#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit‘))
        )
        index.clear()   #清除輸入框的內容
        index.send_keys(page)   #輸入page頁碼
        submit.click()   #點擊跳轉的按鈕
        get_products(browser.page_source)

def get_products(html):
        wait.until(
                EC.presence_of_element_located((By.CSS_SELECTOR,‘#mainsrp-itemlist .items .item‘))
                             )
        html = pq(html)    #使用pyquery解析html代碼
        doc = html(‘#mainsrp-itemlist .items .item‘).items()  #通過item產生一個generator類型，使用for循環遍歷
        for item in doc:
                product={
                        "picture": item.find(‘.pic .img‘).attr(‘src‘),
                        ‘name‘: item.find(‘.row.title‘).text().replace(‘\n‘,‘‘),
                        ‘price‘:item.find(‘.price‘).text().replace(‘\n‘,‘‘),
                        ‘deal‘:item.find(‘.deal-cnt‘).text()[:-3],
                        ‘location‘:item.find(‘.location‘).text()
                }
                print(product)
                #save_to_mongodb(product)
        return(html)

def save_to_mongodb(result):
        ‘‘‘
        這個函數主要用於把每頁的信息寫入到MongoDB數據庫中
        ‘‘‘
        try:
                if db[‘product‘].insert(result):   #創建一個product的集合，類似於mysql中的表，然後插入數據
                                print(‘存儲到MongoDB成功‘)
        except Exception:
                print(‘存儲到MongoDB出錯‘)

def main():         #定義主函數
        # 調用搜索函數 (對關鍵詞搜索，本文中是以“美食”在淘寶搜索)
        html = search()

        # 調用該函用以獲取單頁的所有產品的信息
        html = get_products(html)

        #通過上面get_products()返回經過pyquery解析後的html代碼，用於獲取總頁數
        total = html(‘.total‘).text()
        total = int(re.search(‘(\d+)‘,total).group(1))
        print(total)  #打印出總頁數

        #對頁數進行循環，這裏是從 2 開始，因為前面已經獲取一次了
        for page in range(2,total):
                #下面函數主要用於網頁翻頁
                trun_page(page)

if __name__ == "__main__":
        main()

python實戰

Python實戰之dict簡單練習

簡單 fault zhang zha contain default san rom mat [‘__class__‘, ‘__contains__‘, ‘__delattr__‘, ‘__delitem__‘, ‘__dir__‘, ‘__doc__‘, ‘__eq__

python實戰之編碼問題：中文！永遠的痛

輸出 == 技術分享都是 -s dsm font clas ng- 編碼的思維圖譜：也就是說文件沒有編碼之說，事實上都是按二進制格式保存在硬盤中的。不過在寫入讀取時須使用相應的編碼進行處理，以便操作系統配合相關軟件/字體，繪制到屏幕中給人

Python實戰之雙向隊列deque/queue學習筆記及簡單練習

ons rep [] __new__ xtend color int pen queue [‘__add__‘, ‘__bool__‘, ‘__class__‘, ‘__contains__‘, ‘__copy__‘, ‘__delattr__‘, ‘__delitem__

Python實戰之SocketServer模塊

utf8 mixin 程序通過框架 obj 基本使用取數據 rgs 文章出處：http://www.cnblogs.com/wupeiqi/articles/5040823.html SocketServer內部使用 IO多路復用以及 “多線程” 和 “多進程”

Python實戰之路-day2

pre day2 user 插入實戰 color bin 之路 col 我們始終都要遠行，最終都要與稚嫩的自己告別，告別是通向成長的苦行之路。 Hello Python - day2！ Python中的五種內建數據結構: 變量　 name = "guanq

python實戰===石頭剪刀布，簡單模型

人才 choice 實戰 ~~ == spa break cnblogs code #石頭剪刀布 import random import time win_list = [("石頭","剪刀"),("布","石頭"),("剪刀","布")] kind_list=[‘石

Python實戰之Oracle數據庫操作

imp cx_oracle () rar aaa www log 簡單的 i386 1. 要想使Python可以操作Oracle數據庫，首先需要安裝cx_Oracle包，可以通過下面的地址來獲取安裝包 [plain] view plain copy http://c

機器學習python實戰----邏輯回歸

多次 python實戰 ron and 代碼實現技術訓練集錯誤常數　　當看到這部分內容的時候我是激動的，因為它終於能跟我之前學習的理論內容聯系起來了，這部分內容就是對之前邏輯回歸理論部分的代碼實現，所以如果有不甚理解的內容可以返回對照著理論部分來理解，下面我們進入

機器學習python實戰----線性回歸

pyplot 理論普通遍歷 sca def blog reg .so 一、綱要　　線性回歸的正規方程解法　　局部加權線性回歸二、內容詳述　　1、線性回歸的正規方程解法　　線性回歸是對連續型的數據進行預測。這裏討論的是線性回歸的例子，對於非線性回歸先不做討論。這

配置Python實戰開發環境

nbsp 建議 str rtu 需要版本 class 應該安裝python 一、安裝Python和easy_install 和pip 　　新版本的linux下面應該帶有這些環境，沒有自帶的話可以查找google配置。二、配置python運行的虛擬化環境：　　好處：P

python實戰===python控制鍵盤鼠標：pynput

imp lee turn error from lease att using 用法 Python控制鍵盤鼠標：pynput 地址：https://pypi.python.org/pypi/pynput 這個庫讓你可以控制和監控輸入設備。對於每一種輸入設備，它包含一個

python實戰——網絡爬蟲

一定的信息新頁面類型實戰程序工作原理組成我們學習網絡爬蟲的目的： 1，可以私人定制一個搜索引擎，可以深層次的了解搜索引擎的工作原理。 2，大數據時代，要進行數據分析，首先要有數據源，學習爬蟲，可以讓我們獲取更多的數據。 3，從業人員可以可好的利用爬蟲，了解

Ubuntu機器學習python實戰(一)k-近鄰算法

0.12 繪圖 http tps eat 2.6 .sh 輸入重復 2018.4.18Python機器學習記錄一.Ubuntu14.04安裝numpy 1.參考網址 2.安裝代碼: 在安裝之前建議更新一下軟件源 : sudo apt-get update 如果py

Python實戰之unittest使用詳解

python unittest 一 unittest是什麽？unittest是python內置的單元測試框架，具備編寫用例、組織用例、執行用例、輸出報告等自動化框架的條件。使用unittest前需要了解該框架的五個概念: 即test case,test suite,testLoader，test r

python實戰

Go btn 美食 RM 所有 ML row 寫入產品這個實戰內容包含，selenium、pyquery、re、pymongopymongo安裝去這裏：http://blog.51cto.com/13155409/2125020實戰抓取淘寶美食信息並且存入MongoDB

python實戰之原生爬蟲(爬取熊貓主播排行榜)

ref png ret spider find end mod int tps """ this is a module,多行註釋 """ import re from urllib import request # BeautifulSoup:解析數據結構推薦庫

談談Python實戰數據可視化之matplotlib模塊(實戰篇)

學習形式 ubd 數據指向體會 href 內容 for 前沿通過上一篇談談Python實戰數據可視化之matplotlib模塊(基礎篇)的學習，我們初步了解了matplotlib模塊的pyplot基礎，本節實戰將利用CSV模塊獲取某地的天氣數據，並且使用matplo

談談Python實戰數據可視化之pygal模塊(基礎篇)

chrom org col 6.4 定義 nag .py ini aec 前沿對於需要在尺寸不同的屏幕上顯示的圖表，請考慮使用Pygal來生成它們，因為它們將自動縮放，以適合觀看者的屏幕，這樣它們在任何設備上顯示時都會很美觀。接下來我會談談pygal模塊生成線、直方圖的基

談談Python實戰數據可視化之pygal模塊(實戰篇)

這一參數方便打印結果藍色 err from 顯示錯誤前沿通過上一節談談Python實戰數據可視化之pygal模塊(基礎篇)的學習，我們對pygal模塊的使用有了初步的了解，本節將以實戰項目來加深pygal模塊的使用。從網上可以下載JSON格式的人口數據，並使用

4個Python實戰專案，讓你瞬間讀懂Python！

前言 Python 是一種極具可讀性和通用性的程式語言。Python 這個名字的靈感來自於英國喜劇團體 Monty Python，它的開發團隊有一個重要的基礎目標，就是使語言使用起來很有趣。Python 易於設定，並且是用相對直接的風格來編寫，對錯誤會提供即時反饋，對初學者而言是個很好的選擇。

python實戰

相關推薦