爬蟲學習筆記--用selenium 爬資料到Mysql

阿新 • • 發佈：2019-02-07

# -*- coding:utf-8 -*-
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import MySQLdb;
import sys
import time
reload(sys)
sys.setdefaultencoding('utf-8')

con = MySQLdb.connect(host='localhost',user='root',passwd='xxxx',db='xiehui',charset="utf8")
cur = con.cursor()

fp = webdriver.FirefoxProfile()
fp.set_preference("permissions.default.stylesheet",2)
fp.set_preference("permissions.default.image",2)
app = webdriver.Firefox(firefox_profile=fp)
app.get("http://www.baidu.com")

search_handle = app.current_window_handle
print str(search_handle) + "------"

search = app.find_element_by_xpath(".//*[@id='kw']")
search.clear()
search.send_keys("songganaiyi")
searbtn = app.find_element_by_xpath(".//*[@id='su']").send_keys(Keys.ENTER)

time.sleep(3)
xiehuicitiao = app.find_element_by_xpath(".//*[@id='1']/h3/a")
xiehuicitiao.click()
time.sleep(3)
all_handle = app.window_handles
print str(all_handle)+"-----------"
for handle in all_handle:
    if handle != search_handle:
        app.switch_to.window(handle)
        # print app.title
        # print app.current_url
        contents = app.find_elements_by_css_selector('div.para')
        for para in contents:
            print str(para.text).strip()
            cur.execute('insert into paras (para) values("%s");' % (str(para.text).strip()))
        cur.close()
        con.commit()
    elif handle == search_handle:
        print "error-----"

app.quit()

這裡我用selenium模擬瀏覽器爬取百度詞條裡的內容儲存到Mysql

有幾個說明的地方

1.中文編碼在Pycharm裡有時會亂碼加上

# -*- coding:utf-8 -*-

和

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

2.python 安裝 mysql的庫會有錯具體請看這篇文章下載安裝

http://www.mamicode.com/info-detail-1222077.html

3.mysql 在插入過程中我遇到了字串有單分號的情況這時會插入失敗

因此插入語句這裡請用雙引號

values("%s")

爬蟲學習筆記--用selenium 爬資料到Mysql

# -*- coding:utf-8 -*- from selenium import webdriver from selenium.webdriver.common.keys import Keys import MySQLdb; import sys import t

【Python3 爬蟲學習筆記】變數與資料型別 2

資料型別的轉換變數的資料型別非常重要，通常情況下只有相同型別的變數才能進行運算。Python提供了簡單的資料型別自動轉換功能：如果是整數與符號運算，系統會先將整數轉換為浮點數再運算，運算結果為浮點型，例如： num1 = 5 + 7.8 # 結果為12.8，浮

python爬蟲學習筆記分析Ajax爬取果殼網文章

有時在使用requests抓取頁面會遇到得到的結果與在瀏覽器中看到的結果不一樣，在瀏覽器檢查元素中可以看到的正常的顯示的網頁資料，但是requests請求得到的結果卻沒有。這是因為requests請求得到的時原始的html文件，而瀏覽器中的介面確實經過JavaScript處理資料生成的結果

[caffe學習筆記]用自己的資料進行訓練和測試

我今天嘗試製作一個自己的訓練資料集，參考薛開宇的學習方式，模仿搭建自己的資料庫。 1.因為我的電腦裡有整個ImageNet_ILSVRC2012的資料集，所以從訓練集ILSVRC2012_img_train中隨便選了兩種：bird和fowl2.生成標籤檔案列表，即生成 t

Python3 爬蟲學習筆記、基礎、資料型別與運算子

第一個程式建立檔名 base_1.py 推薦寫法 #!/usr/bin/env python3 會去環境設定尋找

Python資料爬蟲學習筆記（13）爬取微信文章資料

一、需求：在微信搜尋網站中,通過設定搜尋關鍵詞以及搜尋頁面數，爬取出所有符合條件的微信文章：二、搜尋頁URL分析階段： 1、在搜尋框中輸入任意關鍵詞，在出現的搜尋結果頁面點選下一頁，將每一頁的URL複製下來進行觀察： 2、注意到頁碼由page=X決定，搜尋關鍵

Python資料爬蟲學習筆記（21）爬取京東商品JSON資訊並解析

一、需求：有一個通過抓包得到的京東商品的JSON連結，解析該JSON內容，並提取出特定id的商品價格p，json內容如下： jQuery923933([{"op":"7599.00","m":"9999.00","id":"J_5089253","p":"7099.00"}

【Python3 爬蟲學習筆記】動態渲染頁面爬取 4 —— 使用Selenium爬取淘寶商品

並不是所有頁面都可以通過分析Ajax來完成抓取。比如，淘寶，它的整個頁面資料確實也是通過Ajax獲取的，但是這些Ajax介面引數比較複雜，可能會包含加密祕鑰等，所以如果想自己構造Ajax引數，還是比較困難的。對於這種頁面，最方便快捷的抓取方法就是通過Seleni

【Python3 爬蟲學習筆記】動態渲染頁面爬取 3 —— Selenium的使用 3

切換Frame 網頁中有一種節點叫作iframe，也就是子Frame，相當於頁面的子頁面，它的結構和外部頁面的結構完全一致。Selenium開啟頁面後，它預設是在父級Frame裡面操作，而此時如果頁面中海油子Frame，它是不能獲取到子Frame裡面的額節點的。

Python資料爬蟲學習筆記（11）爬取千圖網圖片資料

需求：在千圖網http://www.58pic.com中的某一板塊中，將一定頁數的高清圖片素材爬取到一個指定的資料夾中。分析：以數碼電器板塊為例 1.檢視該板塊的每一頁的URL：注意到第一頁是“0-1.html”，第二頁是“0-2.html”，由

靜覓爬蟲學習筆記8-爬取貓眼電影

nal rip score item 之前 req exceptio pool html 　　不知道是不是我學習太晚的原因，貓眼電影這網站我用requests進行爬取源碼直接返回給我一個您的訪問被禁止。作為萌新的我登時就傻了，還好認真聽了之前的課，直接換selenium抓了

Python爬蟲學習筆記之模擬登陸並爬去GitHub

過程 eight res 開發者工具 @value clas 之前自己 8.0 (1)環境準備: 請確保已經安裝了requests和lxml庫 (2)分析登陸過程: 首先要分析登陸的過程，需要探究後臺的登陸請求是怎樣發送的，登陸之後又有怎樣的

Python爬蟲學習筆記（七）——智高考數據爬取

pid items bubuko strong eai res har href name 介紹智高考是一個高考誌願網站，也是基於Ajax的。高中的時候我在wyz大神的幫忙下，嘗試過爬取信息來為填誌願做準備。但是當時沒有系統學習過爬蟲，幾乎都是靠大神帶飛，因此今天再次嘗試

【Python3 爬蟲學習筆記】資料儲存 3 -- CSV檔案儲存

CSV，全稱為Comma-Separated Values，中文可以叫作逗號分隔符或字元分隔值，其檔案以純文字形式儲存表格資料。該檔案時一個字元序列，可以由任意數目的記錄組成，記錄間以某種換行符分隔。每條記錄由欄位組成，欄位間的分隔符是其他字元或字串，最常見的是逗號或製表符。不過所有記錄都有

【Python3 爬蟲學習筆記】資料儲存 1 -- TXT文字儲存

資料儲存的形式可以多種多樣，最簡單的形式是直接儲存為文字檔案，如TXT、JSON、CSV等。另外，還可以儲存到資料庫中，如關係型資料庫MySQL，非關係型資料庫MongoDB、Redis等。檔案儲存文字儲存形式多種多樣，比如可以儲存成TXT純文字形式，也可以儲存為JSON格式、C

python爬蟲學習筆記三：圖片爬取

圖片爬取的程式碼 r.content 檔案的二進位制格式 Python引入了with語句來自動幫我們呼叫close()方法： open(path, ‘-模式-‘,encoding=’UTF-8’) w：以寫方式開啟， a：以追加模式開啟 (從 EOF 開始, 必要時建

原 Python資料爬蟲學習筆記（15）Scrapy常見命令及專案檔案介紹

一、Scrapy常見命令提示符CMD命令：（1）scrapy -h 檢視指令幫助。（2）scrapy fetch http://baidu.com 直接爬取特定網頁。（3）scrapy runspider scrapytest.py 執行特定爬蟲（前提要使用cd

Python資料爬蟲學習筆記（17）Scrapy糗事百科自動爬蟲

一、需求：在糗事百科主頁下，無需設定頁碼，自動爬取所有段子詳情頁的段子完整內容。（1）糗事百科主頁：（2）段子詳情頁：二、Scrapy實現思路：在糗事百科主頁上自動提取出所有段子的詳情連結，在每個段字詳情頁中爬取段子內容。三、網頁原始

【Java爬蟲學習】WebMagic框架爬蟲學習實戰一：爬取網易雲歌單資訊，並存入mysql中

最近，需要使用Java進行爬蟲編寫，就去學了Java的爬蟲。因為之前學習了Scrapy框架，所以學Java的爬蟲使用了WebMagic框架，這個框架是基於Scrapy框架開發的。大家有興趣可以去看看操作文件：這個框架是國人開發的，所以說明文件都是中文，簡單易懂。

【Python3 爬蟲學習筆記】資料儲存 3 -- CSV檔案儲存 1

CSV，全稱為Comma-Separated Values，中文可以叫作逗號分隔符或字元分隔值，其檔案以純文字形式儲存表格資料。該檔案時一個字元序列，可以由任意數目的記錄組成，記錄間以某種換行符分隔。每條記錄由欄位組成，欄位間的分隔符是其他字元或字串，最常見的是

爬蟲學習筆記--用selenium 爬資料到Mysql

相關推薦