【python】從web抓取信息

阿新 • • 發佈：2018-10-06

info 瀏覽器 sys.argv 小說 res 單擊 enter cat 下載失敗

能打開瀏覽器的模塊webbrowser，它的open函數可以做一些有意思的事情。例如從sys.argv或者剪切板讀入地址，然後直接在Google地圖打開相應的地圖頁面。

import webbrowser #python模塊，非第三方模塊，不需要下載，直接使用
import pyperclip #第三方模塊
#啟用電腦默認的瀏覽器打開網頁
address = pyperclip.paste()
webbrowser.open(‘http://www.google.cn/maps/place/‘+address)

這個模塊平時使用的不多，只是在書上看到了才試了試。它的功能selenium模塊(第三方模塊)可以實現，而且selenium模塊的功能更多。

requests模塊(第三方模塊)，很強大的一個模塊，從Web直接下載文件(HTML,txt,zip等等)。

爬蟲爬取網站時，會被部分網站阻止，因為不更改請求頭的話，請求頭會默認為Python...

請求頭可設置為：

header = {‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64)‘
                        ‘ AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36‘}

簡單的例子如下：

import requests
 
from bs4 import BeautifulSoup    #requests和bs4都為第三方模塊
#請求頭
header = {‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64)‘
                        ‘ AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36‘}
#接受返回的HTML文件
res = requests.get(‘https://www.cnblogs.com/to-red/‘,headers=header)
#檢查下載狀態，下載失敗時會停止 

res.raise_for_status()
#下載成功後會會保存在text變量中
#print(res.text)

#BeautifulSoup解析HTML,返回一個BeautifulSoup對象
soup = BeautifulSoup(res.text,‘html.parser‘)
#select方法，p .class #id，返回的是Tag對象，有對應的HTML標簽，也有attrs屬性
title = soup.select(‘#Header1_HeaderTitle‘)[0]
print(title.text)
blog = title.get(‘href‘) 
print(blog)

requests模塊+bs4模塊就可以做很多事情了，比如追一本小說，每次運行一次程序，就會下載好最新的章節。

selenium模塊，控制Google瀏覽器需要安裝chromedriver 點擊下載，並將chromedriver.exe放在與Chrome瀏覽器的同一目錄下。

如圖：技術分享圖片

selenium模塊的常用操作：

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
browser = webdriver.Chrome(executable_path=‘C:\Program Files (x86)\Google\Chrome\Application\chromedriver‘)
browser.get(‘https://www.cnblogs.com/to-red/‘)
#find_element_*方法在頁面尋找內容
pythonS = browser.find_element_by_id(‘CatList_LinkList_0_Link_0‘)
#單擊
pythonS.click()
#提交表單
search = browser.find_element_by_id(‘q‘)
search.send_keys(‘hello‘)
#發送一個回車鍵
search.send_keys(Keys.ENTER)

【python】從web抓取信息

info 瀏覽器 sys.argv 小說 res 單擊 enter cat 下載失敗能打開瀏覽器的模塊webbrowser，它的open函數可以做一些有意思的事情。例如從sys.argv或者剪切板讀入地址，然後直接在Google地圖打開相應的地圖頁面。 import

從Web抓取信息

mil ise htm port 能夠 .com pre .text 利用一、webbrowser模塊——打開瀏覽器獲取指定頁面 open()函數能夠啟動一個新瀏覽器 #！python 3 #！mapIt.py - Launches a map in the br

【python】從python開始學編程

python1)變量不需要刪除，可以直接回收使用>>>a = 10 >>>print a.type(a) 10,<type ‘int‘> >>>a = 1.3 >>>print a.type(a) 10,<type ‘

【Python】從文件中讀取數據

ima pen strip() print語句 top src 絕對路徑列表 pad 從文件中讀取數據 1.1 讀取整個文件要讀取文件，需要一個包含幾行文本的文件（文件PI_DESC.txt與file_reader.py在同一目錄下） PI_DESC.txt 3.141

【Python】從0開始寫爬蟲——開發環境

stdin charm ready indicate importlib mirror upgrade war change 　　　　python小白，稍微看了點語法而已，連字典的切片都永不順的那種。本身是寫java的，其實java也寫得菜，每天下了班不是太想寫ja

【Python】從0開始寫爬蟲——扒狗東先流產了

https 數據圖片 rip 取數據很好 strip use str 上回寫到一半臨時有事，竟然沒有保存到！！！。這幾天也是因為家人過來玩。。我也不知道寫到哪兒了。我發現狗東這個奸賊很多數據是請求請求再請求，然後才拿到我們看到的數據顯示上去的。我嘗試了一下找齊這個數據確

【Python】從0開始寫爬蟲——豆瓣電影

for tag pes wing 信息 kit headers 自動動畫 1. 最近略忙。。java在搞soap，之前是用工具自動生成代碼的。最近可能會寫一個soap的java調用 2. 這個豆瓣電影的爬蟲。扒信息的部分暫時先做到這了。扒到的信息如下 from s

【Python】從匯率轉換算法談起

int orm pri 算法 style 轉換 clas bsp col CurStr = input() if CurStr[:3] == "RMB": print("USD{:.2f}".format(eval(CurStr[3:])/6.78)) elif

【python】從MySQL中讀取內容，存為json物件的列表

現在有資料存在MySQL中，需要把其中的資料存為json物件再進行解析，寫了一個簡單的python指令碼以供參考，其中用了python的MySQLdb庫 # !/usr/bin/python # -*- coding:utf-8 -*- import json,MySQL

【Python】抓取淘寶數據庫月報，發送郵件，本地存檔，保存元信息

epo 平臺如果更改 config 查詢 color into all 用途定期抓取淘寶數據庫月報發送郵件，保存到本地，最好是git中發送元數據到mysql中，後期可以做成接口集成到運維平臺中，便於查詢使用方式 # 下載（必須） cd ~ &&

【Python】 Web開發框架的基本概念與開發的準備工作

世紀依賴包 ade 並不是模板界面 inux tar cal Web框架基本概念現在再來寫這篇文章顯然有些馬後炮的意思。不過正是因為已經學習了Flask框架，並且未來計劃學習更加體系化的Django框架，在學習過程中碰到的很多術語等等，非常有必要通過這樣一篇

kotlin web開發教程【一】從零搭建kotlin與spring boot開發環境

1.8 jre cond utf8 erro 2.0 .com 就會一個tomcat IDEA中文輸入法的智能提示框不會跟隨光標的問題我用的開發工具是IDEA這個版本的IDEA有一個問題；就是中文輸入法的智能提示框不會跟隨光標解決這個問題的辦法很簡單，只有在安裝目錄下把J

itchat發送微信文本消息、文件等【python】

不用 san color 開啟直接別人功能 hot RoCE 前言Itchat是一個開源的微信個人接口。使用python調用itchat的API，可以完成一個能夠處理所有信息的微信機器人。比如說你可以寫python，利用itchat，去搜索特定的人，然後向這個人發送消

【溫故知新】從零開始搭建web項目

cati 哪些 servlet 使用描述 query mave pom.xml 配置從零開始新建一個web項目 1. 新建 maven 項目，不使用 archetype，最終的結果如圖所示(左側是目錄結構，右側是 pom.xml) 2. 因為是 web 項

【溫故知新】從零開始搭建 java web項目(二)

添加以及 pro tps ren 處理方法獲取 mapping 映射系列一介紹了新建一個 web 項目的基本步驟，系列二就準備介紹下基本的 jsp 和 servlet 使用。（關於jsp的編譯指令、動作指令、內置對象不在本文討論範圍之內） 1. 首先，在 pom.

【Python】動手分析天貓內衣售賣數據，得到你想知道的信息

exce time 2.0 show pro val 代碼中國 control 　　大家好，我是一個老實人，現在我決定用 Python 抓取天貓內衣銷售數據，並分析得到中國女性普遍的罩杯數據，和最受歡迎的內衣顏色是什麽。　　希望看完之後你能替你女朋友買上一件心怡的內衣

【python】python每天抓取一篇英語美文，發送到郵箱

lib 郵件發送建立 dirname write path div style 需要 import requests,os,time from bs4 import BeautifulSoup import smtplib from email.mime.tex

【Python】Anaconda建立環境、刪除環境、啟用環境、退出環境、從映象源下載

1、建立環境（例子為建立一個叫做py36，python版本3.6的環境） conda create -n py36 python=3.6 2、刪除環境（例子為刪除名為py36的環境） conda remove -n py36 --all 3、啟用環境（例子為啟用名為py36的環境）

【leetcode】從排序陣列中刪除重複項（C、Python解答）

題目：給定一個排序陣列，你需要在原地刪除重複出現的元素，使得每個元素只出現一次，返回移除後陣列的新長度。不要使用額外的陣列空間，你必須在原地修改輸入陣列並在使用 O(1) 額外空間的條件下完成。示例 1: 給定陣列 nums = [1,1,2], 函式應該

python第十一章從web抓取資訊

利用webbrowser 模組開啟URL web抓取：即利用程式下載並處理來自web的內容。 webbrowser: Python自帶，開啟瀏覽器獲取指定頁面 import webbrowser # 開啟百度瀏覽器 webbrowser.open('http://www.baidu.com

【python】從web抓取信息

相關推薦