python爬蟲一些基本編碼語句

阿新 • • 發佈：2018-11-10

#coding=utf-8
import requests
import re
from bs4 import BeautifulSoup

#BeautifulSoup正則表示式搜尋
html = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1"><!-- Elsie --></a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.
<b>The Dormouse's <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;story11111111111111111</b></p>
<p class="story">...</p>
"""

soup = BeautifulSoup(html,features='lxml')
#soup = BeautifulSoup(open('index.php')) 開啟開本地檔案

print soup.prettify()  #將檔案格式化

all_href = soup.find_all('a')  #將網頁中所有的網址都輸出
print all_href
for l in all_href:
    print l['href']

story = soup.find('p',{'class':'story'})#正則表示式的搜尋自標籤內的東西
d_story = story.find_all('b')
for t in d_story:
    print t.get_text()

'''     
#get
param = {"wd":"莫煩python"}
r=requests.get('https://www.baidu.com/s',params = param)
r.encoding="utf-8"
print r.text

#Post
data = {'username':'zhangsan','password':'1234560'}
url="http://www.baidu.com"
r=requests.post(url,data=data)
print r.text

#檔案上傳
file = {'uploadFile':open('./imag.png','rb')}
r = request.post(url,files=file)
print r.text

#cookie登陸
session = requests.Session()
payload = {'username':'12131321','password':'11111111'}
r = requests.post('https://www.baidu.com/s',data=payload)
print r.cookies.get_dict()
r = session.get('登陸框的地址')
print r.text

#電影，圖片，檔案下載
root="檔案存放地址"
r = requests.get(IMAG_URL, stream=True)
path =root + imgss.split('/')[-1]
with open(path, 'wb') as f:
    for chunk in r.iter_content(chunk_size=32):
        f.write(chunk)

#unicode字元轉換為中文
import json
    for l in get_div:
        ul = l('a')
        title = ul[0]['title']
        print json.dumps(title).decode('unicode-escape') #輸出章節
        
#正則表示式
import re
    reg = '<a title=(.*?) href="/lishi/268522/(.*?)">(.*?)</a>'
    name_url = re.finditer(reg,html)
    for l in name_url:
        print l.group(2), l.group(1)
 '''

python爬蟲一些基本編碼語句

#coding=utf-8 import requests import re from bs4 import BeautifulSoup #BeautifulSoup正則表示式搜尋 html = """ <html><head><title>The Dormo

Python基礎二--基本控制語句

廣東省 nlogn err str data main 產生一個隨機數 ring 案例基本接觸每一種語言，都須要做的：1.print 一個"Hello world!" 2.了解主要的數據類型 3.學習控制語句。當我們學習控制語句，一般都離不

python的一些基本的建議

jic ocm dbv ol7 aca avd wow gcs bnf 一、編碼風格 python程序要寫的易於閱讀二、python代碼的樣式規則遵循PEP8 4個spaces是一次縮排，不允許tabs，不允許混合使用space和tab,方法之間要有一個空行，類之間要有

python爬蟲之基本類庫

簡單梳理一下爬蟲原理：　　1、傳送請求　　　　通過HTTP庫向目標站點發起請求，即傳送一個Request，請求可以包含額外的headers等資訊，等待伺服器響應。　　2、獲取響應內容　　　　如果伺服器能正常響應（正常響應返回狀態碼通常為200），會得到一個Response，Response的內

python的一些基本概念

1、為什麼python被稱為膠水語言？他是新一代的系統指令碼參考部落格：https://www.cnblogs.com/ningskyer/articles/5264172.html 2、python百度百科介紹：最初被設計用於編寫自動化指令碼(shell)可以用於web和internet開發、科學計算和統

python爬蟲(1)——基本知識和概念

python 基本語法 python 爬蟲的物件大部分都是文字，所以需要對python字串的用法熟悉。python中字串是由雙引號或者單引號中的字元組成。通常用到的字串操作有加法乘法、切片索引、格式化等加法和乘法字串的加法在python爬蟲

python爬蟲解析網頁編碼問題

最近做了一個需求，爬取n多新聞新聞url的正文。這些url是從百度新聞搜尋關鍵字爬取下來的碰到gbk，gb2132,utf-8網頁編碼解析時都能跑通。以下是部分程式碼，記錄一下def run(self): filename = u'D:\scrapyProject\l

python爬蟲從入門到放棄（五）之正則的基本使用

語言代碼例子 name 添加 iter ima 制表符 imp things 什麽是正則表達式正則表達式是對字符串操作的一種邏輯公式，就是事先定義好的一些特定字符、及這些特定字符的組合，組成一個“規則字符”，這個“規則字符” 來表達對字符的一種過濾邏輯。正則並不是

Python爬蟲（一）：基本概念

popu 通用字符 spider dai 自身部分螞蟻 people 網絡爬蟲的定義網絡爬蟲（Web Spider。又被稱為網頁蜘蛛。網絡機器人，又稱為網頁追逐者），是一種依照一定的規則，自己主動的抓取萬維網信息的程序或者腳本。另外一些不常使用

python爬蟲編碼問題

字符串 fff home 網上 360瀏覽器 .com pycha ctime 瀏覽器爬蟲，新手很容易遇到編碼解碼方面的問題。在這裏總結下。如果處理不好編碼解碼的問題，爬蟲輕則顯示亂碼，重則報錯UnicodeDecodeError: ‘xxxxxx‘ codec can

python爬蟲——對爬到的數據進行清洗的一些姿勢（5）

weibo 英雄 mina ret term creators 刪除動畫任務　　做爬蟲，當然就要用數據。想拿數據進行分析，首先清洗數據。這個清洗數據包括清除無用數據列和維度，刪除相同數據，對數據進行勘誤之類的。　　從各大不同新聞網站可以爬到重復新聞。。。這個可以有。

Python爬蟲入門三之Urllib庫的基本使用

res 瀏覽器中必須答案文件的網頁 one .com 屏幕截圖 1.分分鐘扒一個網頁下來怎樣扒網頁呢？其實就是根據URL來獲取它的網頁信息，雖然我們在瀏覽器中看到的是一幅幅優美的畫面，但是其實是由瀏覽器解釋才呈現出來的，實質它是一段HTML代碼，加 JS、CSS

shell腳本一些基本語句的用法

shell 語句一.for語句1.使用for語句批量添加用戶2.使用for語句檢查主機是否可以正常ping通二：while語句1.使用while語句按用戶名有規律添加用戶2.使用while語句編寫猜價格腳本三：case語句1.使用case語句編寫測試字符類型腳本2.使用case語句編寫服務狀態控制腳本本文出自

[轉]用python爬蟲抓站的一些技巧總結 zz

內容 req xxxxx pic 個數相關 choice 都是 observe 來源網站：http://www.pythonclub.org/python-network-application/observer-spider 學用python也有3個多月了，用得最

學習筆記：python3，一些基本語句（2017）

val from 列表除法方法是否主程 return tuple 數學運算 1、整除、取模 a = 36 b = 10 c = d = 0 c = a//b #取整除 - 返回商的整數部分 d = a % b #取模 - 返回

python學習之第七課時--基本條件語句if

nbsp cnblogs -- ext ack round clas 希望 utf 條件語句如果我們希望有效的響應用戶的輸入，代碼就需要具有判斷能力。能夠讓程序進行判斷的結構成為條件，條件判斷語句返回的是布爾值真或假，真就執行一條線路，假就執行另外一

Python爬蟲入門：Urllib庫的基本使用

logs 模擬第一個 tps 出了訪問方式 post方式 %d 一段 1.分分鐘扒一個網頁下來怎樣扒網頁呢？其實就是根據URL來獲取它的網頁信息，雖然我們在瀏覽器中看到的是一幅幅優美的畫面，但是其實是由瀏覽器解釋才呈現出來的，實質它是一段HTML代碼，加 JS、

python爬蟲(四)_urllib2庫的基本使用

對象喜歡實用字符串 string pre 互聯網 name 調用本篇我們將開始學習如何進行網頁抓取，更多內容請參考:python學習指南 urllib2庫的基本使用所謂網頁抓取，就是把URL地址中指定的網絡資源從網絡流中讀取出來，保存到本地。在Python中有

python爬蟲基本原理及入門

http safari pre col 分享圖片 ade 如果渲染登陸百度爬蟲：請求目標網站並獲得數據的程序爬蟲的基本步驟：使用python自帶的urllib庫請求百度： import urllib.request response = urllib.req

python爬蟲scrapy之rules的基本使用

highlight 目的創建 true ans 滿足 topic hole auth Link Extractors Link Extractors 是那些目的僅僅是從網頁(scrapy.http.Response 對象)中抽取最終將會被follow鏈接的對象? Scra

python爬蟲一些基本編碼語句

相關推薦