python爬蟲資料處理

阿新 • • 發佈：2018-11-10

資料處理的兩種方式

re正則表示式：通過對資料文字進行匹配，來得到所需的資料
BeautifulSoup：通過該類建立一個物件，通過對類裡面封裝的方法進行呼叫，來提取資料。

bs4

對標籤進行查詢

獲取標籤的內容

import re
from bs4 import BeautifulSoup

soup = BeautifulSoup(open('hello.html'),'html5lib')
print(soup.title)
print(soup.p)  #只能匹配到第一個P標籤
print(type(soup.title))  #一個元素標籤

結果：
在這裡插入圖片描述

獲取標籤的屬性

import re
from bs4 import BeautifulSoup

soup = BeautifulSoup(open('hello.html'),'html5lib')
print(soup.p['id'])
print(soup.p['style'])

結果：
在這裡插入圖片描述

獲取標籤的文字內容

import re
from bs4 import BeautifulSoup

soup = BeautifulSoup(open('hello.html'),'html5lib')
print(soup.title.text)
print(soup.title.string)

結果：
在這裡插入圖片描述

獲取標籤的子節點

import re
from bs4 import BeautifulSoup

soup = BeautifulSoup(open('hello.html'),'html5lib')
print(soup.div.children)  #返回的是一個可迭代物件
print(soup.head.contents)  #返回的是一個列表
for i in soup.div.children:
    print(i)

結果：
在這裡插入圖片描述

對物件進行操作

查詢指定標籤的內容

import re
from bs4 import BeautifulSoup

soup = BeautifulSoup(open('hello.html'),'html5lib')
#查詢指定標籤的內容
res = soup.find_all('p')  #返回的是一個列表
print(res)

#配合正則的使用,對正則表示式進行編譯可以提高查詢的速率
res = soup.find_all(re.compile('di\w'))  #find_all方法返回的是一列表
print(res)

結果：
在這裡插入圖片描述

詳細查詢指定標籤

import re
from bs4 import BeautifulSoup

soup = BeautifulSoup(open('hello.html'),'html5lib')
print(soup.find_all('p',id='id1'))
print(soup.find_all('p',id=re.compile('id\d')))
#注意：根據類匹配標籤時，class後面要加一個_,是為了與關鍵字class重複
print(soup.find_all('p',class_=re.compile('class\d')))

結果：
在這裡插入圖片描述

詳細查詢多個標籤的內容

import re
from bs4 import BeautifulSoup

soup = BeautifulSoup(open('hello.html'),'html5lib')
#注意：向find_all裡面新增多個匹配時，一個列表的形式傳入
print(soup.find_all([re.compile('p'),re.compile('div')]))

結果：
在這裡插入圖片描述

css常見的匹配

#css常見的選擇器:標籤選擇器，類選擇器，id選擇器，屬性選擇器
#標籤選擇器
res1 = soup.select('p')  #返回的是一個列表
print(res1)
#類鎖選擇器
res = soup.select('.class1')
print(res)
#id選擇器
res = soup.select('#id2')
print(res)
#屬性選擇器
res = soup.select("p[id='id1']")
print(res)

結果：
在這裡插入圖片描述

bs4的簡單引用

爬取多個電影的id和名字

from bs4 import BeautifulSoup
import requests


url = 'https://movie.douban.com/cinema/nowplaying/xian/'
'''
<li id="26425063" class="list-item" data-title="無雙"
 data-score="8.1" data-star="40" data-release="2018" 
 data-duration="130分鐘" data-region="中國大陸 香港" 
 data-director="莊文強" 
 data-actors="周潤發 / 郭富城 / 張靜初" 
 data-category="nowplaying" data-enough="True" data-showed="True" 
data-votecount="199648" data-subject="26425063">'''

def getPagehtml(url):
    return requests.get(url).text

def dealdata(text):
    # 利用BeautifulSoup對傳入的html檔案進行一個解析，並返回一個物件
    soup = BeautifulSoup(text,'html5lib')
    #查詢所有類名為list-item的li標籤，把匹配到的內容返回給一個列標
    li_list = soup.find_all('li',class_="list-item")
    movie_info=[]
    for i in li_list:
        onn_movie_info = {}
        #對匹配到標籤內容用標籤的屬性作為索引去獲取
        onn_movie_info['id']=i['id']
        onn_movie_info['name']=i['data-title']
        movie_info.append(onn_movie_info)
    [print(i) for i in movie_info]

dealdata(getPagehtml(url))

結果：
在這裡插入圖片描述

獲取電影的影評資訊繪製為詞雲

import re
import jieba
import wordcloud
import requests
from bs4 import BeautifulSoup
import numpy
from PIL import Image




def getPagehtml(url):
    return requests.get(url).text

def deal_one_text(text):
    soup = BeautifulSoup(text,'html5lib')
    tag_li = soup.find_all('span',class_='short')
    comment_li = []
    for tag in tag_li:
        comment_li.append(tag.string)
    return comment_li
# deal_one_text(getPagehtml(url))

def create_cloud(text):
    # 此函式實現一個繪製詞雲圖片的功能，並將圖片儲存起來
    # 對傳入的文字進行切割，返回一個列表，裡面存有文字的詞語
    result = jieba.lcut(text)
    #生成一個圖片物件
    imgobj = Image.open('./img1.jpg')
    cloud_mask = numpy.array(imgobj)
    wc = wordcloud.WordCloud(
        mask=cloud_mask,
        width=500,
        background_color='snow',
        max_font_size=200,
        min_font_size=10,
        font_path='./font/msyh.ttf',
    )
    wc.generate(','.join(result))
    #生成圖片
    wc.to_file('./cloud1.png')

def main():
    all_comments = []
    #對十頁的內容進行操作
    for i in range(10):
        start = i*20
        #生成每一頁的url
        url = 'https://movie.douban.com/subject/26425063/comments?start=%d&limit=20&sort=new_score&status=P' %start
        text =getPagehtml(url)
        comment = deal_one_text(text)
        #將每一頁的電影的名字和資訊都存入到列表
        [all_comments.append(i) for i in comment]
    comment_str = "".join(all_comments)
    comments =  re.findall(r'([\u4e00-\u9fa5]+|[a-zA-Z]+)',comment_str)
    print(''.join(comments))
    create_cloud(''.join(comments))


main()

結果：
在這裡插入圖片描述

詞雲圖形的繪製

# 對傳入的文字進行切割，返回一個列表，裡面存有文字的詞語
 imgobj = Image.open('./img1.jpg')
    cloud_mask = numpy.array(imgobj)
    wc = wordcloud.WordCloud(
        mask=cloud_mask,
        width=500,
        background_color='snow',
        max_font_size=200,
        min_font_size=10,
        font_path='./font/msyh.ttf',
    )
    wc.generate(','.join(result))
    #生成圖片
    wc.to_file('./cloud1.png')

python爬蟲資料處理

資料處理的兩種方式 re正則表示式：通過對資料文字進行匹配，來得到所需的資料 BeautifulSoup：通過該類建立一個物件，通過對類裡面封裝的方法進行呼叫，來提取資料。 bs4 對標籤進行查詢獲取標籤的內容 import re fr

利用正則表示式處理爬取的今日頭條內容資料（Python爬蟲資料清洗）

本次要處理的是抓取的頭條內容，內容如下： content = '''content: '<div><blockquote><p><strong>想要更多科技類資訊，歡迎關注公眾號“

python對於資料處理所會用到得一般操作

xlsx檔案轉為csv import pandas as pd#需要用到的包 import numpy as np#需要用到的包 path = "/home/public/GFQ/math_model/"#路徑 filepath_poi = path + "data.xlsx"#路徑+檔名 da

python 爬蟲資料存入csv格式方法

python 爬蟲資料存入csv格式方法命令儲存方式：scrapy crawl ju -o ju.csv 第一種方法：with open("F:/book_top250.csv","w") as f: f.write("{},{},{},{},{}\n".format(book_name

python json資料處理

1.　　python 轉 json 　　　import json 　　　data={ 　　　　"name":"haha", 　　　　"age" : 1,"list_1":[1,2,3], 　　　　"tu":(1,2,3), 　　　　"bo": True, 　　　　"kong":None 　　　

Python爬蟲資料的幾種儲存方法

txt檔案: 1, open('檔名', '讀寫模式' )， f = open('csdn.txt', 'w', encodeing='utf-8') 2，f

Python大資料處理庫PySpark實戰

https://cloud.tencent.com/developer/article/1096712 Spark的安裝和使用(Python版) http://dblab.xmu.edu.cn/blog/1689-2/ https://blog.csdn.net/qq_14959801/

建站四部曲之Python爬蟲+資料準備篇(selenium)

本系列分為四篇：建站四部曲之後端介面篇（SpringBoot+上線）建站四部曲之Python資料爬蟲篇(selenium) 建站四部曲之前端顯示篇（React+上線）建站四部曲之移動端篇（Android）零、前言本系列為了總結一下手上的知識，致敬我的2018 本

Python大資料處理方案

SQLyog 匯出表中資料存為csv檔案選擇資料庫表 --> 右擊屬性 --> 備份/匯出 --> 匯出表資料作為 --> 選擇cvs --> 選擇下面的“更改” --> 欄位 --> 可變長度-->

Python爬蟲資料提取方式——cssselector樣式選擇器

cssselector：和xpath是使用比較多的兩種資料提取方式。cssselector是css樣式選擇器實現的！scrapy爬蟲框架：支援xpath/csspyspider爬蟲框架：支援PyQuer

python爬蟲#資料儲存#JSON/CSV/MYSQL/MongoDB/

Json資料處理 JSON支援資料格式：物件（字典）。使用花括號。陣列（列表）。使用方括號。整形、浮點型、布林型別還有null型別。字串型別（字串必須要用雙引號，不能用單引號）。多個數據之間使用逗號分開。注意：json本質上就是一個字串。字典和列表轉JSON： import json boo

用 Python 做資料處理必看：12 個使效率倍增的 Pandas 技巧（上下）

http://datartisan.com/article/detail/81.html 導語 Python正迅速成為資料科學家偏愛的語言，這合情合理。它擁有作為一種程式語言廣闊的生態環境以及眾多優秀的科學計算庫。如果你剛開始學習Python，可以先了解一下Python的學習路線。在眾多的科學計算庫中

python進行資料處理——pandas的drop函式

刪除表中的某一行或者某一列更明智的方法是使用drop，它不改變原有的df中的資料，而是返回另一個dataframe來存放刪除後的資料。本文出處主要來源於必備工具書《利用python進行資料分析》。 ———————————————————————————————

python大規模資料處理技巧之一：資料常用操作

面對讀取上G的資料，python不能像做簡單程式碼驗證那樣隨意，必須考慮到相應的程式碼的實現形式將對效率的影響。如下所示，對pandas物件的行計數實現方式不同，執行的效率差別非常大。雖然時間看起來都微不足道，但一旦執行次數達到百萬級別時，其執行時間就根本不可能

用 Python 做資料處理必看：12 個使效率倍增的 Pandas 技巧（上）

導語 Python正迅速成為資料科學家偏愛的語言，這合情合理。它擁有作為一種程式語言廣闊的生態環境以及眾多優秀的科學計算庫。如果你剛開始學習Python，可以先了解一下Python的學習路線。在眾多的科學計算庫中，我認為Pandas對資料科學運算最有用。Pandas，

python爬蟲資料儲存到本地各種格式的方法

最近爬蟲又解決了很多問題，算是儲存這部分的吧。首先，我們如果想要抓取本地txt檔案中的內容拿到特定網址去搜索。然後爬取搜尋結果的話，這個很簡單： f=open('C://Python27//1.txt') #只需要通過這句程式碼開啟你本地對應路徑的檔案

[轉載]用Python做資料處理必看的12 個使效率倍增的Pandas技巧

為了幫助理解，本文用一個具體的資料集進行運算和操作。本文使用了貸款預測(loan prediction) 問題資料集，下載資料集請到 http://datahack.analyticsvidhya.com/contest/practice-problem-loan-p

Python文字資料處理

1、文字基本操作 text1 = 'Python is a widely used high-level programming language for general-purpose programming, created by Guido van Ro

用 Python 做資料處理必看：12 個使效率倍增的 Pandas 技巧（下）

7 – 資料框合併當我們有收集自不同來源的資料時，合併資料框就變得至關重要。假設對於不同的房產型別，我們有不同的房屋均價資料。讓我們定義這樣一個數據框： prop_rates = pd.DataFrame([1000, 5000, 12000], index

spark機器學習筆記：（二）用Spark Python進行資料處理和特徵提取

下面用“|”字元來分隔各行資料。這將生成一個RDD,其中每一個記錄對應一個Python列表,各列表由使用者ID(user ID)、年齡(age)、性別(gender)、職業(occupation)和郵編(ZIP code)五個屬性構成。4之後再統計使用者、性別、職業和郵編的數目。這可通過如下程式碼

python爬蟲資料處理

資料處理的兩種方式

bs4

對標籤進行查詢

對物件進行操作

bs4的簡單引用

獲取電影的影評資訊繪製為詞雲

詞雲圖形的繪製

相關推薦