python requests,bs4應用例項

阿新 • • 發佈：2018-11-09

獲取豆瓣最新電影的ID號和電影名稱

import  requests
from bs4 import BeautifulSoup

url = "https://movie.douban.com/cinema/nowplaying/xian/"
# 1). 獲取頁面資訊
response = requests.get(url)
content = response.text
# print(content)
# 2). 分析頁面， 獲取id和電影名
soup = BeautifulSoup(content, 'lxml')
# 線找到所有的電影資訊對應的li標籤;
nowplaying_movie_list = soup.find_all('li', class_='list-item')
print(nowplaying_movie_list[0])
print(type(nowplaying_movie_list[0]))
# 儲存所有電影資訊[{'title':"名稱", "id":"id號"}]
movies_info = []

# 依次遍歷每一個li標籤， 再次提取需要的資訊
for item in nowplaying_movie_list:
    nowplaying_movie_dict = {}
    # 根據屬性獲取title內容和id內容
    # item['data-title']獲取li標籤裡面的指定屬性data-title對應的value值;
    nowplaying_movie_dict['title'] = item['data-title']
    nowplaying_movie_dict['id'] = item['id']
    nowplaying_movie_dict['actors'] = item['data-actors']
    nowplaying_movie_dict['director'] = item['data-director']

    # 將獲取的{'title':"名稱", "id":"id號"}新增到列表中;
    movies_info.append(nowplaying_movie_dict)

print(movies_info)

在這裡插入圖片描述

獲取指定電影的影評資訊

# 目標:
#      1). 爬取某一頁的評論資訊；
#      2).爬取某個電影的前10頁評論資訊；
#      3). 獲取所有電影的評論資訊;
import threading

import requests
from bs4 import  BeautifulSoup
# #      1). 爬取某一頁的評論資訊；
def getOnePageComment(id, pageNum):
    # 1). 根據頁數確定start變數的值
    # 第一頁: https://movie.douban.com/subject/26425063/comments?start=0&limit=20&sort=new_score&status=P
    # 第二頁: https://movie.douban.com/subject/26425063/comments?start=20&limit=20&sort=new_score&status=P
    # 第三頁: https://movie.douban.com/subject/26425063/comments?start=20&limit=40&sort=new_score&status=P
    start = (pageNum-1)*20
    url = "https://movie.douban.com/subject/%s/comments?start=%s&limit=20&sort=new_score&status=P" %(id, start)
    # 2). 爬取評論資訊的網頁內容
    content = requests.get(url).text
    # 3). 通過bs4分析網頁
    soup = BeautifulSoup(content, 'lxml')
    # 分析網頁得知， 所有的評論資訊都是在span標籤， 並且class為short;
    commentsList = soup.find_all('span', class_='short')
    pageComments = ""
    # 依次遍歷每一個span標籤， 獲取標籤裡面的評論資訊, 並將所有的評論資訊儲存到pageComments變數中;
    for commentTag in commentsList:
        pageComments += commentTag.text
    # return pageComments
    print("%s page" %(pageNum))
    global  comments
    comments += pageComments

#      2).爬取某個電影的前10頁評論資訊；
id = '26425063'
comments = ''
threads = []
# 爬取前10頁的評論資訊;獲取前幾頁就迴圈幾次；
for pageNum in range(10): # 0 , 1 2 3 4...9
    pageNum = pageNum + 1
    # getOnePageComment(id, pageNum)
    # 通過啟動多執行緒獲取每頁評論資訊
    t = threading.Thread(target=getOnePageComment, args=(id, pageNum))
    threads.append(t)
    t.start()
#     等待所有的子執行緒執行結束， 再執行主執行緒內容;
_ = [thread.join() for thread in threads]
print("執行結束")
with open("%s.txt" %(id), 'w',encoding='utf-8') as f:
    f.write(comments)

在這裡插入圖片描述

資料清洗

完整的分析過程:
    - 資料的獲取: 通過爬蟲獲取(urllib|requests<獲取頁面內容> + re|bs4<分析頁面內容>)
    - 資料清洗： 按照一定的格式歲文字盡心處理;
"""
import re


# 1. 對於爬取的評論資訊進行資料清洗(刪除不必要的逗號， 句號， 表情， 只留下中文或者英文內容)
with open('./doc/26425063.txt',encoding='utf-8') as f:
    comments = f.read()
# 通過正則表示式實現
pattern = re.compile(r'([\u4e00-\u9fa5]+|[a-zA-Z]+)')
deal_comments = re.findall(pattern, comments)
newComments = ''
for item in deal_comments:
    newComments += item
print(newComments)

在這裡插入圖片描述

詞雲分析

import jieba
import  wordcloud
import  numpy as np
from PIL import Image

text= "馬雲曾公開表態稱對錢沒興趣稱其從來沒碰過錢上了微博熱搜"

# 2).  '微博熱', '搜'切割有問題， 可以強調
# jieba.suggest_freq(('微博'),True)
# jieba.suggest_freq(('熱搜'),True)
# 強調檔案中出現的所有詞語；
jieba.load_userdict('./doc/newWord')
# 1). 切割中文， lcut返回一個列表， cut返回一個生成器；
result = jieba.lcut(text)
print("切分結果:", result)

# 4). 繪製詞雲
wc = wordcloud.WordCloud(
    background_color='snow',
    font_path='./font/msyh.ttf',    # 處理中文資料時
    min_font_size=5,    # 圖片中最小字型大小；
    max_font_size=50,   # 圖片中最大字型大小；
    width=200,  # 指定生成圖片的寬度
)
wc.generate(",".join(result))
wc.to_file('./doc/douban.png')

在這裡插入圖片描述

python requests,bs4應用例項

獲取豆瓣最新電影的ID號和電影名稱 import requests from bs4 import BeautifulSoup url = "https://movie.douban.com/cinema/nowplaying/xian/" # 1). 獲取頁面資訊 response

python requests bs4練習

豆瓣評論分析: # 1). 獲取豆瓣最新上映的所有電影的前10頁評論資訊； # 2). 清洗資料； # 3). 分析每個電影評論資訊分析繪製成詞雲，儲存為png圖片，檔名為: 電影名.png; import re import jieba import requests import

爬蟲之Requests庫應用例項

1.京東商品頁的爬取 import requests url = "https://item.jd.com/100000400014.html" try: r = requests.get(url) r.raise_for_status()

網路爬蟲：Python+requests+bs4+xlwt 爬取京東商品存入Excel表

學了網路爬蟲兩週了，還是比較喜歡用網頁級庫requests，很靈活方便，scrapy網站級面向物件庫，還不熟悉，可能是原來c++學習面向物件就沒學好，對面向物件程式設計還沒理解好吧...兩週中爬了淘寶，京東，天貓（爬取失敗，反爬蟲把我這種新手難倒了，登入驗證就卡死），爬取搜狗

python中requests的應用

方式一 response = requests.request(method, url, **kwargs) r = requests.request('GET', url, **kwargs) r = requests.request('HEAD', url, **kwargs) r = r

python-requests資料驅動延伸 python-requests模組的講解和應用

在 python-requests模組的講解和應用基礎上進行資料驅動的延伸 task_01_requests.py #-*- coding:utf-8 -*- #task_01_requests.py # 1：利用requests模組，編寫一個可以完成http

python-列表生成式(二)(應用例項)

本文作者：黎智煊，叩丁狼高階講師。原創文章，轉載請註明出處。上一節說到了列表生成式的原理和基本語法,現在就寫一些例項進行說明我們可以對幾個生成列表的要求分別通過“不使用列表生成式”和“使用列表生成式”來實現，然後做個對比總結。例項1：生成一個從3到10的數字列表

python爬蟲（五）：實戰【2. 爬創客實驗室（requests + bs4）】

目標：爬取創科實驗室網站中講座的資訊，輸出表：講座標題、報告人、單位、報告時間、講座內容、報告人簡介技術：requests + bs4 檢視爬蟲協議： http://127.0.0.1/lab/robots.txt （創科實驗室是我自己寫的網址，不反爬蟲）

logistic迴歸原理解析及Python應用例項

logistic迴歸，又叫對數機率迴歸。首先強調，這是一個分類模型而不是一個迴歸模型！一、logistic迴歸和線性迴歸的關係既然logistic迴歸名字中都帶有“迴歸”二者，所以二者是有聯絡的。首先給出線性迴歸模型：寫成向量形式為：同時“廣義線性

python子程序模組subprocess詳解與應用例項之三

二、應用例項解析 2.1 subprocess模組的使用 1. subprocess.call subprocess.call([“ls”, “-l”]) 0 subprocess.call(“ex

python子程序模組subprocess詳解與應用例項之二

1.2. Popen 物件 Popen類的例項有下列方法: 1. Popen.poll() 檢查子程序是否已經結束，設定並返回返回碼值。 2. Popen.wait() 等待子程序結束，設定並返回返回碼值。 WARNING: 當使用 stdout=P

python子程序模組subprocess詳解與應用例項一

一、subprocess 模組簡介 subprocess最早是在2.4版本中引入的。 subprocess模組用來生成子程序，並可以通過管道連線它們的輸入/輸出/錯誤，以及獲得它們的返回值。它用來代替多箇舊模組和函式: os.system os.sp

Python requests爬蟲例項

作業系統：Windows Python：3.5 歡迎加入學習交流QQ群：657341423 需要用到的庫： requests wxPython docx win32api需要安裝pywin32 解釋： requests這個用來做爬蟲，基本上不用多作解釋 wx

RabbitMQ應用例項Python版-訊息確認和訊息持久化

訊息確認當處理一個比較耗時得任務的時候，你也許想知道消費者（consumers）是否執行到一半就掛掉。當前的程式碼中，當訊息被RabbitMQ傳送給消費者（consumers）之後，馬上就會在記憶體中移除。這種情況，你只要把一個工作者（worker）停止，正在處理的訊

python requests應用及流模式

import requests r=requests.get(‘http://www.baidu.com’) print(‘content–>’+r.content) //輸出位元組形式 print(‘text–>’+r.text) //輸出亂碼 print(‘encoding–

python+requests介面自動化測試框架例項詳解教程

前段時間由於公司測試方向的轉型，由原來的web頁面功能測試轉變成介面測試，之前大多都是手工進行，利用postman和jmeter進行的介面測試，後來，組內有人講原先web自動化的測試框架移駕成介面的自動化框架，使用的是java語言，但對於一個學java，卻在學python的我來說，覺得python比起jav

python+requests介面自動化測試框架例項詳解教程（米兔888）

前段時間由於公司測試方向的轉型，由原來的web頁面功能測試轉變成介面測試，之前大多都是手工進行，利用postman和jmeter進行的介面測試，後來，組內有人講原先web自動化的測試框架移駕成介面的自動化框架，使用的是java語言，但對於一個學java，卻在學python的我

Python模擬登入(一) requests.Session應用

最近由於某些原因，需要用到Python模擬登入網站，但是以前對這塊並不瞭解，而且目標網站的登入方法較為複雜，所以一下卡在這裡了，於是我決定從簡單的模擬開始，逐漸深入地研究下這塊。注：本文僅為交流學習所用。登入特點：明文傳輸，有特殊標誌資料會話物件re

python應用例項：座標轉換——基於布林莎模型，可實現BJ54座標系/GSC2000座標系/WGS84等各種地心直角座標系的轉換

博主準研究僧一枚，假期在老師指導下接觸專案。本博文可作為座標轉換，特別是布林莎七引數法的學習資料。其python原始碼註釋充分，也可作為python的學習專案。程式UI介面如下，由於是自用程式，博主對美化UI不感興趣，ui部分原始碼註釋充分，顏控可自行修改調整。PS:克總信徒

列表的應用例項——用Python實現簡單的通訊錄

Python3 列表序列是Python中最基本的資料結構。序列中的每個元素都分配一個數字 - 它的位置，或索引，第一個索引是0，第二個索引是1，依此類推。 Python有6個序列的內建型別，但最常見的是列表和元組。序列都可以進行的操作包括索引，切片，加，乘，檢查成員

python requests,bs4應用例項

獲取豆瓣最新電影的ID號和電影名稱

獲取指定電影的影評資訊

資料清洗

詞雲分析

相關推薦