python 爬取《延禧攻略》所有的演員參演的電視劇

阿新 • • 發佈：2018-12-11

# -*- coding: utf-8 -*-
#@Time :18-9-23 上午11:22
#@Author : LiMeng
#@Email : [email protected]
#@File : yanxigonglvu.py
#Software:PyCharm
import  requests
import  ppretty
import collections
from wordcloud import WordCloud
from bs4 import  BeautifulSoup
import matplotlib.pyplot as plt
from scipy.misc import imread
import jieba
def get():
    url='http://www.tvzn.com/14784/yanyuanbiao.html'
    res=requests.get(url=url)
    html=res.content
    dianshiju_list=[]
    nameList=[]
    soup=BeautifulSoup(html,'lxml')
    dianshuju_x=[]

    # 主演
    contents1 = soup.find('ul', attrs={'class':'gclearfix'}).findAll("li")
    for content in contents1:
        #actorNamezhuyan=content.find('p',attrs={'class':'mh-actor'}).find('a',attrs={'class':'mh-actor'})
        actorNamezhuyan=content.find('a',attrs={'class':'mh-actor'})
        # print(actorNamezhuyan)
        href=actorNamezhuyan.attrs['href']
        # 將分析得到的網頁地址進行二次爬蟲，這裡是要尋找某個演員參演的電視劇，需要再次傳送請求
        res1=requests.get(('http://www.tvzn.com/'+href))
        rsp=res1.text
        soup1=BeautifulSoup(rsp,"lxml")
        content1 = soup1.find('ul',attrs={'class':'tn-avatar-list tn-helper-reset tn-helper-clearfix'})
        # print(type(dianshiju_list))
        for x in content1.strings:#這裡是獲取節點下面所有的內容
            if (x):#有的節點下面沒有內容，所以需要將其過濾掉
                dianshiju_list.append(x)#將電視劇目表新增到陣列中

     # 配角
    contents2=soup.find('div',attrs={'class':'mh-name-list'}).findAll('li')
    for contentx in contents2:
        aclist=contentx.findAll('p')
        for x in aclist:
             nameList.append(x.find('',attrs={'class':'mh-actor'}).getText())


    # 得到包含演員的陣列
    surnamelist = []
    givennamelist = []
    surname_dict = {}
    for actorname in nameList:
        surnamelist.append(actorname[0])
        for givenname in actorname[2:]:
            givennamelist.append(givenname)
            if actorname[0] not in surname_dict:
                surname_dict[actorname[0]]=1
            else:
                surname_dict[actorname[0]]+=1


    file=open('./data.txt','w')
    for x in nameList:
        file.write(x)
        file.write(" ")
    file.close()

    word_count = collections.Counter(dianshiju_list);
    bg_pic = imread('mask.jpeg')
    wordcloud = WordCloud(font_path='./simhei.ttf', mask=bg_pic, background_color="white", width=1000, height=860,
                           margin=2).generate_from_frequencies((word_count))
    plt.imshow(wordcloud)
    plt.axis('off')
    plt.show()
if __name__ == '__main__':
        get()

python 爬取《延禧攻略》所有的演員參演的電視劇

# -*- coding: utf-8 -*- #@Time :18-9-23 上午11:22 #@Author : LiMeng #@Email : [email protected] #@File : yanxigonglvu.py #Software:PyCh

pyspider爬取豆瓣延禧攻略短評和迴應

#!/usr/bin/env python # -*- encoding: utf-8 -*- # Created on 2018-08-30 15:08:10 # Project: yanxigonglve_douban from pyspider.libs.base_h

沒有宮廷內鬥，數據庫界的延禧攻略

執行 clu ubi tran sum mysql主從服務一致性 days 各位老鐵們，你們有沒有想老張，最近老張的才華被工作的繁忙所限制了，所以一直沒時間更博，今兒個時隔數日我們終於再次見面啦（很開心）！最近有部特別火的宮廷戲，不知道大家有沒有看，劇名叫做《延禧攻略》

python爬取看雪論壇的所有主題帖的回覆訊息

最近因為實驗課題的需要，我們對看雪論壇的訊息回覆進行爬取， https://bbs.pediy.com/（看雪論壇）對於看雪論壇的訊息回覆檢視的一般順序為：進入看雪論壇的主頁-----> 選擇檢視的主題-----> 選擇想要檢視的話題--------> 檢視該話

假如古代有了雲端計算，延禧攻略裡的各位嬪妃要如何宮鬥

摘要：延禧攻略最近大火，男女老少都在瘋狂追劇，就連我們一項業餘愛好單一的程式設計師小哥也用週末時間狂刷了70多集，妥妥的延禧粉。延禧攻略主要有兩大看點，一個是各種CP讓人眼花繚亂，帝后cp，後瓔cp，衛龍cp等等，隨著劇情的發展,各種CP層出不窮。延禧攻略最近大

Java快速入門-05-陣列迴圈條件例項《延禧攻略》

《延禧攻略》如此火爆，蹭蹭熱度，用 JAVA 最基礎的陣列，迴圈，條件，輸入/輸出，做了一個簡單的小遊戲，幫助初學者鞏固 JAVA 基礎，註釋非常詳細動態圖展示： xuanfei.java 原始碼： //包名根據自己包修改，可以沒有 package xuan

沒有宮廷內鬥，資料庫界的延禧攻略

關注↑↑↑我們獲得更多精彩內容！作者 | 張甦，資料庫領域的專家和知名人士、圖書《MySQL王

爬蟲系列（2）-----python爬取CSDN博客首頁所有文章

成功 -name 保存 eas attr eve lan url att 對於Python初學者來說，爬蟲技能是應該是最好入門，也是最能夠有讓自己有成就感的，今天在整理代碼時，整理了一下之前自己學習爬蟲的一些代碼，今天上第2個簡單的例子，python爬取CSDN博客首頁所有

項目實戰！我用Python爬取了14年所有的福彩3D信息

下載器 rap 寫入excel url req 理論 ola text port 前兩天，在網上看到一個有意思的問題：×××靠譜麽？為什麽還有那麽多的人相信×××？暫且不說，×××是否靠譜？×××也分人而異，江湖上騙術很多，有些甚至會誤以為×××的準確度可以很高，這些操盤

python爬取古詩文網站詩文一欄的所有詩詞

寫在前面曾經，我們都有夢，關於文學，關於愛情，關於一場穿越世界的旅行，如今我們深夜飲酒，杯子碰在一起，都是夢破碎的聲音曾經，面對詩文如痴如醉，而如今，已漠眼闌珊，風起雲湧不再，嗚呼哀哉，索一首詩篇以慰藉爍爍華年卷一前幾日，發現古詩文網站，如獲至寶，便被一時私念驅使，將

Python爬取網頁所有小說

Python爬取網頁所有小說 python 2.7.15 練習beautifulsoup的使用不瞭解bs的可以先看一下這個bs文件一、看URL的規律因為是要爬取網頁上所有的小說，所以不僅要獲取網頁的URL，還要獲取網頁裡的連線們的URL。它們一般是有規律的，如果沒有的話就用

Python爬蟲爬取CSDND首頁的所有的文章

# -*- encoding: utf-8 -*- import re import urllib.request def function(): """Python爬蟲爬取CSDND首頁的所有的文章""" html="https://blog.csdn.n

python爬取美團所有結婚商家(包括詳情)

本文章主要介紹爬取美團結婚欄目所有商家資訊(電話) 第一步：爬取區域分析鞍山結婚頁面 https://as.meituan.com/jiehun/ 分析重慶結婚頁面 https://cq.meituan.com/jiehun/ 分析可得：url基本相同，我們只需爬取美團

python 爬取網站獲得一個網站的所有連結

第一步，找個網站我這裡就找行業裡比較有名的收錄網站的網站酷113網第二步，開啟www.ku113.com 按下滑鼠右鍵點選檢視原始碼第三步，把原始碼複製下來儲存成一個檔案命名 ku113.html 第四步，執行以下python 程式我這裡用的py 2.7.13版

使用python爬取12306上面所有車次資料

在爬取12306之前需要做的工作就是: 1,分析請求過程 2,分析是否需要處理cookie 3,編寫程式碼 4,測試爬取網站是否有訪問次數限制 5,部署到正式伺服器上這裡重點寫如何分析請求過程: 這是12306上面查詢車次的介面,出發地和目的地是我們需要輸入的, 如

Python爬取網易雲音樂歌單內所有歌曲

一、目標：下載網易雲音樂熱門歌單二、用到的模組： requests，multiprocessing，re。三、步驟：（1）頁面分析：首先開啟網易雲音樂，選擇熱門歌單，可以看到以下歌單列表，然後開啟開發者工具本人對於Python學習建立了一個小小的學習圈子，為

python爬蟲爬取NBA貼吧的所有精品貼

首先用直接的方法寫，先嚐試下能否爬取成功 #coding:utf-8 import urllib2,urllib import re ''' 1.準備url地址 2.準備請求頭 3.建立請求物件 4.發起請求獲取第一頁原始碼，接收響應 5.通過第一頁原始碼，找到總頁數和標題

Python爬取指定微信公眾號所有文章！

篇文章使用到的技術: mitmdump + 電腦版微信先分析開啟視覺化抓包工具, 勾選https代理。然後開啟電腦版微信任意點選一個公眾號，再點選檢視歷史訊息進群：960410445 即可獲取原始碼！開啟後這樣 &nb

python爬蟲爬取csdn部落格專家所有部落格內容

#coding:utf-8 import urllib2 from bs4 import BeautifulSoup import os import re #import sys #reload(sys) #sys.setdefaultencoding("utf-8") def getPage(hre

python的scrapy運用xpath爬取一個標籤下的所有文字

通常針對某一行的內容時,使用text(). 如: filename = d.xpath("./div[2]/div/div/a[1]/text()").extract().pop() 針對標籤下的存在多個子標籤下的多行時,我們採用string(.)進行獲取. 如:

python 爬取《延禧攻略》所有的演員參演的電視劇

相關推薦