爬蟲大作業

阿新 • • 發佈：2018-04-22

rec att open search bs4 fun ret utf spa

import requests
import re
from bs4 import BeautifulSoup
import jieba.analyse
from PIL import Image, ImageSequence
import numpy as np
import matplotlib.pyplot as plt
from wordcloud import WordCloud, ImageColorGenerator

# 獲取總頁數
def getnum(url):
    res = requests.get(url)
    res.encoding = ‘gb2312‘ 

    soup = BeautifulSoup(res.text, ‘html.parser‘)
    Info = soup.select(".page-next")[0].extract().text
    TotalNum = re.search("共(\d+)頁.*",Info).group(1)
    return TotalNum

#獲取單個頁面所有鏈接
def getpageurl(url):
    res = requests.get(url)
    res.encoding = ‘gb2312‘
    soup = BeautifulSoup(res.text, ‘ 
html.parser‘)
    a = soup.select(".list-page ul")
    for i in soup.select(".list-page ul li"):
        if len(i.select("a"))>0:
            info = i.select("a")[0].attrs[‘href‘]
            pageurl = ‘http://www.ckck.tv/‘ + info
            print(pageurl)
            getinfromation(pageurl)
# 獲取頁面的信息 

def getinfromation(url):
    res = requests.get(url)
    res.encoding = ‘gb2312‘
    soup = BeautifulSoup(res.text, ‘html.parser‘)
    a = soup.select(".content .movie ul h1")[0].text
    print("電影：",a)
    b = soup.select(".content .movie ul li")[1].text
    name = re.search("【主　演】：(.*)",b).group(1)
    print("主演:",name)
    c = soup.select(".content .movie ul li")[4].text
    date = re.search("【年　代】：(.*)  【地　區】：", c).group(1)
    print("年代：", date)
    diqu = re.search("【地　區】：(.*)", c).group(1)
    print("地區：",diqu)
    # 將標簽內容寫入文件
    f = open(‘gzccNews.txt‘, ‘a‘, encoding=‘utf-8‘)
    f.write(a )
    f.write(name )
    f.write(date )
    f.write(diqu)
    f.write("\n")
    f.close()

# 生成詞雲
def getpicture():
    lyric = ‘‘
    f = open(‘gzccNews.txt‘, ‘r‘, encoding=‘utf-8‘)
    for i in f:
        lyric += f.read()

    result = jieba.analyse.textrank(lyric, topK=50, withWeight=True)
    keywords = dict()
    for i in result:
        keywords[i[0]] = i[1]
    print(keywords)

    image = Image.open(‘input.jpg‘)
    graph = np.array(image)
    wc = WordCloud(font_path=‘./fonts/simhei.ttf‘, background_color=‘White‘, max_words=50, mask=graph)
    wc.generate_from_frequencies(keywords)
    image_color = ImageColorGenerator(graph)
    plt.imshow(wc)
    plt.imshow(wc.recolor(color_func=image_color))
    plt.axis("off")
    plt.show()
    wc.to_file(‘output.png‘)


url = ‘http://www.ckck.tv/xj/Index.html‘
a = getnum(url)
getpageurl(url)
for i in range(2,int(a)):
     page = ‘http://www.ckck.tv/xj/List_4_{}.html‘.format(i)
     getpageurl(page)
getpicture()

首先定義獲取總頁面、獲取頁面所有鏈接、獲取頁面信息、生成詞雲等的函數，過程中就是獲取所有頁面所有鏈接出現點問題，歸結於找標簽問題。這次爬取的是一個電影網站，將網站裏面的電影名、主演、年代、地區，然後進行詞雲生成

技術分享圖片

爬蟲大作業

rec att open search bs4 fun ret utf spa import requests import re from bs4 import BeautifulSoup import jieba.analyse from PIL import Ima

爬蟲大作業－爬區a9vg電玩部落ps4專區

IT () als lec href news app 分析 word 1.選一個自己感興趣的主題或網站。(所有同學不能雷同) 2.用python 編寫爬蟲程序，從網絡上爬取相關主題的數據。 def writeNewsDetail(content): f = op

爬蟲大作業之廣商足球快訊(爬取足球新聞)

描述 brush slist white mat 完整 tps num pat 1.選一個自己感興趣的主題（所有人不能雷同）。主題:爬取足球新聞相關信息 2.用python 編寫爬蟲程序，從網絡上爬取相關主題的數據。 3.對爬了的數據進行文本分析，生成詞雲。 txt

數據庫終期大作業報告

編寫負責 pan sql 坦克大戰 cte 建議 frame 開發環境需求分析現代社會，心血管疾病成為了老年人群體中高發的慢性病，一個社區醫生往往需要負責多位患者的診斷工作，如果每位患者都要頻繁上門問診，會給醫生帶來過大的工作壓力，也很難顧及到全部患者。在信息技

Majority Element ，算法設計大作業1.py

you time some one size ssi none origin ans Majority Element Find majority element; Input:An array A[1 to n] of elements; Output:The maj

團隊大作業第一階段總結

環境使用方法了解定義團隊建設交互情況成了 stat 一、第一階段小組工作情況 1、經過團隊隊員的討論，完成了對咖啡機各個模塊的劃分、所需傳感器、模塊功能定義以及接口定義的工作 2、咖啡機確定了一共分為五個模塊：杯子夾取模塊、傳送帶模塊、沖泡模塊、水溫控制模塊、

一個完整的大作業

www. 有一個最新 find box 技術分享 ade blog 提取本次爬取小說的網站為136書屋。先打開花千骨小說的目錄頁，是這樣的。我們的目的是找到每個目錄對應的url，並且爬取其中地正文內容，然後放在本地文件中。 2.網頁結構分析

一個完整的大作業：淘寶口紅銷量top10的銷量和評價

gen 匹配我們 es2017 對象啟用網站 rgs cep 網站：淘寶口紅搜索頁 https://s.taobao.com/search?q=%E5%8F%A3%E7%BA%A2&sort=sale-desc先爬取該頁面前十的口紅的商品名、銷售量、價格、評分

一個完整的python大作業

off pytho tle code rate odin 制作 with wid 由於能選擇一個感興趣的網站進行數據分析，所以這次選擇爬取的網站是新華網，其網址為"http://www.xinhuanet.com/"，然後對其進行數據分析並生成詞雲運行整個程序相關的代碼

[存檔] 大作業進度1 ／ 5

contex image() nbut tin cancel display begin oba posit <html> <head> <title>Getting over it with

[存檔] 大作業進度3 ／ 5

mat fff event p s horizon eee div one isp <html> <head> <title>Getting over it with HazelNut</

計算機網絡NAS轉發中心大作業總結反思

總結思想作業 linu 掌握滿足能力開發經驗網絡收獲代碼知識積累的應用完成了自己有史以來規模最大的Web Application項目經過長時間的C++和Java訓練，終於可以自信的說自己已經掌握了面向對象設計的流程。在對php不了解的情況下能夠

Hadoop綜合大作業

分享圖片遇到 oop hive 適合打開技術下載 src 1.1.用Hive對爬蟲大作業產生的文本文件（或者英文詞頻統計下載的英文長篇小說）詞頻統計。因為大數據爬出來的數據不太適合進行詞頻統計，所以我換了一篇簡易的英文文章，其次因為英文長篇小說實在是太長，詞頻統計

hadoop大作業

存儲 bcd fin abcde func csv gif ons move 1.用Hive對爬蟲大作業產生的文本文件（或者英文詞頻統計下載的英文長篇小說）詞頻統計。 1.啟動hadoop 2.Hdfs上創建文件夾並查看 3.上傳英文詞頻統計文本至hdf

大作業+補交作業

www reverse 單詞 import 總頁數 title text 字符 utf-8 詞頻統計預處理下載一首英文的歌詞或文章將所有,.？！’:等分隔符全部替換為空格將所有大寫轉換為小寫生成單詞列表生成詞頻統計排序排除語法型詞匯，代詞、冠詞、連詞輸出詞

大作業

sorry around climb cross \ufeff color longest roc for f = open(‘歌詞.txt‘,mode=‘r‘,encoding=‘utf-8‘) fText = f.read() f.close() print(fTex

大作業項目

分鐘企業網站 root 審計還需要 SQ 站點 visio 上線用14臺虛擬機搭建一個高可用負載均衡集群架構出來，並運行三個站點，具體需求如下。1 設計你認為合理的架構，用visio把架構圖畫出來2 搭建lnmp、tomcat+jdk環境3 三個站點分別為：discu

期末綜合大作業：詞頻統計

ace 技術分享 nco IV style txt lam bubuko #1. bigFile = open(‘big.txt‘,mode=‘r‘,encoding=‘utf-8‘) bigText=bigFile.read() bigFile.close() pri

大作業環境部署和mysql布署和備份

false system pub chat root 屬組標簽 zip spawn 大作業環境部署：所有機器使用普通用戶密鑰認證登錄，root權限只能sudo 安裝基本工具(跳板機操作) yum install -y vim rsync lrzsz bzip2 un

大作業之zabbix

.sql libevent -c inpu hash openipmi sqli web頁面 har 1、二進制安裝JDK（1.8）：用於java-geteway上傳JDK到/usr/local/src/目錄下，解壓： [root@localhost src]# tar z

爬蟲大作業

相關推薦