1. 程式人生 > >Python爬蟲:繪圖matplotlib與詞雲

Python爬蟲:繪圖matplotlib與詞雲

1 繪製條形圖

Python學習資料或者需要程式碼、視訊加Python學習群:960410445
2 繪製智聯招聘職位崗位數量圖


3 詞雲

“詞雲”這個概念由美國西北大學新聞學副教授、新媒體專業主任裡奇·戈登(Rich Gordon)提出。“詞雲”就是對網路文字中出現頻率較高的“關鍵詞”予以視覺上的突出,形成“關鍵詞雲層”或“關鍵詞渲染”,從而過濾掉大量的文字資訊,使瀏覽網頁者只要一眼掃過文字就可以領略文字的主旨。

詞頻

分詞 語句切割


讀取文字


切割


精簡生成詞雲


4 Matplotlib 繪圖

1 多個subplot

 


2 線形圖

 


這段程式碼說明如下:

plot函式的第一個陣列是橫軸的值,第二個陣列是縱軸的值,所以它們一個是直線,一個是折線;

最後一個引數是由兩個字元構成的,分別是線條的樣式和顏色。前者是紅色的直線,後者是綠色的點線。

3 散點圖

 


這段程式碼說明如下:

這幅圖包含了三組資料,每組資料都包含了20個隨機座標的位置

引數c表示點的顏色,s是點的大小,alpha是透明度

4 餅狀圖

 


這段程式碼說明如下:

data是一組包含7個數據的隨機數值

圖中的標籤通過labels來指定

autopct指定了數值的精度格式

plt.axis('equal')設定了座標軸大小一致

plt.legend()指明要繪製圖例(見下圖的右上角)

5 條形圖

 


這段程式碼說明如下:

這幅圖展示了一組包含7個隨機數值的結果,每個數值是[0, 100]的隨機數

它們的顏色也是通過隨機數生成的。np.random.rand(N * 3).reshape(N, -1)表示先生成21(N x 3)個隨機數,然後將它們組裝成7行,那麼每行就是三個數,這對應了顏色的三個組成部分。

title指定了圖形的標題,labels指定了標籤,alpha是透明度

6 直方圖

 


上面這段程式碼中,[np.random.randint(0, n, n) for n in [3000, 4000, 5000]]生成了包含了三個陣列的陣列,這其中:

第一個陣列包含了3000個隨機數,這些隨機數的範圍是 [0, 3000)

第二個陣列包含了4000個隨機數,這些隨機數的範圍是 [0, 4000)

第三個陣列包含了5000個隨機數,這些隨機數的範圍是 [0, 5000)