1. 程式人生 > >水木社區爬蟲項目介紹

水木社區爬蟲項目介紹

一個 對象 req 文本 解析 request 得到 文件中 切分

1、 爬蟲

1、 用urllib.request庫請求一個url的內容。
2、 用 beautifulsoup解析request庫請求得到的內容。
3、 在網頁上右鍵-檢查,閱讀html代碼,歸納出想爬到信息屬於html樹形結構的哪一部分。
4、 用beautifulsoup的next_element.next_sibling等方法定位到想要的文本。
5、 把beatuifulsoup對象中想要的部分寫入文件中。

2、 分詞

1、 把文件按時間手動切分成幾個。
2、 用正則表達式過濾出中文。
3、 用jieba分詞。
4、 記錄詞頻。
5、 用停用詞表去除停用詞。
6、選出top100.

水木社區爬蟲項目介紹