1. 程式人生 > >爬蟲QQ說說並生成詞雲圖,回憶滿滿!比比誰更殺馬特!

爬蟲QQ說說並生成詞雲圖,回憶滿滿!比比誰更殺馬特!

body ~~ beautiful BE -c 添加 Python標準庫 clas mark

技術分享圖片

無圖言虛空

技術分享圖片

技術分享圖片

解析器使用方法優勢劣勢
Python標準庫 BeautifulSoup(markup, "html.parser") Python的內置標準庫 執行速度適中 文檔容錯能力強 Python 2.7.3 or 3.2.2)前 的版本中文檔容錯能力差
lxml HTML 解析器 BeautifulSoup(markup, "lxml") 速度快 文檔容錯能力強 需要安裝C語言庫
lxml XML 解析器 BeautifulSoup(markup, ["lxml", "xml"]) BeautifulSoup(markup, "xml") 速度快 唯一支持XML的解析器 需要安裝C語言庫
html5lib BeautifulSoup(markup, "html5lib") 最好的容錯性 以瀏覽器的方式解析文檔 生成HTML5格式的文檔 速度慢 不依賴外部擴展

技術分享圖片

同理window的也一樣,下載對應的驅動,解壓後,將下載的**.exe 放到Python的安裝目錄,例如 D:\python 。 同時需要將Python的安裝目錄添加到系統環境變量裏。

qq登錄頁http://i.qq.com,利用webdriver打開qq空間的登錄頁面

driver = webdriver.Chrome()
driver.get("http://i.qq.com")

技術分享圖片

技術分享圖片

技術分享圖片

這個時候可以看到已經打開了qq說說的頁面了, 註意 部分空間打開之後會出現一個提示框,需要先模擬點擊事件關閉這個提示框

技術分享圖片

tm我以前竟然還有個黃鉆,好可怕~~,空間頭像也是那麽的年輕、主流...

技術分享圖片

技術分享圖片

技術分享圖片

技術分享圖片

技術分享圖片

至此,爬取qq說說內容,並生成詞雲圖。

源碼github地址: github.com/taixiang/sp…

萬人交流源碼共享群:125240963

爬蟲QQ說說並生成詞雲圖,回憶滿滿!比比誰更殺馬特!