爬蟲QQ說說並生成詞雲圖,回憶滿滿!比比誰更殺馬特!
阿新 • • 發佈:2018-05-14
body ~~ beautiful BE -c 添加 Python標準庫 clas mark
無圖言虛空
解析器 | 使用方法 | 優勢 | 劣勢 |
---|---|---|---|
Python標準庫 | BeautifulSoup(markup, "html.parser") | Python的內置標準庫 執行速度適中 文檔容錯能力強 | Python 2.7.3 or 3.2.2)前 的版本中文檔容錯能力差 |
lxml HTML 解析器 | BeautifulSoup(markup, "lxml") | 速度快 文檔容錯能力強 | 需要安裝C語言庫 |
lxml XML 解析器 | BeautifulSoup(markup, ["lxml", "xml"]) BeautifulSoup(markup, "xml") | 速度快 唯一支持XML的解析器 | 需要安裝C語言庫 |
html5lib | BeautifulSoup(markup, "html5lib") | 最好的容錯性 以瀏覽器的方式解析文檔 生成HTML5格式的文檔 | 速度慢 不依賴外部擴展 |
同理window的也一樣,下載對應的驅動,解壓後,將下載的**.exe 放到Python的安裝目錄,例如 D:\python 。 同時需要將Python的安裝目錄添加到系統環境變量裏。
qq登錄頁http://i.qq.com,利用webdriver打開qq空間的登錄頁面
driver = webdriver.Chrome()
driver.get("http://i.qq.com")
這個時候可以看到已經打開了qq說說的頁面了, 註意 部分空間打開之後會出現一個提示框,需要先模擬點擊事件關閉這個提示框
tm我以前竟然還有個黃鉆,好可怕~~,空間頭像也是那麽的年輕、主流...
至此,爬取qq說說內容,並生成詞雲圖。
源碼github地址: github.com/taixiang/sp…
萬人交流源碼共享群:125240963
爬蟲QQ說說並生成詞雲圖,回憶滿滿!比比誰更殺馬特!