用BeautifulSoup,urllib,requests寫twitter爬蟲(1)

阿新 • • 發佈：2019-01-21

在github上找到了一個twitter的爬蟲，試了下，修改了其中一個有關編碼的問題，可以抓取一定數量的twitter

程式碼如下

from bs4 import BeautifulSoup, NavigableString
from urllib2 import urlopen

#Note: must be a public profile
print "Twitter username:"
user = raw_input()

endpoint = "https://twitter.com/%s"

f = urlopen(endpoint % user)
html = f.read()
f.close()

soup = BeautifulSoup(html, 'html.parser')

tweets = soup.find_all('strong', {'class': 'fullname js-action-profile-name show-popup-with-id'})

for i in range(0,len(tweets)):
    user = tweets[i].contents[0]

    action_tag = soup('span', {'class': 'username js-action-profile-name'})
    show_name = action_tag[i].contents[1].contents[0]

    twit_text = soup('p', {'class': 'js-tweet-text'})

    message = ""
    for nib in twit_text[i]:
        if isinstance(nib, NavigableString):
            message += nib
        else:
            message += nib.text

    print user, "@", i, show_name, message.replace(u'\xa0', u'')

下面進行解釋：

第1行：從bs4中匯入兩個類。BeautifulSoup中儲存整個html文件並且可以在其中搜索，NatigableString儲存html中特定的text，但也支援某些搜尋的功能。

第2行：從urllib2中匯入urlopen方法，用於傳送請求到url並返回html文件

第5-6行：輸入要抓取的使用者名稱

第8行：輸入twitter網址

第10-12行：生成最終的目標url並使用urlopen方法，將下載的html文件讀取到html變數中，然後關閉物件。urlopen.read只能使用一次，第二次再呼叫此方法時返回空值，所以也就相當於只能迭代一次的迭代器。

第14行：根據文件生成用於檢索的BeautifulSoup物件。

第16行：找到所有class屬性為 'fullname....with-id' 的strong標籤，每個strong標籤都唯一對應一條推文，因為實際上這就是每條推文上作者的姓名，當然這樣提取出來的不僅包括使用者發表的推文，也包括了使用者轉推的推文。

第18行：對所有這樣的標籤進行遍歷

迴圈內：

第19行：將tweets中當下元素的內容賦值為user

第21行：提取出所有的動作發出者，這裡不僅能提取出傳送推文的作者，也能提取出轉推者，在twitter頁面上，就是一個使用者名稱前加上'@'的標籤，這行其實應該放到迴圈外，在這裡重複了。

第22行：show_name提取出當下推文傳送者的姓名unicode字串

第24行：提取出推文內容，這行也應該放到迴圈外，

第26-31行：將當下推文的從不同的string或tag中抽取並粘合在一起，第28行中，如果判斷為真，那說明此元素就是text（因為實質上NavigableString就是多了一些功能的string物件），如果為假，則說明這只是一個包含text的tag。

第33行：依次輸出傳送此條推文的動作發出者，原作者，以及推文內容。此處如果不把 u‘\xa0’ 替換為空的話，會報UnicodEncodeError，但現在看替換成這樣並不影響輸出推文內容，所以這個 \xa0 我覺得有可能是個檔案頭之類的，這個錯誤我在程式設計過程中出現過好幾次，一直沒有徹底弄明白過，只能先用這種方法把問題避開。這個方法源於另一篇文章http://blog.csdn.net/jianhong1990/article/details/8061328。感謝此作者為我節省了很多時間。

參考：

用BeautifulSoup,urllib,requests寫twitter爬蟲(1)

用BeautifulSoup,urllib,requests寫twitter爬蟲(1)

從零開始寫Python爬蟲 --- 1.1 requests庫的安裝與使用

用Python和Pygame寫遊戲第1課

從零開始寫Python爬蟲 --- 1.6 爬蟲實踐： DOTA'菠菜'結果查詢

1.0 -Python爬蟲-Urllib/Requests

1.1-Python爬蟲案例演示urllib/requests

爬蟲小試--用python中requests和urllib模塊爬取圖片

用BeautifulSoup + selenium 寫簡單的爬蟲程式設計

用python零基礎寫爬蟲--編寫第一個網絡爬蟲

Python3爬蟲(1)_使用Urllib進行網絡爬取

《用Python寫網路爬蟲》第一章踩坑

500 Lines or Less | A Web Crawler With asyncio Coroutines:用協程寫web爬蟲

常常寫出不阻塞的爬蟲？分享5個用Python編寫非阻塞web爬蟲的方法 python

用 Python 寫網路爬蟲第2版

輸入一行字元分別統計出其中英文字母、空格、數字和其他字元的個數。（用c++語言編寫程式）【寫的第1篇部落格，很高興

開始寫一個爬蟲（1）

爬蟲1-urllib，Request，opener，proxy

常常寫出不阻塞的爬蟲？分享5個用Python編寫非阻塞web爬蟲的方法 python

《用Python寫網路爬蟲》下載

python手記（五）：requests寫爬蟲（一）：爬蟲簡介

用BeautifulSoup,urllib,requests寫twitter爬蟲(1)

相關推薦