用selenium進行網易雲音樂進行評論爬取
阿新 • • 發佈:2018-11-23
用selenium進行網易雲音樂進行評論爬取,然後做成詞雲圖
這個是抓取刀郎-黃玫瑰的評論詞雲
以下是抓取的程式碼,初學者,可能不是很完美,能執行。。呵呵。
#!/usr/bin/python # -*- coding: <encoding name> -*- import time from selenium import webdriver import re comment_list = [] # 定義評論列表檔案 browser = webdriver.Chrome() url = 'https://music.163.com/song?id=168091' # 輸入需要抓取網易音樂的單曲頁面 browser.get(url) browser.implicitly_wait(5) browser.switch_to.frame('contentFrame') # 進入frame for x in range(6): # 64是需要抓取的頁面總數*** button = browser.find_element_by_link_text('下一頁') # 通過找到‘下一頁’的按鈕進行翻頁 time.sleep(2) #print(button.text) aa = browser.find_elements_by_xpath('//div/div[2]/div[1]/div[1]') # 定位評論文字 for i in aa: #print(i.text) a = re.search(':', i.text) # 通過正則表示式進行“:”定位,得出左邊是評論者,這個要去掉 #print(a) if a: n = i.text.index(':') + 1 m = i.text[n:] # 只保留從“:”右邊的文字,就是純正的評論文字 comment_list.append(m) else: #comment_list.append('') print('繼續工作......') print('抓取了>>>>' + str(x) + '<<<<頁') button.click() # 自動進行“下一頁”的按鈕 with open('e:/python-result/music.txt','a',encoding = 'utf-8') as f: # 儲存文字檔案 f.write(str(comment_list))