python爬蟲——爬取網頁的中文
阿新 • • 發佈:2018-12-28
# 爬取網頁的中文內容 from urllib import request from bs4 import BeautifulSoup import pandas as pds import xlrd import docx #讀取excel def excel(fname): data=pds.read_excel(fname) return data def word(school ,content): #建立記憶體中的word文件物件 file=docx.Document() #寫入若干段落 file.add_paragraph(content) #儲存 file.save("E:/大四上/畢業論文/招生簡章/"+school+"招生簡章.docx") if __name__ == '__main__': data=excel("C:/Users/Administrator/Desktop/招生簡章.xlsx") #讀初始資料 nrow=data.shape[0] #獲取資料的行數 for i in range(0,nrow): school = data.values[i][0] url =data.values[i][1] print("正在爬第"+str(i)+"個招生簡章") head = {} # 使用代理 head['User-Agent'] = 'Mozilla/5.0 (Linux; Android 4.1.1; Nexus 7 Build/JRO03D) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.166 Safari/535.19' req = request.Request(url, headers = head) response = request.urlopen(req) html = response.read() # 建立request物件 soup = BeautifulSoup(html, 'lxml') # 找出div中的內容 soup_text = soup.find(attrs={'class':'content'}) # 輸出其中的文字 content = soup_text.text word(school ,content)#寫入word文件