另類爬取表格數據
阿新 • • 發佈:2019-01-30
但是 code request 獲取 import 裏的 www. date panda
import pandas as pd df = pd.read_html("http://www.air-level.com/air/beijing/", encoding=‘utf-8‘,header=0)[0] results = df.T.to_dict().values() print(results)
代碼很簡單但是實現的內容可不簡單,第一行導入pandas包,
第二行的read_html核心功能實現是調用requests然後解析table標簽裏的每個td的數據
最後生成一個list對象裏面是dataframe對象。所以通過小標0獲取它的第一個dataframe數據,既然是dateframe我們就可以使用dataframe的方法了,
第三行首先做了個轉秩操作,然後轉為映射類型打印出來了。上面的代碼為了演示其效果,下面我們對結果做一個存儲操作
df = pd.read_html("http://www.air-level.com/air/beijing/", encoding=‘utf-8‘,header=0)[0] df.to_csv("tq.csv",index=False)
成功的獲取了網頁表格的數據。
需要註意的是read_html只能解析靜態頁面。
另類爬取表格數據