爬蟲筆記（二）：爬取藥監局所有詳情頁資料

阿新 • • 發佈：2021-01-02

藥監局網址：http://scxk.nmpa.gov.cn:81/xk/

藥監局首頁：

詳情頁：

目的：爬取藥監局所有詳情頁資訊，儲存在本地，以csv檔案格式儲存。

分析主頁：

主頁的response返回內容中，包含了這一頁中的所有企業的id

修改網頁引數page可以實現翻頁

所以首先要通過訪問主頁，獲取所有企業id，放到一個list中。

if __name__ == '__main__':
    url = 'http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList'
    headers  
= {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 UBrowser/6.2.4098.3 Safari/537.36'
    }
    data_ids=[]
    for i in range(0,50):     #50頁之後資料異常，就爬到50頁吧
        data = {
            'on': 'True',
            'page':str(i),
            'pageSize 
':'15',
            'productName':'',
            'conditionType':'1',
            'applyname':'',
            'applysn':''
        }
        dict_data = requests.post(url = url ,data = data,headers = headers).json()
        time.sleep(0.1)
        for j in dict_data['list']:
            data_ids.append(j[ 
'ID'])

data_ids中就是所有企業的id
下一步是通過numpy建立csv檔案，把列索引創建出來。先對data_ids第0個id，也就是第0個企業的詳情頁進行解析，

把每一項作為列索引

url_creat_csv = 'http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsById'
creat_csv(url_creat_csv,data_ids[0])

建立csv檔案函式定義

def creat_csv(url,list_id_0):
    df = pd.DataFrame()
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 UBrowser/6.2.4098.3 Safari/537.36'
    }
    data = {
        'id': list_id_0
    }
    dict_data = requests.post(url=url, data=data, headers=headers).json()
    for i in dict_data.keys():  
        df[i]=''
    df.to_csv('1.csv',encoding = 'utf-8_sig')

最後將每一個企業id對應詳情頁解析，放到csv檔案中

pd = pd.read_csv('1.csv',encoding = 'utf-8')
    url = 'http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsById'
    for (j,i) in zip(range(len(data_ids)),data_ids): #對每一個id網頁進行訪問
        data = {
            'id':i
        }
        data_js = requests.post(url = url ,data = data,headers = headers).json()
        for k in data_js.keys():#k是遍歷data_js中的key
            pd.loc[j,k] = data_js[k]
        pd.to_csv('1.csv', encoding='utf-8_sig')

最後爬到的檔案是這樣的：

如果覺得列索引是英文的，可以用字典對應替換下，這裡就不寫了。

個人總結：爬資料不難，難在儲存在本地中。利用pandas儲存檔案花了半天時間。。。囧

爬蟲筆記（二）：爬取藥監局所有詳情頁資料

藥監局網址：http://scxk.nmpa.gov.cn:81/xk/ 藥監局首頁：詳情頁：目的：爬取藥監局所有詳情頁資訊，儲存在本地，以csv檔案格式儲存。

伯陽的網路筆記（二）：HTTP基礎

因為疫情期間在外當志願者，晚上回家無聊翻翻網路知識，權當記錄了。初始動筆：2019-02-03

ROS中階筆記（二）：機器人系統設計—URDF機器人建模

ROS中階筆記（二）：機器人系統設計—URDF機器人建模目錄01 URDF理論1.1 什麼是URDF1.2 模型1.2.1element1.2.2element02 URDF 實踐2.1 建立機器人描述的功能包2.2 編輯launch啟動檔案2.3 配置config檔案2.4 建立URD

Java自學筆記（二）：面向物件

學習網站：https://www.runoob.com/java/java-tutorial.html 目錄類和物件基本構造和訪問繼承

Rust基礎學習筆記（二）：自動測試

本文介紹Rust的自動測試機制。如何編寫測試測試是一些用來確定程式碼正常執行的函式。通過對一些數值運算後得到預期的結果來實現。

Docker學習筆記（二）：Docker映象

Docker映象簡介：對於每個軟體，除了它自身的程式碼以外，它的執行還需要有一個執行環境和依賴。不管這個軟體是象往常一樣執行在物理機或者虛機之中，還是執行在現在的容器之中，這些都是不變的。在傳統環境中，軟體

Spring Boot +Vue 專案實戰筆記（二）：前後端結合測試（登入頁面開發）

前言：關於開發環境每位 Coder 都有自己偏好的開發工具，從大的方面劃分主要有文字編輯器流和IDE流兩種，我有一段時間也喜歡用編輯器（Sublime Text、Vim），但對我來說開發效率確實不如使用 IDE 高，所以就放棄了。

ROS學習筆記（二）：建立工作空間和功能包

技術標籤：ROS學習筆記 1.工作空間（Workspace）是一個存放工程開發相關檔案的資料夾。

正則匹配查詢_正則表示式學習筆記（二）：元字元

技術標籤：正則匹配查詢前言上一篇文章中我們介紹了將要學習的正則表示式的執行環境，從這一節開始我們來研究一下正則表示式中的元字元，只要明白了元字元，那麼第一篇文章例子中的程式碼我們就可以看得懂了

python爬蟲學習（一）requests爬取dytt下載地址

當網址有加密傳送安全證書時可以使用verify=False，因為dytt利用的字元編碼是gb2312，所以解碼也要用gb2312

臺達PLC開發筆記（二）：臺達PLC設定主機通訊引數為RTU併成功通訊

前言前面使用485和網口與臺達成功建立通訊，但是485是使用用的ASICC模式，多數情況下是使用RTU模式提升通訊效率。

設計模式筆記（二）：策略模式

應用場景： 1、如果在一個系統裡面有許多類，它們之間的區別僅在於它們的行為，那麼使用策略模式可以動態地讓一個物件在許多行為中選擇一種行為。

Matlab+Qt開發筆記（二）：Qt開啟mat檔案顯示讀取的資料

前言介紹了基礎環境，最終是為了讀取顯示.mat檔案，本篇讀取mat檔案並顯示。

React學習筆記（二）：路由（react-router-dom ）

一、BrowserRouter型別入口檔案中（index.js） 1 import { BrowserRouter} from \'react-router-dom\'

ES6筆記（二）：物件簡寫

時間：2022/01/11 物件簡寫的示例程式碼： <!DOCTYPE html> <html lang=\"en\"> <head>

Vue筆記（二）：axios非同步通訊

時間：2021/01/14 一.axios庫 axios是Vue官方推薦的非同步通訊http庫，與jQuery中ajax有相同的作用，可以用來請求後端介面中的資料。

爬蟲實戰（四）：爬優美相簿

目錄優美相簿一、網址分析二、編寫程式碼 1、獲取每類圖片的地址 2、獲取每張圖片的地址

async-validator 原始碼學習筆記（二）：目錄結構

上一篇文章《async-validator 原始碼學習（一）：文件翻譯》已經將 async-validator 校驗庫的文件翻譯為中文，看著文件可以使用 async-validator 非同步校驗表單。本篇文章繼續學習 async-validator 原始碼目錄結構

麒麟系統開發筆記（二）：國產麒麟系統搭建Qt開發環境安裝Qt5.12

前言開發國產應用，使用到銀河麒麟V4，V10，本篇以V10記錄，參照上一篇可安裝V4、V7、V10三個版本，麒麟V4系自帶了Qt，麒麟V10沒有自帶Qt，需要自己編譯搭建環境。

CANoe學習筆記（二）：建立第一個事件觸發幀

內容：建立一個事件觸發幀；包含幾個不同無條件幀；事件觸發幀的觸發；事先準備：