爬蟲案例之藥品通用名和商品名資料庫下載

阿新 • • 發佈：2019-01-14

如圖：我想把圖中的表格給下載下來。

分析頁面請求，發現是ajax請求，不需要cookie，post請求需要帶一些引數，總之發現實現流程很簡單。但關鍵是從頁面提取表格，這裡主要用到了pandas的read_html，使用這個函式可以使我們很方便的提取也頁面的表格資訊。

程式碼

# -*- coding: utf-8 -*-

"""
@Datetime: 2018/11/11
@Author: Zhang Yafei
"""
from multiprocessing import Pool

import pandas
import requests
import os

BASE_DIR = os.path.dirname(os.path.abspath(__file__))
HTML_DIR = os.path.join(BASE_DIR,'藥品商品名通用名稱資料庫')

if not os.path.exists(HTML_DIR):
    os.mkdir(HTML_DIR)

name_list = [] 
if os.path.exists('drug_name.csv'):
    data = pandas.read_csv('drug_name.csv',encoding='utf-8')
    
header = {
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
        'Accept-Encoding': 'gzip, deflate',
        'Accept-Language': 'zh-CN,zh;q=0.9',
        'Cache-Control': 'max-age=0',
        'Connection': 'keep-alive',
        'Content-Length': '248',
        'Content-Type': 'application/x-www-form-urlencoded',
        'Cookie': 'JSESSIONID=0000ixyj6Mwe6Be4heuHcvtSW4C:-1; Hm_lvt_3849dadba32c9735c8c87ef59de6783c=1541937281; Hm_lpvt_3849dadba32c9735c8c87ef59de6783c=1541940406',
        'Upgrade-Insecure-Requests': '1',
        'Origin': 'http://pharm.ncmi.cn',
        'Referer': 'http://pharm.ncmi.cn/dataContent/dataSearch.do?did=27',
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
    }


def spider(page):
    adverse_url = 'http://pharm.ncmi.cn/dataContent/dataSearch.do?did=27'
    form_data = {
        'method': 'list',
        'did': 27,
        'ec_i': 'ec',
        'ec_crd': 15,
        'ec_p': page,
        'ec_rd': 15,
        'ec_pd': page,
    }
    response = requests.post(url=adverse_url,headers=header,data=form_data)
    filename = '{}.html'.format(page)
    with open(filename,'w',encoding='utf-8') as f:
        f.write(response.text)
    print(filename,'下載完成')


def get_response(page):
    file = os.path.join(HTML_DIR,'{}.html')
    with open(file.format(page),'r',encoding='utf-8') as f:
        response = f.read()
    return response


def parse(page):
    response = get_response(page)
    result = pandas.read_html(response,attrs={'id':'ec_table'})[0]
    data = result.iloc[:,:5]
    data.columns = ['序號','批准文號','藥品中文名稱','藥品商品名稱','生產單位']
    if page==1:
        data.to_csv('drug_name.csv',mode='w',encoding='utf_8_sig',index=False)
    else:
        data.to_csv('drug_name.csv',mode='a',encoding='utf_8_sig',header=False,index=False)
    print('第{}頁資料存取完畢'.format(page))

def get_unparse_data():
    if os.path.exists('drug_name.csv'):
        pages = data['序號']
        pages = list(set(range(1,492))-set(pages.values))
    else:
        pages = list(range(1,492))
    return pages
    
def download():
     pool = Pool()
     pool.map(spider,list(range(1,492)))
     pool.close()
     pool.join()
    
    
def write_to_csv():
    pages = get_unparse_data()
    print(pages)
    list(map(parse,pages))    
    
def new_data(chinese_name):
    trade_name = '/'.join(set(data[data.藥品中文名稱==chinese_name].藥品商品名稱))
    name_list.append(trade_name)
      
def read_from_csv():
    name = data['藥品中文名稱'].values
    print(len(name))
    chinese_name = list(set(data['藥品中文名稱'].values))
    list(map(new_data,chinese_name))
    df_data = {'藥品中文名稱':chinese_name,'藥品商品名稱':name_list}
    new_dataframe = pandas.DataFrame(df_data)
    new_dataframe.to_csv('unique_chinese_name.csv',mode='w',encoding='utf_8_sig',index=False)
    return new_dataframe    
    
def main():
    download()    
    write_to_csv()
    return read_from_csv()

if __name__ == '__main__':
    drugname_dataframe = main()

　　知識點總結：1.ajax的post請求，不需要登入

　　　　　　　　2.多程序下載

　　　　　　　　3.解析資料用read_html快速提取表格

爬蟲案例之藥品通用名和商品名資料庫下載

如圖：我想把圖中的表格給下載下來。分析頁面請求，發現是ajax請求，不需要cookie，post請求需要帶一些引數，總之發現實現流程很簡單。但關鍵是從頁面提取表格，這裡主要用到了pandas的read_html，使用這個函式可以使我們很方便的提取也頁面的表格資訊。程式碼 # -*- cod

Python爬蟲入門之五Handler處理器和自定義Opener

Handler處理器和自定義Opener opener是 urllib.OpenerDirector 的例項，我們之前一直都在使用的urlopen，它是一個特殊的opener（也就是模組幫我們構建好的）但是基本的urlopen()方法不支援代理、cookie等其他的HTTP/HTTPS高階功能。

模擬登陸CSDN -- Python爬蟲練習之正則表示式和cookie

　　這周學習的主題是正則表示式和cookie，原本是計劃每天晚上11點下班到家，練上一兩個鍾就把這部分過了，結果這周各種事情和不再狀態，所以沒整完，直至今天才把相關問題過掉。其實這部分也挺不錯的，也並沒有想象中容易，所以好事多磨。這周練習的綜合習題就是模擬登陸C

jQuery裏面click、this事件遇到（Django模型裏for）相同的id名和class名想獲取值

相同技術分享簡化不能 png 要求 clas http color 遇到的原型是這樣的！下面我把它簡化一下; click事件：在瀏覽器裏面只能獲取橫線上面的值，和下面的第一個值！！這是因為id等級比class高，而且js要求id不能重復！當jQu

MVC 在action方法中獲取當前action的控制器名和action名

ted col 控制 name pre value values class context 如何在某個action方法中獲取它所在的控制器和action名稱呢。 string controllerName = Request.RequestContext.RouteDa

MySQL數據庫名和表名無法大寫的問題

區分大小寫 edi win 情況字段值 mes sql 使用 odi lower_case_table_names參數詳解：其中 0：區分大小寫，1：不區分大小寫 MySQL在Linux下數據庫名、表名、列名、別名大小寫規則是這樣的： 1、數據庫名與表名是嚴格區分大小寫

oracle 例項名和服務名以及資料庫名區別

一、資料庫名什麼是資料庫名？資料庫名就是一個數據庫的標識，就像人的身份證號一樣。他用引數DB_NAME表示，如果一臺機器上裝了多全資料庫，那麼每一個數據庫都有一個數據庫名。在資料庫安裝或建立完成之後，引數DB_NAME被寫入引數檔案之中。格式如下： DB_NAME=myorcl ... 在建立

PHP使用字串傳遞變數名和函式名

<?php function showTime($val = null) { if ($val) { return time(); } else { return 'param error!'; } } $para

如何遍歷資料庫中的資料(在不知道資料庫名和表名的情況下)

玩轉資料庫的元資訊操作，主要是兩個類: * 1) DatabaseMetaData類: 包含驅動資訊、資料庫名、表名(檢視、儲存過程等) * 通過con.getMetaData()可獲得一個DatabaseMetaData類物件 * 2) ResultS

獲取呼叫自己方法的使用者的包名和類名

此功能可以獲得第三方的對自己功能的使用情況，可以知道非法操作！ //下面程式碼段是獲取呼叫自己方法的人的包名和類名 1.比如一個叫MainActivity內部呼叫了這個初始化 MainActivity中有呼叫:ABC.getInstance(); 結果：name:com.xx.Mai

陣列名和陣列名加地址符的區別(瞭解指標)

問題發現在int *p[4]和int (*ip)[4]的區別？為了明白這個區分，做個小例子驗證以下是驗證程式碼 int *p[4]; int a=0; int *q=NULL; p[0]= &a; p[1]=q; int (*ip)[4];

view administrator頁面上計算機名和DNS名不匹配

問題：因為某些原因將原來Windows版的VCenter換成了VCSA，並重新將環境配置成原來一樣。在重新配置了VIEW Administrator上Vcenter後，在管理頁面卻出現了計算機名和DNS名不匹配的情況。具體情況如下圖影響：現了計算機名和DNS名不匹配的情況可能會

js中避免函式名和變數名跟別人衝突（1）

方法1： (function(){ var m = 0; var n = 1; function getName(){ return m;

【程式碼提取】提取一個資料夾裡面的所有Java檔案的類名函式名和變數名

讀取一個資料夾中的Java檔案 #include<iostream> #include<fstream> #include<io.h> #include<vector> #include<string> #inc

ubuntu16.04 下修改賬戶名和裝置名

方法一：1.按下 Ctrl - Alt - T 組合鍵，開啟終端。當終端開啟，輸入下列命令，使用gedit編輯hostname檔案 sudo gedit /etc/hostname2.修改hostname。例如，你想要計算機名字為“XV”，先刪除之前的檔案內容，輸入XV

在建立Android專案完成之後修改包名和app名

1.修改包名 applyplugin:'com.android.application' android { compileSdkVersion26 buildToolsVersion"26.0

JS中變數名和函式名重名

var x=12 var x=13 function x() { console.log(x) } console.log(x); //13 //err:x is not a function

檢視Oracle資料庫名和例項名

檢視資料庫名 SQL> select name from v$database; NAME --------- ORCL SQL> desc v$database; 名稱是否為

JPA設定表名和實體名，表字段與實體欄位的對應

首先你的jpaProperties配置項中要有 <prop key="hibernate.hbm2ddl.auto">update</prop>這樣就可以直接有物件對映為表結構，實現面向物件向資料庫轉化。實體的名字可以和表名字不一樣，欄位名字和實

Hibernate——資料庫表名和類名不一致

註解Annotation的解決方法，xml不做討論 hibernate文件推薦使用javax.persistence而不是org.hibernate.annotation 如果資料庫表名和類名不一

爬蟲案例之藥品通用名和商品名資料庫下載

相關推薦