爬蟲實戰--JS破解+爬取製藥食品

阿新 • • 發佈：2018-11-30

網址如下：

http://app1.sfda.gov.cn/datasearch/face3/base.jsp?tableId=25&tableName=TABLE25&title=%B9%FA%B2%FA%D2%A9%C6%B7&bcId=124356560303886909015737447882

爬取目標：

分析網頁：

我們點選下一頁按鈕發現一個奇怪的事情，無論怎麼點選url是不變的，但是網頁的內容是改變的。此時我們就該聯想到是生成的資訊。

如下所示：

此刻，我們檢查元素試試看：

通過慢慢的查詢，我們可以從這裡找到我們所需要的資訊。這個時候，我們可以嘗試將上圖箭頭所指的引數返回結果找出來，看看返回的是什麼，來到console介面：

這個時候我們終於找到了url列表頁：

破解程式碼如下：

from selenium import webdriver
ch = webdriver.Chrome()
ch.get('http://app1.sfda.gov.cn/datasearch/face3/base.jsp?tableId=25&tableName=TABLE25&title=%B9%FA%B2%FA%D2%A9%C6%B7&bcId=124356560303886909015737447882')
ascp = ch.execute_script('return oldContent')
print(ascp)

下面進行詳情頁網址的分析查詢：

右鍵檢查：

但是當我們點選連結的時候並沒有跳轉到另一個頁面。那麼我們怎樣去獲得這個詳情頁呢？

再來仔細觀察一下連結和網址的異同點：

網站如下：

連結如下：

有沒有什麼聯想，如果我們把網址的前半部分和連結的後半部分拼接在一起，會產生什麼樣的網址呢？試試：

拼接後的連結如下：

http://app1.sfda.gov.cn/datasearch/face3/content.jsp?tableId=25&tableName=TABLE25&tableView=%E5%9B%BD%E4%BA%A7%E8%8D%AF%E5%93%81&Id=29813

開啟上面這個拼接後的連結，我們即可看到如下的介面：

要爬的詳情頁是不是都有了？

接下來就是，我們去請求頁面，獲取資料，然後存放到資料庫就可以大功告成了。

程式碼如下：

from selenium import webdriver
from urllib.parse import urlencode
from bs4 import BeautifulSoup
from pybloom_live import BloomFilter
import re
import os
import datetime
import pymysql

def get_data():
    options = webdriver.ChromeOptions()
    options.add_argument('lang=zh_CN.UTF-8')
    options.add_argument('user-agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"')
    browser  = webdriver.Chrome(chrome_options=options)

    #url的拼接
    for i in range(1,50):

        get_parms = {
            'tableId': '25',
            'tableName': 'TABLE25',
            'tableView': '國產藥品',
            'Id': i
        }
        base_url = 'http://app1.sfda.gov.cn/datasearch/face3/content.jsp?'+urlencode(get_parms)
        print(base_url)
        #利用布隆過濾器去重處理
        if bloom_url(base_url):
            browser.get(base_url)
            # 獲取最初的html
            content = browser.page_source
            #對錯誤頁面進行處理
            conn = re.compile('沒有相關資訊',re.S)
            Fail_key = re.search(conn,content)
            if Fail_key:
                print('Faild,網頁連結失效')
                continue
            soup = BeautifulSoup(content,'lxml')


            #建立資料列表
            item = [i,]

            for tr in soup.find('tbody').find_all('tr')[1:-2]:

                value = tr.find_all('td')[1].text
                item.append(value)
            insert_bdnews_data(item)
        else:
            print('網頁連結重複，正在重新請求')
            continue
        print(item)



def bloom_url(url):
    """
    進行url去重處理，可能需要的請求資料過多，防止重複
    :param url:對url進行判斷，看是否重複
    :return:
    """
    bloom_path = 'guochanyaopin.blm'
    # 判斷是否存在這個檔案
    is_exist = os.path.exists(bloom_path)
    if is_exist:
        bf = BloomFilter.fromfile(open(bloom_path,'rb'))
    else:
        #新建一個，儲存在記憶體中
        bf = BloomFilter(1000000,0.01)
    if url in bf:
        return False
    else:
        #如果url不在檔案中，新增進去，寫入
        bf.add(url)
        bf.tofile(open(bloom_path,'wb'))
        return True


def insert_bdnews_data(item):
    """存入資料庫"""
    conn = pymysql.Connect(host="localhost",port=3306,user="root",password="123456",db="guoyao",charset='utf8')
    cursor = conn.cursor()
    sql_insert = "insert into guoyao1 values(%s,'%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s','%s')"%(item[0],item[1],item[2],item[3],item[4],item[5],item[6],item[7],item[8],item[9],item[10],item[11],item[12],item[13],item[14])
    try:
        cursor.execute(sql_insert)
        conn.commit()
    except Exception as e:
        print('存入資料庫失敗',e)
        cursor.close()
        conn.close()

get_data()

資料庫儲存的結果如下：

此處選取一部分展示：

爬蟲實戰--JS破解+爬取製藥食品

網址如下： http://app1.sfda.gov.cn/datasearch/face3/base.jsp?tableId=25&tableName=TABLE25&title=%B9%FA%B2%FA%D2%A9%C6%B7&bcId=124356560303886

python爬蟲實戰筆記---selenium爬取QQ空間說說並存至本地

from selenium import webdriver import time from bs4 import BeautifulSoup browser = webdriver.Chrome() browser.get('https://user.qzone.qq.com') user ='241

Python爬蟲實戰一：爬取csdn學院所有課程名、價格和課時

import urllib.request import re,xlwt,datetime class csdn_spider(): def __init__(self): self.c = 0 def sava_data(self,name,class_num,price

Python3.X 爬蟲實戰（併發爬取）

1 背景在這一系列開始前我們就說過，簡單的爬蟲很容易，但是要完成一個高效健壯的爬蟲不是一個簡單的事情，這一系列我們已經明白了爬蟲相關的如下核心知識點。基於上面這幾篇其實我們把爬蟲當作自己便利的開發工具來使用基本上是夠了（譬如老闆讓你定期留意觀

Python爬蟲——實戰三：爬取蘇寧易購的商品價格(渲染引擎方法)

蘇寧易購的商品價格請求URL為 https://pas.suning.com/nspcsale_0_000000000152709847_000000000152709847_0000000000_10_010_0100101_20268_1000000_

python3 [爬蟲實戰] selenium + requests 爬取安居客

很簡單，這裡是根據網友的求助爬取的安居客上的一個頁面的全部地區名稱跟連結因為她用的scrapy框架，感覺有些大才小用了，所以就直接用了一個requests庫，selenium 和xpath進行一整頁資料的爬取獲取的內容：包括地區名，地

Python爬蟲實戰(三):簡單爬取網頁圖片

先上程式碼:#coding=utf-8 import urllib.request for i in range(1,41): imgurl = "http://mtl.ttsqgs.com/images/img/11552/" imgurl += str(i

Python爬蟲——實戰一：爬取京東產品價格(逆向工程方法)

在京東的單個產品頁面上，通過檢視原始碼檢查html，可以看到 <span class="p-price"><span>￥</span><span class="price J-p-1279836"></sp

Python爬蟲實戰專案1 | 基礎爬蟲的實現（爬取100條百度百科詞條）

【基礎爬蟲篇】本篇講解一個比較簡單的Python爬蟲。這個爬蟲雖然簡單，但五臟俱全，大爬蟲有的模組這個基礎爬蟲都有，只不過大爬蟲做的更全面、多樣。 1.實現的功能：這個爬蟲實現的功能為爬取百度百科中的詞條資訊。爬取的結果見6。 2.背景知識：(1).Python語法；(2).Be

Python：爬蟲例項2：爬取貓眼電影——破解字型反爬

字型反爬字型反爬也就是自定義字型反爬，通過呼叫自定義的字型檔案來渲染網頁中的文字，而網頁中的文字不再是文字，而是相應的字型編碼，通過複製或者簡單的採集是無法採集到編碼後的文字內容的。現在貌似不少網站都有采用這種反爬機制，我們通過貓眼的實際情況來解釋一下。下圖的是貓眼網頁

Python爬蟲框架：Scrapy 爬取伯樂線上實戰

專案介紹使用Scrapy框架進行爬取伯樂線上的所有技術文章所用知識點 Scrapy專案的建立 Scrapy框架Shell命令的使用 Scrapy自帶的圖片下載管道 Scrapy自定義圖片下載管道(繼承自帶的管道) Scrapy框架ItemLoader

【Java爬蟲學習】WebMagic框架爬蟲學習實戰一：爬取網易雲歌單資訊，並存入mysql中

最近，需要使用Java進行爬蟲編寫，就去學了Java的爬蟲。因為之前學習了Scrapy框架，所以學Java的爬蟲使用了WebMagic框架，這個框架是基於Scrapy框架開發的。大家有興趣可以去看看操作文件：這個框架是國人開發的，所以說明文件都是中文，簡單易懂。

應對js反爬蟲的嘗試，爬取中國人民銀行

應對js反爬蟲的嘗試，爬取中國人民銀行在 - 簡書-爬蟲資料分析學習交流 - 微信群裡有位朋友Jacky提到爬取中國銀行遇到的問題，一時興起便做了嘗試。首先還原問

Python爬蟲：Selenium+ BeautifulSoup 爬取JS渲染的動態內容（雪球網新聞）

爬取目標：下圖中紅色方框部分的文章內容。（需要點選每篇文章的連結才能獲得文章內容）注：該文章僅介紹爬蟲爬取新聞這一部分，爬蟲語言為Python。乍一看，爬蟲的實現思路很簡單：（2）通過第一步所獲得的各篇文章的URL，抓取文章內容。但是發現簡單使用urlli

網路爬蟲之Scrapy實戰二：爬取多個網頁

前面介紹的scrapy爬蟲只能爬取單個網頁。如果我們想爬取多個網頁。比如網上的小說該如何如何操作呢。比如下面的這樣的結構。是小說的第一篇。可以點選返回目錄還是下一頁對應的網頁程式碼：我們再看進入後面章節的網頁，可以看到增加了上一頁對應的網頁程式碼通過

python 爬蟲學習三（Scrapy 實戰，豆瓣爬取電影資訊）

利用Scrapy爬取豆瓣電影資訊主要列出Scrapy的三部分程式碼： spider.py檔案： # _*_ coding=utf-8 _*_ import scrapy from course.douban_items import DouBanItem from scra

爬蟲實例1-爬取新聞列表和發布時間

爬蟲 python 工程 import title 一、新建工程scrapy startproject shop 二、Items.py文件代碼：import scrapy class ShopItem(scrapy.Item): title = scrapy.Field()

Python開發簡單爬蟲（二）---爬取百度百科頁面數據

class 實例實例代碼編碼 mat 分享 aik logs title 一、開發爬蟲的步驟 1.確定目標抓取策略：打開目標頁面，通過右鍵審查元素確定網頁的url格式、數據格式、和網頁編碼形式。 ①先看url的格式, F12觀察一下鏈接的形式;② 再看目標文本信息的

Node.js/Python爬取網上漫畫

版本中間 kit ont mic 這一圖片加載同步改變　　某個周日晚上偶然發現了《火星異種》這部漫畫，便在網上在線看了起來。在看的過程中圖片加載很慢，而且有時候還不小心點到廣告，大大延緩了我看的進度。後來想到能不能把先把漫畫全部抓取到本地再去看。　　經過一段時間

Python爬蟲之利用BeautifulSoup爬取豆瓣小說（三）——將小說信息寫入文件

設置 one 行為 blog 應該 += html uil rate 1 #-*-coding:utf-8-*- 2 import urllib2 3 from bs4 import BeautifulSoup 4 5 class dbxs: 6 7

爬蟲實戰--JS破解+爬取製藥食品

網址如下：

爬取目標：

分析網頁：

程式碼如下：

相關推薦