Python3+Session爬重點產業專利資訊（僅作學習使用）

阿新 • • 發佈：2019-02-05

因為專案需要爬取**重點產業專利資訊網上的資訊，爬了四天，各種動態載入，以及登入失效，遇到了很多坑，在此記錄。

開發環境

開發工具：Pycharm
Python版本：3
使用庫：session，beautifulsoup

分析網站

網站存在多個巢狀frame，這都不是問題，直接抓包分析實際包含資訊的頁面的URL。
- 第一層frame相對路徑：/index.jsp…
  - 第二層frame相對路徑：
    - /main_head.jsp…
    - /index_main.jsp..
      - 第三層frame(main.jsp)相對路徑：
        
        左側導航/navtion.jsp…
        
        第四層
        
        treeRecord.jsp…
        
        右側查詢結果/jieguo.jsp…
    - /main_foot.jsp…
資料都是採用js載入，分析js程式碼。

必須跳過的坑

保持登入一直有效
- 網站沒有登入需要，但是每次訪問JSESSIONID都會變化，分析js可以看到網頁使用了POST表單的隱藏登入，獲取JSESSIONID並儲存，才可以繼續下一個頁面的訪問。
- 儲存在頭部的cookie中。
獲取查詢結果頁面的連結
- 解決了上一個問題之後，這一個問題就變得簡單了。
顯示並爬取查詢結果的所有選項
獲取下一頁連結

資料提取

按照以下順序提取查詢結果中的所有資料：

1 申請號
2 公開（公告）號
3 主分類號
4 名稱
5 分類號
6 申請（專利權）人
7 發明（設計）人
8 公開（公告）日
9 申請日
10 本國主分類號
11 專利代理機構
12 代理人
13 地址
14 國省程式碼

專案完善

迴圈爬取所有產業的url再爬取某產業下的所有頁面。
設定等待時間，防反爬。
儲存資料庫
異常處理
可以設定ip代理，防封

結果

（過段時間再更新詳細內容）

Python3+Session爬重點產業專利資訊（僅作學習使用）

因為專案需要爬取**重點產業專利資訊網上的資訊，爬了四天，各種動態載入，以及登入失效，遇到了很多坑，在此記錄。開發環境開發工具：Pycharm Python版本：3 使用庫：session，beautifulsoup 分析網站

cookie、session的認識（僅作記錄）

含義生命 jsp getattr 愛好 bound 打開表單提交 dos 一、cookie機制和session機制的區別　　具體來說cookie機制采用的是在客戶端保持狀態的方案，而session機制采用的是在服務器端保持狀態的方案。　　同時我們也看到，由於在服務器端

十進制、十六進制、二進制之間的轉換（僅作記錄）

-- 比較其中 com 類型次數 doc 然而如果二進制和十六進制的互相轉換比較重要。不過這二者的轉換卻不用計算，每個C，C++程序員都能做到看見二進制數，直接就能轉換為十六進制數，反之亦然。我們也一樣，只要學完這一小節，就能做到。首先我們來看一個二進制數：11

Java的位運算符詳解實例——與（&）、非（~）、或（|）、異或（^）（僅作記錄）

out 位運算符異或運算 pri stat 運算 data 操作 amp 位運算符主要針對二進制，它包括了：“與”、“非”、“或”、“異或”。從表面上看似乎有點像邏輯運算符，但邏輯運算符是針對兩個關系運算符來進行邏輯運算，而位運算符主要針對兩個二進制數的位進行邏輯運算。下

用python進行微信公眾號開發（僅測試學習）

python 微信公眾號 api開發今天看到篇教程，是用python開發微信公眾號的，覺得有意思，就敲代碼實現了一下，成功後更覺得好玩，故記錄，方便開發深入時使用。基礎背景介紹：首先得有個人微信號（沒有自行註冊），為方便測試學習；其次，還要註冊微信公眾號，微信公眾號不止一種，是分多種的，具體詳情見官方

Python3爬蟲小程式——爬取各類天氣資訊（3）

經過前面靜態頁面的爬取已經收集到很多資訊了。最近在看怎麼從動態頁面上爬取資訊，主要用到的還是selenium+phantomJS工具（如何安裝？點選這裡檢視），雖然存在一些缺點（效率不是很高），但是還算不錯。於是乎，前面從天氣網（http://www.tianqi.com

python3實現爬取淘寶頁面的商品的資料資訊（selenium+pyquery+mongodb）

1.環境須知做這個爬取的時候需要安裝好python3.6和selenium、pyquery等等一些比較常用的爬取和解析庫，還需要安裝MongoDB這個分散式資料庫。 2.直接上程式碼 spider.py import re from config

Python3+Fiddler爬取手機端APP（三） ————使用Appium在真機模擬爬取

最終：例子：爬取天眼查： 1.手機開啟開發者模式，允許USB除錯 2.cmd輸入adb 3.下載apk 4.開啟appium，拖入apk，並填上裝置名 5.寫對應python程式 import selenium import time from ap

python爬蟲遇到驗證碼的處理方法（以爬取中國執行資訊公開網為例）

朋友們大家好，python爬蟲是在學習python時比較容易上手的學習方式，爬蟲的思路簡要以下幾點： 1.獲取需要爬取頁面的網址，並且對網頁內容進行分析。（主要就原始碼討論，如果我們需要的內容沒有在原始碼出現，則需要進行抓包分析） 2.找到我們需要爬取的內容時我們

python3+seleium+chrome headless+mongodb 爬取淘寶產品例項（僅程式碼+結果）

學習書籍：《python3 網路爬蟲開發實踐》視訊地址：例項視訊 1.main.py import re from pyquery import PyQuery as pq from selenium import webdriver from sele

requests + re 爬去網站圖書資訊（Python）

# -*- coding: utf-8 -*-import requestsimport re, jsonif __name__ == '__main__': content = requests.get('https://book.douban.com/').text

用R語言（rvest包）爬取獵聘網招聘資訊（保證可重複性）

前言最近一直在思考動手做自己的第一個R語言資料分析專案，在R語言中文社群公眾號上看了許多爬取招聘網站的案例後，發現做招聘資訊分析是個不錯的選擇： 1. 整合並分析招聘資訊可以深入瞭解各個崗位的整體收入情況、學歷要求、經驗要求等，相信這是許多人都感興趣的； 2. 招聘網站的

爬蟲學習之18：使用selenium和chrome-headerless爬取淘寶網商品資訊（非同步載入網頁）

登入淘寶網，使用F12鍵觀察網頁結構，會發現淘寶網也是非同步載入網站。有時候通過逆向工程區爬取這類網站也不容易。這裡使用selenium和chrome-headerless來爬取。網上有結合selenium和PlantomJS來爬取的，但是最新版的Seleniu

python 爬蟲實戰專案--爬取京東商品資訊（價格、優惠、排名、好評率等）

利用splash爬取京東商品資訊一、環境window7python3.5pycharmscrapyscrapy-splashMySQL二、簡介為了體驗scrapy-spla

python3爬取豆瓣電影Ajax（獲取動態內容）

利用python3中的urllib模組對豆瓣電影的“喜劇片”進行爬取。因為是動態頁面，我們關注點應在資料來源上，我們知道所有Ajax資料來源都是json，通過Fiddler抓包工具，我們可以獲取相應json資料，提取出相應url，以及post請求的QuerySt

xpath匹配爬取房源資訊（我愛我家）

# requests包 import requests # xpath包 from lxml import etree # 本地mysql包（mysql_def包下mysql_conn函式） from mysql_def import mysql_conn # 定義url,

雪球網爬取上市公司資訊（一）：爬取上市公司代號

條件：有一批5g相關公司，只知道公司名字或是簡稱，不知道公司是否上市以及股票程式碼，需要爬取公司資訊。網站：雪球網思路：上傳關鍵字，爬取搜尋結果網頁，將有結果的公司資訊抓取下來並存入資料庫 1、在雪球網輸入公司名搜尋，發現返回3個結果，其中search.json?c

使用SSM 或者 springboot +mybatis時，對資料庫的認證資訊（使用者名稱，密碼）進行加密。

通常情況下，為了提高安全性，我們需要對資料庫的認證資訊進行加密操作，然後在啟動專案的時候，會自動解密來核對資訊是否正確。下面介紹在SSM和springboot專案中分別是怎樣實現的。無論是使用SSM還是springboot，首先我們需要一個加密工具，這裡我採用的是AES 高階加

HTTP學習記錄：四、頭資訊（請求和響應）

學習資源主要為：@小坦克HTTP相關部落格一、請求頭資訊（Request Header）請求頭資訊包含比較多，如下： 1、Cache頭域　　if-modified-Since 　　作用：把瀏覽器端快取頁面的最後修改時間傳送到伺服器去，伺服器會把這個時間與伺服器上的實際檔案的最後修改時間進行對比

springmvc Session，Cookies，Header管理（springmvc教程五）

目錄工程程式碼 Session的寫入與獲取 Cookie獲取 Request Header獲取工程程式碼 github: https://github.com/dengj

Python3+Session爬重點產業專利資訊（僅作學習使用）

開發環境

分析網站

必須跳過的坑

資料提取

專案完善

結果

相關推薦