爬資料，專利的名字及摘要

阿新 • • 發佈：2018-12-25

# -*- coding:UTF-8 -*-
#########################################################################
# File Name: getsoopt.py
# Author: Ev
# mail: [email protected]
# Created Time: Mon 24 Dec 2018 10:35:12 AM CST
#########################################################################
#!/usr/bin/python
import 
 sys
import requests
import re
from bs4 import BeautifulSoup 
def get_html(url):    
    headers = {
            'User-Agent':'Mozilla/5.0(Macintosh; Intel Mac OS X 10_11_4)\        AppleWebKit/537.36(KHTML, like Gecko) Chrome/52 .0.2743. 116 Safari/537.36'     }     #模擬瀏覽器訪問  
    response = requests.get(url,headers = headers)       # 
請求訪問網站 
    #with open('./1.html','w+') as f:
    #    f.write(response.text.encode('utf-8'))
    html = response.text       #獲取網頁原始碼  
    return html                #返回網頁原始碼

index = 27
soup = BeautifulSoup(get_html("http://www.soopat.com/....PatentIndex=" + str(index*10)),"lxml")
#soup = BeautifulSoup(open("./1.html"),"lxml") 

reload(sys)
sys.setdefaultencoding('utf-8')
if "請輸入驗證碼" in soup.title.string:
    print soup.title.string
    sys.exit()
print "get result ok!\n"
#p = soup.body.attr
title = []
p = soup.find_all(class_="PatentTypeBlock")
for m in p:
    titleTemp = m.find("a").get_text()
    #print type(titleTemp)
    title.append(titleTemp)

content = []
p = soup.find_all(class_="PatentContentBlock")
for m in p:
    titleTemp = m.get_text()
    #print type(titleTemp)
    content.append(titleTemp)
#    break;
with open("get.txt","a+") as f:
    for i in range(len(content)):
        f.write(str(index*10+i) + ":")
        f.write(title[i])
        f.write("\n")
        f.write(content[i])
        f.write("\n\n")

網頁是專利關鍵字搜尋的結果

我是在ubuntu上使用python+BeautifulSoup+requests，環境的搭建直接百度

index是頁數，0代表第一頁，以此類推

這個指令碼的目的是抓取專利的名字及簡單摘要，以方便參考和規避^_^

指令碼缺點就是，只能一頁一頁的執行，執行幾次之後得輸驗證碼，目前我不知道怎麼辦

爬資料，專利的名字及摘要

# -*- coding:UTF-8 -*- ######################################################################### # File Name: getsoopt.py # Author: Ev # mail: [email

爬蟲之爬取豆瓣圖書名字及ID

for gettext char small print html_ 圖書 res span from urllib import request from bs4 import BeautifulSoup as bs #爬取豆瓣最受關註圖書榜 resp = reque

python爬資料，天氣預報返回403

爬資料的時候，一般網站獲取資料訪問的動態js檔案是可以直接訪問的，用普通 request = urllib.request.urlopen(url) res = request.read() 就可以獲取而有的不能直接獲取，返回403報錯，意思是訪問不到，而這種明明有資料，伺服

提交表單資料，在IE及其它瀏覽器中亂碼的解決方案

如在IE下提交表單資料亂碼：解決方案: 在form表單中新增 onsubmit="document.charset='GBK';" 【注編碼根據各自環境條件指定】如在其它瀏覽器下提交表單資料亂碼： acce

Python爬取淘寶頁面的資料，包含商品名字，價格及地址

作業系統：Windows7專業版 Python版本：3.6.4 ide：PyCharm Community Edition 4.0.4 程式碼如下： # -*- coding:utf-8 -*- __author__ = 'zengqiang.wang' import

Python爬取數萬條北京租房資料，從6個維度揭穿房租瘋漲的祕密！！！

導讀：昨天還幻想海邊別墅的年輕人，今天可能開始對房租絕望了。 8月初，有網友在“水木論壇”發帖控訴長租公寓加價搶房引起關注。據說，一名業主打算出租自己位於天通苑的三居室，預期租金7500元/月，結果被二方中介互相擡價，

資料表設計思想，ER圖及三正規化

資料表設計思想設計流程需求分析：根據使用者的需求，分析出需要記錄的資料需求設計：根據分析出的資料，設計E-R模型圖詳細設計：將E-R模型圖轉換成資料表三大正規化：使用資料庫三大正規化的設計思想對資料表進行稽核 E-R

密碼學歷史及近40年人物技術里程碑(公號回覆“密碼學”下載PDF資料，歡迎轉發、讚賞、支援科普)

密碼學歷史及近40年人物技術里程碑(公號回覆“密碼學”下載PDF資料，歡迎轉發、讚賞、支援科普) 原創：秦隴紀科學Sciences 今天科學Sciences導讀：密碼學是研究保密通訊的一門科學——不安全環境中，如何把所要傳輸的資訊發給接收者之前進行祕密轉換，以防止第三者對資訊的

python爬蟲三大解析資料方法：bs4 及爬小說網案例

bs4 python獨有可以將html文件轉成bs物件，可以直接呼叫bs物件的屬性進行解析安裝 pip install bs4 本地html Beautiful(“open(‘路徑’)”,‘lxml’) 網路html Beautiful

編譯器發展史5個十年3大人物及編譯器知識(公號回覆“編譯器”下載PDF資料，歡迎轉發、讚賞、支援科普)

編譯器發展史5個十年3大人物及編譯器知識(公號回覆“編譯器”下載PDF資料，歡迎轉發、讚賞、支援科普) 原創：秦隴紀科學Sciences 今天科學Sciences導讀：繼本號作業系統、指令集等計算機科普文章後，接著介紹編譯器相關知識。本文按事、人、物的順序，介紹編譯器的發展史、

爬取了 48048 條評論資料，解讀 9.3 分的《毒液》是否值得一看？

11月，由湯姆·哈迪主演的“毒液：致命守護者”在國內上映，依託漫威的光環以及演員們精湛的演技，這部動作科幻片在貓眼評分得到豆瓣7.4的評分，口碑和票房都高於大多數同期上映的其他影片。所以週日的時候跟基友去電影院去看了這場正邪共生的電影，100多人的影院座無虛席，不過看完之後對比其他漫威作品

Docker安裝，oracle安裝及資料匯入

Docker安裝安裝需要的依賴軟體包 yum-util 提供yum-config-manager功能，另外兩個是devicemapper驅動依賴的 sudo yum install -y yum-utils device-mapper-persistent-data lvm2 設定yum源 sudo yu

還在人工爬資料？不用定期敲爬蟲，也能【自動化】訊息爬取的祕訣（內附Python程式碼）

RSS服務Python實做一、安裝我們可以透過Python的套件包：「feedparser 」。讓我們可以輕易的透過Python解析 RSS。Windows 安裝，開啟Command Line：pip install feedparserUbuntu安裝，開啟Terminal：sudo pip insta

【經典】一篇文章初識大資料，及大資料相關框架Hadoop、spark、flink等

今天看到一篇講得比較清晰的框架對比，這幾個框架的選擇對於初學分散式運算的人來說確實有點迷茫，相信看完這篇文章之後應該能有所收穫。簡介大資料是收集、整理、處理大容量資料集，並從中獲得見解所需的非傳統戰略和技術的總稱。雖然處理資料所需的計算能力或儲存容量早已超過一

大資料Linux命令之使用者，使用者組及檢視命令幫助

修改執行命令型別（1）bash改成false：dudu❌515:515::/tmp:/bin/false 切換使用者：[[email protected] ~]# su - dudu （沒有使用者結果）（2）bash改成nologin：dudu❌515:515::/tmp:/bin/nolo

爬取LeetCode資料，生成README檔案，美化GitHub倉庫

專案地址：LeetCodeCrawler 概述現在一般或多或少都會在LeetCode上面進行刷題練習，然後將程式碼放在GitHub上，當然我也一樣，這是我的刷題倉庫Algorithm。刷完題如果每次都去重新編輯README.md檔案進行更新，未免顯得有些費時，因此有了需求，個人就

資料庫中能查資料，mybatis中查詢為空的原因及解決方法

今日編寫專案時，發現了mybatis查詢操作時部分屬性為空值，部分屬性查詢出來了。資料庫中存在值，也能查詢出來。原因：mapper.xml檔案中，查詢屬性時，命名規範：查詢時的屬性必須對應java實體類中的屬性。因為我的工程師mybatis的逆向工程生成，有的

cheerio爬取網頁資料，儲存到MySQL資料庫

最近在做物流專案成本分析，需要爬取柴油價格資料，使用到了cheerio，cheerio實現了jQuery核心的一個子集。以下為爬取程式碼。 //getHtml.js，獲取HTML頁面資料 var http = require("http"); function gethtml(url,

0基礎怎麼學習大資料，大資料學習路線及學習資料

資料科學並沒有一個獨立的學科體系，統計學，機器學習，資料探勘，資料庫，分散式計算，雲端計算，資訊視覺化等技術或方法來對付資料，一起來看看資料大咖的分享。但從狹義上來看，我認為資料科學就是解決三個問題： 1. data pre-processing;(資料預處理) 2.

爬取兩萬多條租房資料，算算在廣州你能「活到」第幾集？

作者 | zone7 責編 | 仲培藝此前，筆者曾用 Python 爬取 1.7 萬條租房資料，並據此撰文揭示了深圳房價飆升背後的生存壓力。此番再析廣州租房價格現狀，在升級爬蟲技術之餘，也完善了更多細節，原始碼頗值細細探究。此次分析採集了廣州 11

爬資料，專利的名字及摘要

相關推薦