天眼查pc端公司資訊抓取

阿新 • • 發佈：2018-11-19

本篇查詢的是人工智慧前5頁相關公司的資訊：

#主要是異常處理和反爬處理
1.異常處理就是有的公司不是公開的資料沒有所以需要判斷，不然程式會出錯
2.反爬頁面瀏覽多了會需要登入，這邊用cookie處理

在這裡插入圖片描述

import requests
from lxml import etree



gs=[]
headers={
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",
    "Accept-Encoding": "gzip, deflate, br",
    "Accept-Language": "zh-CN,zh;q=0.9",
    "Cache-Control": "max-age=0",
    "Connection": "keep-alive",
    "Cookie": "TYCID=10575bf0d29911e8a3bed1727775aa44; undefined=10575bf0d29911e8a3bed1727775aa44; ssuid=8797202500; _ga=GA1.2.2092555821.1539841878; aliyungf_tc=AQAAALe70WELCAUAe//wcukbb8+nCOzQ; csrfToken=vhjj7ig76QAPNz5tbfy2Wa9T; Hm_lvt_e92c8d65d92d534b0fc290df538b4758=1539920329,1540453718,1542189999; _gid=GA1.2.34407757.1542189999; RTYCID=8dd86f4c818942549de776bedef42b6a; CT_TYCID=440a4500eae1484a9f9b2ef0addbc6f9; cloud_token=db9b2e0efc154b7195d1c5cfe42e855e; token=ec9c932a784c4fd68b333fa257277f11; _utm=23855cc22e2744ea8b84d227befcf23c; tyc-user-info=%257B%2522myQuestionCount%2522%253A%25220%2522%252C%2522integrity%2522%253A%25220%2525%2522%252C%2522state%2522%253A%25220%2522%252C%2522vipManager%2522%253A%25220%2522%252C%2522onum%2522%253A%25220%2522%252C%2522monitorUnreadCount%2522%253A%252227%2522%252C%2522discussCommendCount%2522%253A%25221%2522%252C%2522token%2522%253A%2522eyJhbGciOiJIUzUxMiJ9.eyJzdWIiOiIxNzYwMDIyMDg0MCIsImlhdCI6MTU0MjE5MjU3MSwiZXhwIjoxNTU3NzQ0NTcxfQ.deqDqs_4y39XlZpmkduY-lFRPJZ-LeKyTsCTRNccPNbmyAW6DzYaCcp-XKpCOOmbMj5O41j8oFZvS-lHP7Ca5A%2522%252C%2522redPoint%2522%253A%25220%2522%252C%2522pleaseAnswerCount%2522%253A%25221%2522%252C%2522vnum%2522%253A%25220%2522%252C%2522bizCardUnread%2522%253A%25220%2522%252C%2522mobile%2522%253A%252217600220840%2522%257D; auth_token=eyJhbGciOiJIUzUxMiJ9.eyJzdWIiOiIxNzYwMDIyMDg0MCIsImlhdCI6MTU0MjE5MjU3MSwiZXhwIjoxNTU3NzQ0NTcxfQ.deqDqs_4y39XlZpmkduY-lFRPJZ-LeKyTsCTRNccPNbmyAW6DzYaCcp-XKpCOOmbMj5O41j8oFZvS-lHP7Ca5A; _gat_gtag_UA_123487620_1=1; Hm_lpvt_e92c8d65d92d534b0fc290df538b4758=1542193086",
    "Host": "www.tianyancha.com",
    "Upgrade-Insecure-Requests": "1",
    "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.92 Safari/537.36",

}
def down_load(url):
    cc=requests.get(url=url,headers=headers)
    cc.encoding="utf-8"
    return  cc.text

for i in range(1,6):
    first_url="https://www.tianyancha.com/search/p{}?key=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD".format(i)
    a=down_load(first_url)
    a=etree.HTML(a)
    detail_url=a.xpath('//div[@class="search-item"]//div[@class="header"]/a/@href')
    #用於異常判斷，因為有的資訊沒有公開
    kk=a.xpath('//div[@class="search-item"]//div[@class="info"]/div[1]/text()')
    print(detail_url)



    for ii in range(len(detail_url)):
        try:
            if kk[ii] !="未公開":
                aa=down_load(detail_url[ii])
                bb=etree.HTML(aa)
                company=bb.xpath('//div[@class="box"]//div[@class="header"]/h1/text()')[0]
                boss = bb.xpath('//table[@class="table"]//div[@class="name"]/a/text()')[0]

                new=["公司名："+company,"法人："+boss]
                print(new)
                with open("gs1.txt", "a")as f:
                    f.write("公司名："+company+"   "+"法人："+boss+"\n")
                gs.append(new)
        except:
            pass

print(gs)

天眼查pc端公司資訊抓取

本篇查詢的是人工智慧前5頁相關公司的資訊： #主要是異常處理和反爬處理 1.異常處理就是有的公司不是公開的資料沒有所以需要判斷，不然程式會出錯 2.反爬頁面瀏覽多了會需要登入，這邊用cookie處理 import requests from lxml import etree

基於類的Python多求職網站資訊抓取！

在日常中一個經常的需求是將不同來源的資訊彙總，比如不同網站的求職資訊。一般的架構是針對一個網站寫一個爬蟲，因為不同的網站的網頁結構都不同，所以解析的方式甚至網站請求的方式也不同。如果全部寫在一個模組中會有一些混亂。但是一個比較好的克服的方法是採用類的結構來進行編寫，因為類的擴充套件性比較好，可

Python-Requests-瓜子二手車資訊抓取

#首先，來看下瓜子二手車網站，我們需要抓取的部分。 1）列表頁 2）詳情頁, 就來抓取下這個欄位吧： 1.標題 2.上牌時間 3.公里數 4.上牌地 5.排量 6.變速 7.價格 #思路： 1.構造翻頁連結，可以看出一共有117頁，構造117個連結進

快遞100資訊抓取！Python就是這麼神奇！

爬蟲這裡主要是請求頁面，然後是正則表示式過濾，基礎的有Python的資料型別 tuple， list， str。私信菜鳥007 # coding = UTF-8 # Citizen's salary of 0 Dn # Clerk's sa

實訓專案（一）——58同城出租資訊抓取（上）

本節課將利用前面學習的基礎知識，實現58同城出租資訊抓取。爬蟲整體流程58同城抓取流程進入成都小區頁面，確定抓取目標觀察頁面，獲取各行政區的連結分行政區抓取各小區的URL 進入各小區詳情頁面，抓取名字、價格、地址、年份等資訊抓取小區二手房頁面第一頁的價格，在管道中求該小

2019/1/9 6系列所有裝置編號與SIM卡資訊抓取

一、報錯：File "G:/station/6系列裝置資訊明細.py", line 12, in <module>workbook.save(r'.\6系列裝置明細表.xls')File "G:\python\lib\site-packages\xlwt\Workbook.py", line 71

JAVA HttpClient實現頁面資訊抓取(獲取圖片驗證碼並傳入cookie實現資訊獲取)

有時候我們的程式中需要呼叫第三方介面獲取資料，比如在這裡需要在我的程式裡實現使用者輸入汽車號牌等資訊就可以查到使用者的違章資訊，在沒有其他方法的情況下我就得想辦法在官網獲取資訊。上圖是官網獲取資訊的網站頁面。傳統的ajax請求不可能實現，光不能跨域這一點就實現不了。

爬蟲技術 -- 進階學習（十）網易新聞頁面資訊抓取（htmlagilitypack搭配scrapysharp）

最近在弄網頁爬蟲這方面的，上網看到關於htmlagilitypack搭配scrapysharp的文章，於是決定試一試~ 於是到https://www.nuget.org/packages/ScrapySharp去看看，看到這句下載提示：To install ScrapySharp, run the fo

python——爬蟲實現網頁資訊抓取

首先實現關於網頁解析、讀取等操作我們要用到以下幾個模組 import urllib import urllib2 import re 我們可以嘗試一下用readline方法讀某個網站，比如說百度 def test(): f=urllib.urlopen('http:/

python2.7爬蟲實戰（房地產資訊抓取）

import sys reload(sys) sys.setdefaultencoding( "utf-8" ) import MySQLdb import urllib2 import re from bs4 import BeautifulSoup #可改成函式這裡就懶的寫了 for i in ra

爬蟲-攜程酒店資訊抓取降妖除魔（下）

#這篇主要是講抓取酒店頁面list的經歷，也有很多坑，反爬，價格資料放在其他位置多分析才能事半功倍 1.通過分析酒店相關資訊list也是ajax載入，存放在json資料中，價格也在同一個json中但是放在另外的位置通過酒店id對應 2.下來就是主要提取自己

c#資訊抓取二：HTMLParser.net使用詳解

第一步還是新增引用，在上文已經說過，不再贅述。程式碼： using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.

網頁資訊抓取進階支援Js生成資料 Jsoup的不足之處

轉載請標明出處：http://blog.csdn.net/lmj623565791/article/details/23866427今天又遇到一個網頁資料抓取的任務，給大家分享下。說道網頁資訊抓取，相信Jsoup基本是首選的工具，完全的類JQuery操作，讓人感覺很舒服。但是

python3 使用selenium模擬登陸天眼查抓取資料

　　由於之前用Scrapy 抓了一些公司的名稱，但是沒有準確的聯絡方式，所以就自己就學習了一下使用selenium自動化工具，速度比較慢，網上也有很多這方面的程式碼，但是大部分的網頁解析部分都出錯了，可能是這種網站定時會更改一下網頁的固定幾個標籤。　　網上也有很多說如果遇到一些防爬蟲特別強的網站，比如企查

網路爬蟲中Fiddler抓取PC端網頁資料包與手機端APP資料包

1 引言　　在編寫網路爬蟲時，第一步（也是極為關鍵一步）就是對網路的請求（request）和回覆（response）進行分析，尋找其中的規律，然後才能通過網路爬蟲進行模擬。瀏覽器大多也自帶有除錯工具可以進行抓包分析，但是瀏覽器自帶的工具比較輕量，複雜的抓包並不支援。且有時候需要編寫手機APP爬

不吹水，正兒八經講天眼查、企查查和啟信寶的抓取

這些站點有一個共同的特點就是量大，各維度首頁的請求基本上不需要登入賬號就可以拿到，請求連結與Uid相關聯。要拿到這些資料，第一步我們要拿到對方的Uid，在沒有捷徑可走的情況下，我們需要準備大量的關鍵字去對方網站搜尋，在不使用賬號的情況下，每次最多拿到十條，這樣子

python抓取動態資料 A股上市公司基本資訊

1.背景之前寫的抓取A股所有上市公司資訊的小程式在上交所網站改版後，需要同步修改 pyton2.7.9 2.分析過程以抓取宇通客車【600066】資訊為例紅框中的內容是需要抓取的資訊，檢視網頁原始碼可以看到公司資訊並沒有直接寫到html中，使用chrome “

使用fiddler抓取PC端瀏覽器數據

cti 網站當我 com 開啟 logs 問題 uri 可選【轉載】https://www.cnblogs.com/chenhuabin/p/10150210.html PC端網頁會話數據包捕獲 4.1 HTTP會話數據包捕獲　　Fiddler打開後，會自動將瀏覽器代

PC端截取GIF圖片的軟件

blog gif images log nbsp lan .cn img ima PC端截取GIF圖片的軟件分享：下載>> PC端截取GIF圖片的軟件

fiddler抓取手機端的數據流量包

cnblogs .com 證書 png 步驟 log 輸入打開 -- 1、首先下載安裝fiddler 2、然後打開fiddler，進入到tools-->options-->connections 3、然後進入到https 4、設置完成後，查找本機i

天眼查pc端公司資訊抓取

相關推薦