解析js程式碼實現爬取頁面所有的ip地址[面試題]

阿新 • • 發佈：2018-12-25

該網頁只有在重新整理時, 才能顯示後面的頁面, 且頁面會開啟新的頁面, 跳轉時需要的cookies, 由第一個頁面的cookies動態生成.

下面是具體程式碼:

import requests
import re
import lxml.html


class ExamSpider(object):
    def __init__(self):
        self.base_url = 'http://datamining.comratings.com/exam'
        self.r_session = requests.session()

    def down_first(self):
        """
        進行第一次訪問
        :return: sessionid
        """
        res = self.r_session.get(self.base_url)
        sessionid = res.cookies.get_dict().get('session')
        return sessionid

    def down_second(self, cookie):
        """
        進行第二次訪問
        :param cookie: 訪問需要的完整cookie
        :return: 響應結果
        """
        result = self.r_session.get(self.base_url + '3', cookies=cookie)
        return result.content

    def f1(self, a):
        """
        獲得js動態載入的cookie
        :param a: 第一次訪問獲得到的cookie中的sessionid
        :return: js動態載入的cookie
        """
        encoderchars = "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/="
        b = ""
        i = 0
        length = len(a)
        while i < length:
            # charCodeAt() 方法可返回指定位置的字元的 Unicode 編碼
            c = ord(a[i]) & 0xff
            i += 1
            if i == length:
                b += encoderchars[c >> 2]
                b += encoderchars[(c & 0x3) << 4]
                b += "=="
                break
            c2 = ord(a[i])
            i += 1
            if i == length:
                b += encoderchars[c >> 2]
                b += encoderchars[((c & 0x3) << 4) | ((c2 & 0xf0) >> 4)]
                b += encoderchars[(c2 & 0xf) << 2]
                b += "="
                break
            c3 = ord(a[i])
            i += 1
            b += encoderchars[c >> 2]
            b += encoderchars[((c & 0x3) << 4) | ((c2 & 0xf0) >> 4)]
            b += encoderchars[((c2 & 0xf) << 2) | ((c3 & 0xc0) >> 6)]
            b += encoderchars[c3 & 0x3f]
        return b

    def make_cookie(self, sessionid):
        """
        獲得完整的cookie
        :param sessionid: 第一訪問得到的sessionid
        :return: 完整的cookie
        """
        lt = []
        lt.append("session=" + sessionid + ';')
        lt.append("c1=" + self.f1(sessionid[1:4]) + ';')
        lt.append("c2=" + self.f1(sessionid))

        cookie = {
            'Cookie': " ".join(lt)
        }
        return cookie

    def save_result(self, result):
        """
        將結果儲存進檔案中
        :param result: 第二次訪問的響應結果
        :return:
        """

        with open("iptest.html", "wb") as fp:
            fp.write(result)

    def get_content_ip(self, result):
        result_data = result.decode("utf8")
        none_list = re.findall(r'\.([A-Z]+){display:none}', result_data, re.S)
        # print(none_list)
        div_pattern = re.compile('<div.*?</div>')
        div_none_list = div_pattern.sub("", result_data)

        span_pattern = re.compile('<span style="display:none">.*?</span>')
        span_none_list = span_pattern.sub("", div_none_list)

        span_pattern1 = re.compile('<span class="' + none_list[0] + '">(.*?)</span>')
        span_none_list1 = span_pattern1.sub("", span_none_list)

        span_pattern2 = re.compile('<span class="' + none_list[1] + '">(.*?)</span>')
        span_none_list2 = span_pattern2.sub("", span_none_list1)

        ip_html_list = span_none_list2.split("<br>")[1:]
        ip_list = []
        for ip_html in ip_html_list:
            html = lxml.html.fromstring(ip_html.replace("\n", ""))
            ip_str = html.xpath("//text()")
            ip = ""
            for i in ip_str:
                ip += i
            ip_list.append(ip)
        print(ip_list)
        print(len(ip_list))

    def run(self):
        """
        執行主執行緒
        :return:
        """
        sesionid = self.down_first()
        cookie = self.make_cookie(sesionid)
        result = self.down_second(cookie)
        self.get_content_ip(result)
        self.save_result(result)


if __name__ == '__main__':
    crawl = ExamSpider()
    crawl.run()

解析js程式碼實現爬取頁面所有的ip地址[面試題]

該網頁只有在重新整理時, 才能顯示後面的頁面, 且頁面會開啟新的頁面, 跳轉時需要的cookies, 由第一個頁面的cookies動態生成. 下面是具體程式碼: import requests import re import lxml.html class ExamSpider

怎麼來爬取代理伺服器ip地址？

一年前突然有個靈感，想搞個強大的網盤搜尋引擎，但由於大學本科學習軟體工程偏嵌入式方向，web方面的能力有點弱，不會jsp，不懂html，好久沒有玩過sql，但就是趁著年輕人的這股不妥協的勁兒，硬是把以前沒有學習的全部給學了一遍，現在感覺web原來也就那麼回事。好

100 行程式碼爬取全國所有必勝客餐廳資訊

閱讀文字大概需要 10 分鐘。當我剛接觸 Python 時，我已經被 Python 深深所吸引。Python 吸引我的地方不僅僅能用其編寫網路爬蟲，而且能用於資料分析。我能將大量的資料中以圖形化方式呈現出來，更加直觀的解讀資料。資料分析的前提是有資料可分析。如果沒有資料怎麼辦？一是可以去

爬取全國所有必勝客餐廳資訊，只需要50行程式碼

python自學的同學，需要一個學習的氛圍，加QQ群883444106 小編時不時的會發python的教程和資料。歡迎小夥伴的加入。小編希望我小夥伴一起學習。當我剛接觸 Python 時，我已經被 Python 深深所吸引。Python 吸引我的地方不僅僅能用其編寫網路爬蟲，而且能用於資

10行程式碼爬取全國所有A股/港股/新三板上市公司資訊

作者高階農民工已獲原作者授權，如需轉載，請聯絡原作者。摘要：我們平常在瀏覽網頁中會遇到一些表格型的資料資訊，除了表格本身體現的內容以外，可能還想透過表格背後再挖掘些有意思或者有價值的資訊。這時，可用python爬蟲來實現。本文采用pandas庫中的read_h

利用htmlunit和jsoup來實現爬取js的動態網頁實踐(執行js)

更新，這就尷尬了，這篇文章部落格閱讀文章最多，但是被踩得也最多。爬取思路：所謂動態，就是通過請求後臺，可以動態的改變相應的html頁面，頁面並不是一開始就全部展現出來的。大部分操作都是通過請求完成的，一次請求，一次返回。而在大多數網頁中請求往往都被開發者隱藏在了js程

node.js運用Phantom.js爬取頁面生成pdf

工具是webstorm,按照下圖引進phantom模組,其他開發工具請自行百度其他方法引入。注意：當後臺放在Linux下，Linux需要安裝有相應的字型，否則中文列印生成pdf 程式碼: function test(){ var phantom = req

Python實現人人網爬蟲，爬取使用者所有狀態資訊。

之前沒有怎麼用過python，也沒寫過爬蟲，最近幾天抽空學習了一下，寫了個人人網的爬蟲練了練手。用了BeautifulSoup4包來解析HTML標籤，Beautiful Soup 是用 Python 寫的一個 HTML/XML 的解析器，它可以很好的處理不

python3實現爬取淘寶頁面的商品的資料資訊（selenium+pyquery+mongodb）

1.環境須知做這個爬取的時候需要安裝好python3.6和selenium、pyquery等等一些比較常用的爬取和解析庫，還需要安裝MongoDB這個分散式資料庫。 2.直接上程式碼 spider.py import re from config

[實戰演練]python3使用requests模塊爬取頁面內容

取圖簡書服務器二進制 tty ret index 內容亂碼 20px 本文摘要： 1.安裝pip 2.安裝requests模塊 3.安裝beautifulsoup4 4.requests模塊淺析 + 發送請求 + 傳遞URL參數 + 響應內容

python實現爬取30頁百度校園女神圖片！

dpi 分享圖片 ges pat path lis 校園 one sha 1、以下是源代碼import requestsimport osdef getManyPages(keyword,pages): params=[] for i in range(30,3

Python開發爬蟲之BeautifulSoup解析網頁篇：爬取安居客網站上北京二手房數據

澳洲 pytho 目標 www. 委托 user info .get web 目標：爬取安居客網站上前10頁北京二手房的數據，包括二手房源的名稱、價格、幾室幾廳、大小、建造年份、聯系人、地址、標簽等。網址為：https://beijing.anjuke.com/sale/

python爬蟲--打開爬取頁面

PE brush OS htm tab quest replace %s class def requests_view(response): import webbrowser requests_url = response.url base_u

python 爬取頁面鏈接

鏈接爬蟲提取頁面鏈接思路：1 確定入口鏈接2 構造鏈接提取正則表達式3 模擬成瀏覽器4 過濾重復鏈接示例：#!/usr/bin/env python # -*- coding: utf-8 -*- import re import urllib.request def getlink(url)

scrapy初探之實現爬取小說

scrapy 爬取小說一、前言上文說明了scrapy框架的基礎知識，本篇實現了爬取第九中文網的免費小說。二、scrapy實例創建 1、創建項目 C:\Users\LENOVO\PycharmProjects\fullstack\book9>scrapy startproject book

爬取頁面和審查元素獲取的內容不一致

打開 nbsp 手機信息發送 http arm 動態網站結果手機今天看書看到圖片爬蟲實戰之爬取京東手機圖片這一節，想著自己動手練習一下，因為以前看過視頻所以思路還是比較清晰，主要是為了復習鞏固剛剛學的正則表達式。打開京東手機頁面， https://li

爬取京東收件地址下得所有資料

1.工具備用 package reptile; import java.io.BufferedReader; import java.io.File; import java.io.FileNotFoundException; import java.io.FileReader; import

爬取晨星所有基金評級

Python爬取晨星基金評級晨星評級介紹晨星把每隻具備3年以上業績資料的基金歸類，在同類基金中，基金按照“晨星風險調整後收益”指標（Morningstar Risk-Adjusted Return）由大到小進行排序：前10%被評為5星；接下來22.5%被評為4星；中間35%被評為

爬蟲系列（六）--爬取頁面上的影象

爬蟲系列（六）--爬取頁面上的影象馬上國慶節了，要是再不寫，可能又要到了十一過後才能寫了。影象的爬取和普通頁面的爬取是一樣的，只是不需要進行轉碼，是二進位制資料，直接寫入檔案中就行了。要注意的地方就是副檔名，還有圖片檔案是否已經存在了。 1.目標簡介下面的內容要實現的是爬取取

HttpClient 實現爬取百度搜索結果（自動翻頁）

如果你對HttpClient還不是很瞭解，建議先移步我的另一篇部落格HttpClient4.x之請求示例後再來看這篇部落格。我們這裡的專案採用maven搭建。在閱讀前要對jdk和maven有一定的瞭解。另外開發工具這裡我這裡使用的是：Spring Tool Suite（STS）當然你也可以使用其

解析js程式碼實現爬取頁面所有的ip地址[面試題]

相關推薦