Androguard的部分原始碼（一）——androaxml.py

阿新 • • 發佈：2019-02-07

廢話少說，上程式碼。

option_0 = { 'name' : ('-i', '--input'), 'help' : 'filename input (APK or android\'s binary xml)', 'nargs' : 1 }
option_1 = { 'name' : ('-o', '--output'), 'help' : 'filename output of the xml', 'nargs' : 1 }
option_2 = { 'name' : ('-v', '--version'), 'help' : 'version of the API', 'action' : 'count' }
options = [option_0, option_1, option_2]


def main(options, arguments):
    if options.input != None:
        buff = ""

        ret_type = androconf.is_android(options.input)  #讀取檔案頭判斷檔案型別
        if ret_type == "APK":
            a = apk.APK(options.input)
            buff = a.get_android_manifest_xml().toprettyxml(encoding="utf-8")
        elif ".xml" in options.input:
            ap = apk.AXMLPrinter(read(options.input))   
            buff = minidom.parseString(ap.get_buff()).toprettyxml(encoding="utf-8")
        else:
            print "Unknown file type"
            return

        if options.output != None:  #建立輸出檔案
            fd = codecs.open(options.output, "w", "utf-8")
            fd.write( buff )
            fd.close()
        else:                       #否則輸出到螢幕
            print buff

    elif options.version != None:
        print "Androaxml version %s" % androconf.ANDROGUARD_VERSION

if __name__ == "__main__":
    parser = OptionParser()
    for option in options:
        param = option['name']
        del option['name']
        parser.add_option(*param, **option)

    options, arguments = parser.parse_args()
    sys.argv[:] = arguments
    main(options, arguments)

這是androaxml.py的全部原始碼。幾個內容

第一，引數。一個input，可以是apk，或者AndroidManfest.xml。一個output，這是指定的輸出檔名，如果不指定輸出檔名，則輸出到螢幕。

第二，如果為apk，則使用APK（）解析

    def get_android_manifest_xml(self):
        """
            Return the xml object which corresponds to the AndroidManifest.xml file

            :rtype: object
        """
        try:
            return self.xml["AndroidManifest.xml"]
        except KeyError:
            return None

如果是AndroidManfest.xml，則使用AXMLPrinter

而在APK.__init__函式中有這樣一段

        if zipmodule == 0:
            self.zip = ChilkatZip(self.__raw)
        elif zipmodule == 2:
            from androguard.patch import zipfile
            self.zip = zipfile.ZipFile(StringIO.StringIO(self.__raw), mode=mode)
        else:
            import zipfile
            self.zip = zipfile.ZipFile(StringIO.StringIO(self.__raw), mode=mode)

        for i in self.zip.namelist():
            if i == "AndroidManifest.xml":
                self.axml[i] = AXMLPrinter(self.zip.read(i))
                try:
                    self.xml[i] = minidom.parseString(self.axml[i].get_buff())
                except:
                    self.xml[i] = None

對apk檔案利用ChilkatZip或者ZipFile進行解壓，然後從解壓後的檔案列表當中遍歷獲取AndroidManfest.xml，再對AndroidManfest.xml

呼叫AXMLPrinter，所以核心的處理在AXMLPrinter當中。

AXMLPrinter則是用AXMLParser對檔案進行解析。

所以處理流程就清晰了

APK：生成APK class例項 ——> 解壓檔案 ——> 遍歷獲取AndroidManfest.xml ——> AXMLPrinter例項 ——> AXMLParser例項解析

XML： AXMLPrinter例項 ——> AXMLParser例項解析

class AXMLParser(object):
    def __init__(self, raw_buff):
        self.reset()

        self.valid_axml = True
        self.buff = bytecode.BuffHandle(raw_buff)

        axml_file = unpack('<L', self.buff.read(4))[0]  #讀取檔案頭

        if axml_file == CHUNK_AXML_FILE:                #判斷檔案頭
            self.buff.read(4)

            self.sb = StringBlock(self.buff)            #字串池

            self.m_resourceIDs = []
            self.m_prefixuri = {}
            self.m_uriprefix = {}
            self.m_prefixuriL = []

            self.visited_ns = []
        else:
            self.valid_axml = False
            androconf.warning("Not a valid xml file")

AXMLParser.buff結構

self.__buff儲存內容

self.__idx儲存已解析的長度，也就是下次解析的起點

class AXMLPrinter(object):
    def __init__(self, raw_buff):
        self.axml = AXMLParser(raw_buff)    #例項化AXMLParser
        self.xmlns = False

        self.buff = u''
        #主處理邏輯
        while True and self.axml.is_valid():
            _type = self.axml.next()
#           print "tagtype = ", _type

            if _type == START_DOCUMENT:
                self.buff += u'<?xml version="1.0" encoding="utf-8"?>\n'
            elif _type == START_TAG:
                self.buff += u'<' + self.getPrefix(self.axml.getPrefix()) + self.axml.getName() + u'\n'
                self.buff += self.axml.getXMLNS()

                for i in range(0, self.axml.getAttributeCount()):
                    self.buff += "%s%s=\"%s\"\n" % (self.getPrefix(
                        self.axml.getAttributePrefix(i)), self.axml.getAttributeName(i), self._escape(self.getAttributeValue(i)))

                self.buff += u'>\n'

            elif _type == END_TAG:
                self.buff += "</%s%s>\n" % (self.getPrefix(self.axml.getPrefix()), self.axml.getName())

            elif _type == TEXT:
                self.buff += "%s\n" % self.axml.getText()

            elif _type == END_DOCUMENT:
                break

AXMLParser例項化完成後進入主處理邏輯

在前一篇文章反編譯編譯後的AndroidManifest 當中也有一段類似的處理邏輯，實現大同小異，都是讀取tag，判斷是什麼chunk，然後然後處理，可以對比一下。

    def next(self):
        self.doNext()
        return self.m_event

next函式呼叫doNext

    def doNext(self):
        if self.m_event == END_DOCUMENT:    #檔案結束
            return

        event = self.m_event

        self.reset()
        while True:
            chunkType = -1

            # Fake END_DOCUMENT event.
            if event == END_TAG:            #tag結束標誌
                pass

            # START_DOCUMENT
            if event == START_DOCUMENT:     #Start Tag Chunk
                chunkType = CHUNK_XML_START_TAG
            else:
                if self.buff.end():         #檔案是否結束
                    self.m_event = END_DOCUMENT
                    break
                chunkType = unpack('<L', self.buff.read(4))[0] #讀取後四位

            if chunkType == CHUNK_RESOURCEIDS:                  #ResourceId Chunk
                chunkSize = unpack('<L', self.buff.read(4))[0]
                # FIXME
                if chunkSize < 8 or chunkSize % 4 != 0:         #長度是否合法
                    androconf.warning("Invalid chunk size")

                for i in range(0, chunkSize / 4 - 2):
                    self.m_resourceIDs.append(unpack('<L', self.buff.read(4))[0])

                continue

            # FIXME
            if chunkType < CHUNK_XML_FIRST or chunkType > CHUNK_XML_LAST:   #無法識別的tag
                androconf.warning("invalid chunk type")

            # Fake START_DOCUMENT event.
            if chunkType == CHUNK_XML_START_TAG and event == -1:    #第一次讀到Start Tag Chunk時，event為-1
                self.m_event = START_DOCUMENT                       #將event設定為START_DOCUMENT之後退出
                break                                               #返回到主處理邏輯

            self.buff.read(4)  # /*chunkSize*/
            lineNumber = unpack('<L', self.buff.read(4))[0]
            self.buff.read(4)  # 0xFFFFFFFF

            if chunkType == CHUNK_XML_START_NAMESPACE or chunkType == CHUNK_XML_END_NAMESPACE:
                if chunkType == CHUNK_XML_START_NAMESPACE:                  #Start Namespace Chunk
                    prefix = unpack('<L', self.buff.read(4))[0]
                    uri = unpack('<L', self.buff.read(4))[0]

                    self.m_prefixuri[prefix] = uri
                    self.m_uriprefix[uri] = prefix
                    self.m_prefixuriL.append((prefix, uri))
                    self.ns = uri
                else:                                                       #End Namespace Chunk
                    self.ns = -1
                    self.buff.read(4)
                    self.buff.read(4)
                    (prefix, uri) = self.m_prefixuriL.pop()
                    #del self.m_prefixuri[ prefix ]
                    #del self.m_uriprefix[ uri ]

                continue

            self.m_lineNumber = lineNumber

            if chunkType == CHUNK_XML_START_TAG:    #第二次讀取到Start Tag Chunk，此時event為START_DOCUMENT
                self.m_namespaceUri = unpack('<L', self.buff.read(4))[0]
                self.m_name = unpack('<L', self.buff.read(4))[0]

                # FIXME
                self.buff.read(4)  # flags

                attributeCount = unpack('<L', self.buff.read(4))[0]
                self.m_idAttribute = (attributeCount >> 16) - 1
                attributeCount = attributeCount & 0xFFFF
                self.m_classAttribute = unpack('<L', self.buff.read(4))[0]
                self.m_styleAttribute = (self.m_classAttribute >> 16) - 1

                self.m_classAttribute = (self.m_classAttribute & 0xFFFF) - 1

                for i in range(0, attributeCount * ATTRIBUTE_LENGHT):
                    self.m_attributes.append(unpack('<L', self.buff.read(4))[0])

                for i in range(ATTRIBUTE_IX_VALUE_TYPE, len(self.m_attributes), ATTRIBUTE_LENGHT):
                    self.m_attributes[i] = self.m_attributes[i] >> 24

                self.m_event = START_TAG
                break

            if chunkType == CHUNK_XML_END_TAG:
                self.m_namespaceUri = unpack('<L', self.buff.read(4))[0]
                self.m_name = unpack('<L', self.buff.read(4))[0]
                self.m_event = END_TAG
                break

            if chunkType == CHUNK_XML_TEXT:
                self.m_name = unpack('<L', self.buff.read(4))[0]

                # FIXME
                self.buff.read(4)
                self.buff.read(4)

                self.m_event = TEXT
                break

doNext函式很長。關注的重點在while迴圈中。當讀取到ResourceId Chunk和Namespace Chunk

則continue。而第一次讀到Start Tag Chunk的時候則會退出，返回到AXMLPrinter的主處理邏輯當中。

再看一下AXMLPrinter

        while True and self.axml.is_valid():
            _type = self.axml.next()
#           print "tagtype = ", _type

            if _type == START_DOCUMENT:
                self.buff += u'<?xml version="1.0" encoding="utf-8"?>\n'
            elif _type == START_TAG:
                self.buff += u'<' + self.getPrefix(self.axml.getPrefix()) + self.axml.getName() + u'\n'
                self.buff += self.axml.getXMLNS()

                for i in range(0, self.axml.getAttributeCount()):
                    self.buff += "%s%s=\"%s\"\n" % (self.getPrefix(
                        self.axml.getAttributePrefix(i)), self.axml.getAttributeName(i), self._escape(self.getAttributeValue(i)))

                self.buff += u'>\n'

            elif _type == END_TAG:
                self.buff += "</%s%s>\n" % (self.getPrefix(self.axml.getPrefix()), self.axml.getName())

            elif _type == TEXT:
                self.buff += "%s\n" % self.axml.getText()

            elif _type == END_DOCUMENT:
                break

self.buff是準備寫入解析後的xml檔案的字串。第一次執行next函式，成功讀取ResourceId Chunk和Namespace Chunk

之後遇到Start Tag Chunk，修改m_event之後退出。在buff字串寫入u'<?xml version="1.0" encoding="utf-8"?>\n'
然後繼續執行next函式，之後再遇到Start Tag Chunk時不會直接退出，而是執行相應的解析操作。

從理論上將字串池、ResourceId Chunk和Namespace Chunk都位於第一個Start Tag Chunk之前

而這些chunk也並不會直接出現在解析後的xml檔案中。

所以先將他們解析，放入準備好的變數容器。第一次遇到Start Tag Chunk說明之前的內容已經處理完畢了，之後就可以將

Start Tag Chunk解析後的結果寫入結果字串。

當結果字串構造完畢之後，輸出到檔案或者螢幕即可。

Androguard的部分原始碼（一）——androaxml.py

廢話少說，上程式碼。 option_0 = { 'name' : ('-i', '--input'), 'help' : 'filename input (APK or android\'s binary xml)', 'nargs' : 1 } option_1 = {

SQL語句常見DDL/DML/DCL操作部分試題（一）

增加數據 scott from 當前領導 name 員工 emp 創建三個空表emp1,emp2,emp3,結構參考emp表 CREATE TABLE EMP1 AS SELECT * FROM EMP WHERE 1=2; CREATE TABLE EMP2 AS S

SQL語句常見視圖操作部分試題（一）

一個 views upd ora 數據文本 cot pri int 創建一個名稱為EMPLOYEES_VU的視圖，它基於EMPLOYEES表中的雇員號、雇員名和部門號。將雇員名的列標題改為EMPLOYEE。CREATE VIEW EMPLOYEES_VU AS SELEC

Web前端-Html部分筆記（一）

以下是我對Web前端-Html部分的筆記，因為博主也是初學Web前端，有很多東西都還停留在表層的理解，如果我的部落格有任何錯誤，請及時評論或者私信我，我會及時更改。也歡迎同樣初學Web-前端的你願意關注我的部落格，我會把我每週的學習內容進行整理和上傳，方便大家溝通和交流學習經驗。由於是筆記

白話Spring原始碼（一）：怎麼閱讀原始碼

跟大家分享Spring原始碼前我想先聊聊：為什麼要閱讀原始碼？怎麼閱讀原始碼？希望大家在學習某個新的知識前多問幾個為什麼，好奇心是我們學習的一大動力。一、為什麼要閱讀原始碼剛入行時，我們會接觸很多框架：spirng，Struts，Hibernate，mybatis等等，

HTML中常用的部分標籤（一）

【常見的塊級標籤】標題標籤<h1></h1>...<h6></h6> 水平線<hr/> 段落<p></p> 換行<br/> 引用<blockquote</b

Selenium+Webdriver部分操作（一）

- 清除文字 driver.find_element_by_id("kw").clear() # 呼叫clear()方法去清除 - 重新整理當前頁面 driver.refresh() - 瀏覽器前進和後退操作 driver.back() # 從百

菜鳥教程C#高階教程部分理解（一）委託與事件

委託與事件委託 Delegate 所有的委託（Delegate）都派生自 System.Delegate 類。定義一個委託，該委託可用於引用帶有完全相同引數和返回型別的方法。委託的多播（也叫組播、委託鏈）：一個委託變數可以同時繫結多個方法，每一個委託（

MFC/Qt下呼叫caffe原始碼（一）---將caffe原始碼生成動態連結庫dll

本人研一，最近想將用caffe訓出的模型，通過MFC做出一個介面，扔進一張圖片，點選預測，即可呼叫預測分類函式完成測試，並且通過MessageBox彈出最終分類的資訊。首先通過查資料總結出兩種方法，第一：直接呼叫編譯好的caffe原始碼；（本次用到的原始碼是classif

心理學和人工智慧第一部分心理學（一）—— 心理學的研究範圍

本系列文章由魔法石榴（北京）科技有限公司（www.76tek.com）沈波先生創作，如要轉載或做其他用途，請和沈波先生（Email: [email protected]）聯絡。如果有相應的技術問題需要討論和諮詢，也可聯絡QQ：1518549727。

分析開源oschina客戶端的原始碼（一）

由於近來要做一個個性化新聞推送的客戶端。便來學習學習oschina的設計。目前開源了1.7的版本。一，目錄結構和引用的jar：主要來分析目錄src的分類： 1.前面四項，com.barcode.* 都是關於掃描二維碼的程式碼，是之後整合的。 2.com.weib

Android-活動部分功能（一）

Toast Toast，一種提醒機制。程式碼如下 Button button1 = (Button) findViewById(R.id.button_1); button1.setOnClickListener(new View.OnClickLi

JDBC部分總結（一）

JDBC的工作過程 1.載入驅動，建立連線。 2.建立語句物件。 3.執行SQL語句。 4.處理結果集。 5.關閉連線。驅動類載入方式 Or

深入Preact原始碼（一）jsx要轉化成virtualDOM發生了什麼

本文和自己在掘金的同步 jsx要轉化成virtualDOM，首先經過babel，再經過h函式的呼叫形成virtualDOM。具體如下原始碼連結 ./src/h.js 相當於react得createElement()，jsx經過babel轉碼後是h的迴圈

ServletContext物件的部分用法（一）

package com.zdsoft.serverlet.test01; import java.io.IOException; import java.io.PrintWriter;

深入理解OkHttp原始碼（一）——提交請求

本篇文章主要介紹OkHttp執行同步和非同步請求的大體流程。主要流程如下圖：主要分析到getResponseWidthInterceptorChain方法，該方法為具體的根據請求獲取響應部分，留著後面的部落格再介紹。 Dispatcher類

skynet網路部分剖析（一） socket的狀態

最近看了一些開源的網路庫原始碼，有libevent,muduo,redis,類nginx等等。再看skynet網路部分就覺得很容易了，因為他們都是基於reactor模式，套路都差不多。不過skynet的網路部分要稍微複雜點，因為他最終要面向的是lua邏輯端。為了讓lua so

curator原始碼（一）初始化、啟動和關閉。

Curator框架是zookeeper客戶端框架，官網有句話說的很簡潔：curator對於zookeeper就像Guava對於java。重複策略，例項化，眾多實用的食譜選單（分散式鎖，計數器，佇列，柵欄，訊號量，路徑快取）。初始化 1.直接呼叫

Hive原始碼匯入eclipse——細讀Hive原始碼（一）

一，首先有一些準備工作需要我們完成：二，在將hive匯入eclipse時，會遇到很多問題，我在此會將我的方法給大家分享一下保證hadoop,hive,maven都可以正確使用解壓後進入相應的目錄，依次輸入如下三條指令，輸入正確的前提是你的m

理解Spring+SpringMVC+Hibernate開發流程，附一定原始碼（一）

本例採用Eclipse實現spring+springMVC+hibernate專案的建立，在專案建立的過程中進行一定講解，方便理解是如何開發使用spring+springMVC+hibernate的思想。接下來是具體的開發步驟：一、初步開發環境搭建

Androguard的部分原始碼（一）——androaxml.py

相關推薦