讀取螞蜂窩某分類下問答瀏覽數

阿新 • • 發佈：2019-01-19

http://www.upqq.net/java/189.html

1，向String surl = "http://www.mafengwo.cn/qa/ajax_pager.php?type=0&mddid=10184&tids=0&action=question_index&start="+start;傳送連線請求。

2，獲取到的輸出流（如下，裡面中文機標點符號之類會用/u表示），拼接成字串（StringBuilder）。

{"payload":{"list_html":"\u003cli class=\"item clearfix _j_question_item\" data-qid=\"1826184\"\u003e\n \u003cdiv class=\"wen\"\u003e\n \u003cdiv class=\"label\"\u003e\n \u003cspan class=\"avatar avatar32\"\u003e\u003ca href=\"\/wenda\/u\/31175432.html\" class=\"_j_filter_click\" target=\"_blank\"\u003e\n \u003cimg class=\"_j_filter_click\" src=\"http:\/\/file28.mafengwo.net\/M00\/F8\/23\/wKgB6lRMvDmAZG2JAADRVqH0XuY02.head.w48.jpeg\" height=\"32\" width=\"32\"\u003e\n \u003c\/a\u003e\u003c\/span\u003e\n \u003cspan class=\"icon icon-gl\"\u003e\u003c\/span\u003e\n \u003c\/div\u003e\n \u003cdiv class=\"title\"\u003e\n \u003ca href=\"\/wenda\/detail-1826184.html\"（部分）

3，將這個Json字串解析（要下jar包，可通過http://json.cn/，線上解析看到如下，此時/u已經被解析為可理解的字元了），獲取"payload"裡“list-item"的字串，即為我們需要提取的資料來源。

{
"payload":Object{...},
"resource":{
        "css":[

        ],
        "js":[

        ]
    }
}

{
"payload":{
"list_html":"<li class="item clearfix _j_question_item" data-qid="1826184"> <div class="wen"> <div class="label"> <span class="avatar avatar32"><a href="/wenda/u/31175432.html" class="_j_filter_click" target="_blank"> <img class="_j_filter_click" （部分）

java程式碼如下：

JSONObject dataJson=JSONObject.fromObject(sb.toString());
JSONObject response=dataJson.getJSONObject("payload");
String info=response.getString("list_html");

4，json返回的字串包裝成InputStreamReader，便於按行讀取。java程式碼如下：

InputStreamReader isr=new InputStreamReader(new ByteArrayInputStream(info.getBytes(Charset.forName("utf8"))), Charset.forName("utf8"));

5，寫正則表示式，抓取資料來源中的資料（問題，釋出時間，瀏覽量）。java程式碼如下：

String pattern = "<li class=\"item clearfix _j_question_item\" data-qid=\"\\d+\">";
String regularQues = "<a href=\"/wenda/detail-\\d+.html\" class=\"_j_filter_click\" target=\"_blank\">[^<>]*</a>";
String regularDate = ">\\d{4}\\-\\d{1,2}\\-\\d{1,2} \\d{1,2}\\:\\d{1,2}";//日期
String regularViewNum = "<a>瀏覽[^<>]*</a>";

int index=0;

6，將結果寫入excel中（要下jar包）。java程式碼如下：

static WritableWorkbook wwb;
static WritableSheet ws;

File fileWrite = new File("testWrite.xls");
fileWrite.createNewFile();
OutputStream os = new FileOutputStream(fileWrite);
wwb=Workbook.createWorkbook(os);
ws=wwb.createSheet("問答瀏覽數目統計",0);
ws.addCell(new Label(0,0,"問題"));
ws.addCell(new Label(1,0,"釋出時間"));
ws.addCell(new Label(2,0,"瀏覽量"));

問題總結：

1，開始直接向http://www.mafengwo.cn/wenda/10184-0/hot.html傳送請求，發現只能分析出不到20條記錄。然後才發現，網頁底端，有個“點選載入”，點選後新載入20條記錄。用瀏覽器的審查元素，檢視，可獲得如下：

Request URL: http://www.mafengwo.cn/qa/ajax_pager.php?type=0&mddid=10184&tids=0&app_link=&action=question_index&start=40

2，這個網址返回的是json資料（上面提到的，圖中也有顯示），剛開始一直傻傻的在想怎麼把它編碼成中文的。TT

3，當start大於400多時，返回的json為如下：

{"payload":{"list_html":"\u003cdiv class=\"qa-empty\"\u003e\n \u003ci class=\"icon-empty\"\u003e\u003c\/i\u003e\n \u003cp\u003e\u65e0\u76f8\u5173\u95ee\u9898\u003c\/p\u003e\n\u003c\/div\u003e\n","total":500,"page_html":"","ret":1},"resource":{"css":[],"js":[]}}

看來看不到網頁列的2萬多條記錄，只能看到四百多條。

4，單箇中文的匹配就是那個中字，程式中用index標記開始讀的每一塊。[^<>]*這種型別的正則挺好用的。

讀取螞蜂窩某分類下問答瀏覽數

讀取螞蜂窩某分類下問答瀏覽數

java使用jsoup，多執行緒批量爬取天極網某分類下的圖片

java使用jsoup，多執行緒批量爬取天極網某分類下的美女圖片

java將文件夾md5為名的圖片與數據庫查詢對應md5後導入相應圖片到某分類下

ecshop呼叫指定商品分類下固定條數的商品品牌列表

Python3原生爬蟲獲取熊貓直播某一分類下的主播人氣並儲存到Excel

用shell查找某目錄下的最大文件（轉）

Android開發系列（十七）：讀取assets文件夾下的數據庫文件

掃描某目錄下的所有文件的MD5碼並導出文件【可執行jar】

讀取某個文件夾下的所有文件

SQL SERVER 下：1、遞歸查詢父分類下的各個子分類。 2、查詢每個商品分類中最貴的前兩個商品SQL

3.3.5 高效讀取：不變模式下的CopyOnWriteArrayList

Python讀取指定文件夾下的文件

全路徑無限分類下拉列表的實現

Linux 查找某目錄下包含關鍵詞的所有文件

如何通過簡單的java代碼讀取本地磁盤目錄下的所有文件或者文件夾？

Spring boot 讀取jar包中resources下的檔案

判斷檔案是否存在某路徑下

python3-對某目錄下的文字檔案分詞

python3-對某目錄下的文本文件分詞

讀取螞蜂窩某分類下問答瀏覽數

相關推薦