java根據網頁URL獲取正文資訊，並調整正文格式為段落顯示---（兩種方式）

阿新 • • 發佈：2019-02-15

WebCollector的正文抽取API都被封裝為ContentExtractor類的靜態方法。可以抽取結構化新聞，也可以只抽取網頁的正文（或正文所在Element)。

需要了解的兩個類 :

ContentExtractor : 封裝了正文抽取演算法和正文抽取的API，正文抽取API都被封裝為ContentExtractor類的靜態方法
News : 結構化新聞對應的模型

package spiderWorker.testWebCollector;

import java.io.BufferedReader;
import java.io.ByteArrayOutputStream;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.UnsupportedEncodingException;
import java.net.HttpURLConnection;
import java.net.URL;

import cn.edu.hfut.dmic.contentextractor.ContentExtractor;
import cn.edu.hfut.dmic.contentextractor.News;

public class testdemo1 {

	 /** *alt+shift+j
     * 通過網站域名URL獲取該網站的原始碼 HTMl檔案
     * @param url 
     * @return String 
     * @throws Exception 
     */  
    public static String getURLSource(URL url) throws Exception    {  
        HttpURLConnection conn = (HttpURLConnection)url.openConnection();  
        conn.setRequestMethod("GET");  
        conn.setConnectTimeout(5 * 1000);  
        InputStream inStream =  conn.getInputStream();  //通過輸入流獲取html二進位制資料  
        byte[] data = readInputStream(inStream);        //把二進位制資料轉化為byte位元組資料  
        String htmlSource = new String(data);  
        return htmlSource;  
    }  
    /** 
     * 把二進位制流轉化為byte位元組陣列 
     * @param instream 
     * @return byte[] 
     * @throws Exception 
     */  
    public static byte[] readInputStream(InputStream instream) throws Exception {  
        ByteArrayOutputStream outStream = new ByteArrayOutputStream();  
        byte[]  buffer = new byte[1204];  
        int len = 0;  
        while ((len = instream.read(buffer)) != -1){  
            outStream.write(buffer,0,len);  
        }  
        instream.close();  
        return outStream.toByteArray();           
    }  
    
	public static void main(String[] args) throws Exception {
		URL url = new URL("http://www.sohu.com/a/154612018_555775"); //有給定的URL,得到html原始碼快照檔案，不進行額外儲存，直接進行正文格式變換和顯示        
		String urlsource = getURLSource(url);  
        System.out.println(urlsource);  
		
        News news = ContentExtractor.getNewsByHtml(urlsource);   //需要使用到WebCollector包:<dependency> <groupId>cn.edu.hfut.dmic.webcollector</groupId> <artifactId>WebCollector</artifactId> <version>2.52</version>  </dependency>
	String content = " "+news.getContent();
	String time = news.getTime();
	String title = news.getTitle();
	content  = content.replaceAll(" ", "\r\n\t");
	System.out.println(title);
	System.out.println(time);
	System.out.println(content);
		
		
		/*File file = new File("C:\\Users\\admin\\Desktop\\test1.txt"); //先將HTML檔案儲存在檔案中，再讀檔案，進行正文格式變換和顯示
		
		String encoding="UTF-8";
		InputStreamReader read = new InputStreamReader(
					                    new FileInputStream(file),encoding);//考慮到編碼格式
		BufferedReader bufferedReader = new BufferedReader(read);
		 
		StringBuilder sb = new StringBuilder();
        	String lineTxt = null;
        	while((lineTxt = bufferedReader.readLine()) != null){
            	sb.append(lineTxt);
        	}
		
		try {
			News news = ContentExtractor.getNewsByHtml(sb.toString());
			String content = " "+news.getContent();
			String time = news.getTime();
			String title = news.getTitle();
			content  = content.replaceAll(" ", "\r\n\t");
			System.out.println(title);
			System.out.println(time);
			System.out.println(content);
		} catch (Exception e) {
			e.printStackTrace();
		}
		*/
	}

}

java根據網頁URL獲取正文資訊，並調整正文格式為段落顯示---（兩種方式）

WebCollector的正文抽取API都被封裝為ContentExtractor類的靜態方法。可以抽取結構化新聞，也可以只抽取網頁的正文（或正文所在Element)。需要了解的兩個類 :ContentExtractor : 封裝了正文抽取演算法和正文抽取的API，正文抽取

java如何獲取隨機數（兩種方式）

在小的知識，都有深挖之價值。很久沒有生產隨機數，竟然忘了！我明明記得我做過關於隨機數產生的總結，but，我翻遍了整個筆記本，就是沒找到。即便我知道筆記就在某一個角落；我還是放棄了查詢筆記，跑去Google了，所以我決定建立電子筆記，記錄那些小知識點。 //獲取100以內

查詢以太幣及代幣餘額與價格，進行以太幣與代幣的轉賬（兩種方式）並獲取交易記錄

查詢以太幣及代幣餘額與價格，進行以太幣與代幣的轉賬（兩種方式）並獲取交易記錄 1 // 補齊64位，不夠前面用0補齊 2 function addPreZero(num){ 3 var t = (num+'').length, 4 s = ''; 5 for(var i=0; i&l

讀取檔案，並按原格式輸出檔案內容的三種方式

1 filename = 'Car.py' 2 3 #讀取整個檔案 4 with open(filename) as file_object: 5 lines = file_object.read() 6 print(lines) 7 8 9 #遍歷檔案物件 10

Java + 原生MongoDB驅動 API 使用案例詳說（兩種方式）

前不久，博主利用spring-boot結合spring-data-mongodb包，搞了一把mongodb的整合 -- 增刪改查這種方式，比較固執，使用起來雖然方便，但是太依賴spring，我想建立自己的dbname，都無從下手（可能我還沒探究到），只能使用配置檔案裡面一開

java中byte陣列與int型別的轉換（兩種方式）

java中byte陣列與int型別的轉換，在網路程式設計中這個演算法是最基本的演算法，我們都知道，在socket傳輸中，傳送、者接收的資料都是 byte陣列，但是int型別是4個byte組成的，如何把一個整形int轉換成byte陣列，同時如何把一個長度為4的byte陣列轉

java List 去重（兩種方式）

方法一：通過Iterator 的remove方法 Java程式碼 public void testList() { List<Integer> list=new ArrayList<Integer>(); list.ad

C語言，陣列實現約瑟夫環問題（兩種方法）

約瑟夫環問題：約瑟夫環是一個數學的應用問題：已知n個人（以編號1，2，3...n分別表示）圍坐在一張圓桌周圍。從編號為k的人開始報數，數到m的那個人出列；他的下一個人又從1開始報數，數到m的那個人又出列；依此規律重複下去，直到圓桌周圍的人全部出列。第一種方法：要求將每次

手把手教你用MFC和OpenCV，製作mfc讀取並顯示影象（兩種方式）

MFC OpenCV 讀取並顯示影象 *************************************************完成的效果如圖******************************************** 前言：我用的是VS2013 + O

讀取五種格式的配置檔案（xml（兩種方式），txt，excel，csv，json）

using Mono.Xml; using System.Security; using LitJson; using System.Collections.Generic; using System.IO; using Excel; using S

微信公眾號開發之網頁授權（獲取使用者資訊兩種方式）

　　這次暑假留在學校參與工作室的專案，對微信公眾號比較感興趣，所以參與這方面的學習研究。昨天完成了關於網頁授權，獲取使用者資訊方面的功能，所以乘熱打鐵，寫上一篇。實現本篇涉及的功能，還需要完成一些基礎。在寫完這篇部落格後，我會盡快補上。-------------------------廢話不多說直入正題需要的

根據介面文件書寫介面，並在前端呼叫介面返回顯示出資料（加下載）

---恢復內容開始--- 1.首先來看介面文件（其中一個介面）：介面的編寫： 1 /** 2 * 7.11 餘額明細查詢介面 3 * 4 * @param token 5 * @param pageNum 6

使用JDBC獲取資料庫資料，並生成json格式檔案（省市區三級聯動）

前言：轉眼已經2018年了， 17年有點忙，出差將近三個月，部落格也停更了好久。一直都是不停的修復bug，和做一些業務需要的提示和互動。主要是因為和硬體有關係所以比較麻煩，開發週期也很長，而且還不穩定，硬體先行，然後在是除錯，互動。不過也有好處，學到的東西自然不是簡簡單單的程式碼了。

SparkStreaming通過Flume獲取資料（單機，push和poll兩種方式）的實現

Flume是Cloudera提供的一個高可用的，高可靠的，分散式的海量日誌採集、聚合和傳輸的系統，Flume支援在日誌系統中定製各類資料傳送方，用於收集資料；同時，Flume提供對資料進行簡單處理，並寫到各種資料接受方（可定製）的能力。1、第一種方式，通過push的方

iOS 獲取當前時間，並按照要求格式顯示

寫一個常用的獲取當前日期，時間的程式碼。並且能以規定的格式顯示出來 1 2 3 4 5 NSDate *currentDate = [NSDate date];//獲取當前時間，日期 N

javaweb網頁上傳圖片並顯示在頁面上，並在服務端存到磁碟（base64編碼解碼）

最後服務端接收到頁面傳過來的全部的BASE64編碼後 public String uploadimgsave(String imagepath){ String url = ""; OutputStream os=null; String ImgPath="D:/img"; //檔案存放目

Java面試高頻題精選300道，一份通往阿里的必備指南（pdf文件）

就目前大環境來看，跳槽成功的難度比往年高很多。一個明顯的感受：今年的面試，無論一面還是二面，都很考驗Java程式設計師的技術功

eclipse批量替換，修改變量名或單詞（兩種方法）

.com 雙擊方框批量 ref lac cnblogs height ima 第一種(常用)：　　①如圖：雙擊選中變量名id，右鍵選擇Refactor中的Rename 　　②之後如下圖所示,紅箭頭的帶有方框的就是選中修改的變量名,此時修改提示框的內容,後面帶方框的也

java快排（兩種方法）

span ast [] ati pub 方法 color 整體 blog 快排是最基礎的排序算法之一，今天來回顧一下。 public class QuickSort { public static void quickSort(int[] ar

fastDFS+LibreOffice多檔案上傳(二)後端部分：檔案資訊轉json字串儲存資料庫(Gson和org.json兩種方式)

需要注意的地方： 1）如果你複製我的程式碼到你的程式上報錯，可以看看我第一篇文章實體類跟配置檔案的設定：https://blog.csdn.net/qq_36688143/article/details/84162924 第二篇檔案上傳前端頁面的程式碼： https://blog.c

java根據網頁URL獲取正文資訊，並調整正文格式為段落顯示---（兩種方式）

相關推薦