爬蟲記錄(1)——簡單爬取一個頁面的內容並寫入到文字中
阿新 • • 發佈:2019-01-30
1、爬蟲工具類,用來獲取網頁內容
package com.dyw.crawler.util;
import java.io.BufferedReader;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.URL;
import java.net.URLConnection;
/**
* 爬蟲工具類
* Created by dyw on 2017/9/1.
*/
public class CrawlerUtils {
/**
* 獲取html內容轉成string輸出。
*
* @param url url連結
* @return 整個網頁轉成String字串
*/
public static String getHtml(String url) throws Exception {
URL url1 = new URL(url);//使用java.net.URL
URLConnection connection = url1.openConnection();//開啟連結
InputStream in = connection.getInputStream();//獲取輸入流
InputStreamReader isr = new InputStreamReader(in);//流的包裝
BufferedReader br = new BufferedReader(isr);
String line;
StringBuffer sb = new StringBuffer();
while ((line = br.readLine()) != null) {//整行讀取
sb.append(line, 0, line.length());//新增到StringBuffer中
sb.append('\n');//新增換行符
}
//關閉各種流,先宣告的後關閉
br.close();
isr.close();
in.close();
return sb.toString();
}
}
2、IO工具類,用來把獲取的html內容進行寫入到檔案中
package com.dyw.crawler.util;
import java.io.File;
import java.io.FileOutputStream;
/**
* IO工具類
* Created by dyw on 2017/9/1.
*/
public class IOUtils {
/**
* 建立檔案
*
* @param file File型別
*/
public static void createFile(File file) throws Exception {
try {
if (!file.exists()) {
file.createNewFile();
}
} catch (Exception e) {
throw new Exception("建立檔案的時候錯誤!", e);
}
}
/**
* 寫入String到file中
*
* @param content 寫入內容
* @param fileName 寫入位置
*/
public static void writeFile(String content, File fileName) throws Exception {
FileOutputStream o;
try {
o = new FileOutputStream(fileName);
o.write(content.getBytes("Utf-8"));
o.close();
} catch (Exception e) {
throw new Exception("寫入檔案的時候錯誤!", e);
}
}
}
3、main方法執行
package com.dyw.crawler.project;
import com.dyw.crawler.util.CrawlerUtils;
import com.dyw.crawler.util.IOUtils;
import java.io.File;
/**
* 此包中的main方法
* Created by dyw on 2017/9/1.
*/
public class Project {
public static void main(String[] args) {
//檔案放置的路徑
String path = "C:\\Users\\dyw\\Desktop\\crawler";
//爬取的網站地址
String url = "http://blog.csdn.net/juewang_love";
String fileRealName = path + "/index.html";
File file = new File(fileRealName);
//建立檔案
try {
IOUtils.createFile(file);
} catch (Exception e) {
throw new RuntimeException("建立檔案失敗!", e);
}
//獲取內容
String htmlContent = null;
try {
htmlContent = CrawlerUtils.getHtml(url);
} catch (Exception e) {
throw new RuntimeException("獲取內容失敗!", e);
}
//寫入內容
try {
IOUtils.writeFile(htmlContent, file);
} catch (Exception e) {
throw new RuntimeException("內容寫入檔案失敗!", e);
}
}
}