網路爬蟲示例

阿新 • • 發佈：2018-12-18


import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.UnsupportedEncodingException;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class WebSpider1 {
	public static String getContent(String urlStr, String s) {
		StringBuilder sb = new StringBuilder();
			try {
				URL url = new URL(urlStr);
				BufferedReader bf = new BufferedReader(new InputStreamReader(url.openStream(), s));
				String temp = "";
				while((temp=bf.readLine())!=null) {
					sb.append(temp);
				}
			} catch (MalformedURLException e) {
				e.printStackTrace();
			} catch (UnsupportedEncodingException e) {
				e.printStackTrace();
			} catch (IOException e) {
				e.printStackTrace();
			}
		return sb.toString();
		
	}
	public static List<String> getStr(String des, String regexStr){
		Pattern p = Pattern.compile(regexStr);
		Matcher m = p.matcher(des);
		List<String> list = new ArrayList<String>();
		while(m.find()) {
			list.add(m.group(1));
		}
		return list;
	}
	public static void main(String[] args) {
		String des = getContent("http://www.163.com", "gbk");
		List<String> str = getStr(des,"href=\"([\\w\\s./:]*?)\"");
		for(String temp : str) {
			System.out.println(temp);
		}
		
	}
}

網路爬蟲示例

import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.UnsupportedEncodingExc

python網路爬蟲（web spider）系統化整理總結（二）：爬蟲python程式碼示例(兩種響應格式：json和html)

上一篇部落格（入門知識篇），對爬蟲有了一個基本的瞭解，但是具體怎麼實現一個爬蟲程式呢？一般情況下，我們在瀏覽器獲取資訊，是

[筆記]python網路爬蟲：一個簡單的定向爬取大學排名資訊示例

爬取的網站資訊 <div class="section"><a id="zhb" name="zhb"></a> <div class="title t2"><h1><img

爬蟲示例

use ID pos response douban coo color ensure bce import requests import re import json def getPage(url): response=reques

python 爬蟲示例，方便日後參考

主函數 cto fin iter rep incr one lines web def getOneMoviesInfo(Mid,url): import requests from lxml import etree #print(u

網路爬蟲筆記（Day6）——妹子圖

利用多程序爬取妹子圖：http://www.mzitu.com 完整程式碼如下：程序，參看博文程序和執行緒——Python中的實現 import requests from lxml import etree import os import mul

網路爬蟲筆記（Day5）——騰訊社招&拉勾網

分析過程與鏈家是一樣的。騰訊社招完整程式碼如下： import requests from lxml import etree from mysql_class import Mysql # 自己封裝好的Mysql類 def txshezhao(keywords, page):

網路爬蟲筆記（Day5）——鏈家

注意：請不要爬取過多資訊，僅供學習。分析：業務需求分析......（此例為住房資訊...）查詢相關網頁資訊（以鏈家為例）分析URL，查詢我們需要的內容，建立連線定位資料儲存資料首先進入鏈家網首頁，點選租房，F12檢查網頁，查詢我們需要的資訊

網路爬蟲筆記（Day4）

爬取今日頭條圖集進入今日頭條首頁：https://www.toutiao.com/ 步驟：1、檢視網頁，查詢我們需要的URL，分析URL

網路爬蟲筆記（Day3）

首先分析雪球網 https://xueqiu.com/#/property 第一次進去後，第一次Ajax請求得到的是若下圖所示的 max_id=-1, count=10。然後往下拉，第二次Ajax請求，如下圖；發現URL裡面就max_id 和count不同，

網路爬蟲筆記（Day8）——IP代理

可以去某寶或其他渠道購買，具體使用看自己購買商家的API文件，檢視使用方法。 ip_proxy.py import requests class ip_getter(object): def __init__(self): self.ip_proxy_str =

網路爬蟲筆記（Day8）——BeautifulSoup

BeautifulSoup 我們到網站上爬取資料，需要知道什麼樣的資料是我們想要爬取的，什麼樣的資料是網頁上不會變化的。 Beautiful Soup提供一些簡單的、python式的函式用來處理導航、搜尋、修改分析樹等功能。它是一個工具箱，通過解析文件為使用者提供需要抓取的資料，因為

網路爬蟲筆記（Day7）——Selenium

首先下載chromedriver 將其放入Python執行環境下，然後再去pip安裝selenium。最簡單的結構程式碼如下： from selenium import webdriver # ----------------------不開啟瀏覽器視窗-------------

網路爬蟲原理（概要了解）

一、網路爬蟲原理 1.1 等同於瀏覽器訪問網頁的原理（1）真人行為驅動（2）瀏覽器自動執行人為的動作，即將動作自動程式化。 1.2 網路爬蟲就是將瀏覽器訪問網頁的過程，再次抽像成程式。二、網路爬蟲分類 2.1 按連結的訪問層次的先後來分寬度優先和深度優先。寬度優先

Python網路資料爬取----網路爬蟲基礎（一）

The website is the API......(未來的資料都是通過網路來提供的，website本身對爬蟲來講就是自動獲取資料的API)。掌握定向網路資料爬取和網頁解析的基本能力。 ##Requests 庫的使用，此庫是Python公認的優秀的第三方網路爬蟲庫。能夠自動的爬取HTML頁面；自動的

編寫第一個網路爬蟲

3 種爬取網站的常見方法：下載網頁首先需要把網頁下載下來，使用Python 的urllib 2 模組下載URL。不過這樣子的無法處理一些異常情況，如網頁不存在，可以加入異常處理機制。有時候伺服器過載返回503 Service Unavailable

《用Python寫網路爬蟲》第一章踩坑

教程使用環境為pyhon2.x，使用python3.x進行學習時遇到一些坑，記錄下解決辦法。由於python2.x中的urllib2模組在3.x中被整合到了urllib模組中，教程中涉及urllib2的部分的程式碼需調整 p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; f

【轉載儲存】Java丨jsoup網路爬蟲登入得到cookie並帶上cookie訪問

優秀文章:https://blog.csdn.net/wisdom_maxl/article/details/65631825 jsoup使用cookie： Set<Cookie> cookie_set = LoadCSDN.load(); // WebClient

淺談網路爬蟲中深度優先演算法和簡單程式碼實現

學過網站設計的小夥伴們都知道網站通常都是分層進行設計的，最上層的是頂級域名，之後是子域名，子域名下又有子域名等等，同時，每個子域名可能還會擁有多個同級域名，而且URL之間可能還有相互連結，千姿百態，由此構成一個複雜的網路。當一個網站的URL非常多的時候，我們務必要設計好URL，否則在後期的理解

這可能是你見過的最全的網路爬蟲乾貨總結！抓緊時間收藏！

整個分享分為三個階段，第一階段先介紹了自己從大學以來從事程式設計開發以來的相關歷程，第二階段是正式的網路爬蟲分享流程，詳細總結了網路爬蟲開發的一些要點，第三階段是解答一些提問，並抽獎送出一些禮品。所以在這裡我會對我昨天分享的主要內容做下總結，另外還會附上視訊回放、PPT，另外還會為大家送上一些福利，

網路爬蟲示例

相關推薦