jsoup 爬取資料(一)

阿新 • • 發佈：2019-01-24

本人因需要大量資料,今天第一天接觸爬蟲,使用江湖傳說java下的jquery之稱的jsoup,確實很方便易上手,也是目前比較流行的技術,對初學者來說非常easy,下面我也會繼續寫n篇記錄自己的學習成長曲線,後續會出分頁爬取與圖片爬取,以及新增資料庫的blog.

這裡寫圖片描述

可以看到文章列表都在class=”list”下,list_title下的結構如下,爬取link_title下href元素與html內容
這裡寫圖片描述

maven的pom新增如下依賴

<dependency>
            <groupId>org.jsoup</groupId>
            <artifactId 
>jsoup</artifactId>
            <version>1.7.3</version>
</dependency>

junit測試程式碼

@Test
    public void getBlogText(){
        Connection connection = Jsoup.connect("http://blog.csdn.net/qq_30581017");
        connection.header("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36" 
);

        try {
            Document document = connection.timeout(100000).get();

            //包含所有列表的文章
            Elements elements = document.getElementsByClass("list").first().children();
            for (Element element : elements) {
              //link_title下元素所有的元素
               Elements list_item = element.getElementsByClass 
("link_title").first().children();

                for (Element elementEach : list_item) {

                        String path = elementEach.attr("href");

                        String text = elementEach.html();

                    System.out.println(path + " -> " + text);
                }
            }



        } catch (IOException e) {
            e.printStackTrace();
        }


    }

3.測試結果
這裡寫圖片描述

jsoup 爬取資料(一)

Jsoup爬取table頁面資料

昨天接到一個任務需要爬取一個網頁的table資料，因為第一次接觸有些打怵。查詢資料尋找解決的方法。查到不少資料都在用jsoup . 需要下載jsoup-1.8.1.jar 包 jsoup 是一款Java 的HTML解析器，可直接解析某個URL地址、HTML文字

當爬取資料被限制怎麼辦？一招教你偽造反爬技術！

當我們在爬取資料時，難免會碰到限制，今天就來教你偽造反爬技術！！ 1.Headers限制這應該是最常見的，最基本的反爬蟲手段，主要是初步判斷你是否是真實的瀏覽器在操作。這個一般很好解決，把瀏覽器中的Headers資訊複製上去就OK了。值得注意的是，很多網

Java爬蟲--利用HttpClient和Jsoup爬取部落格資料並存入資料庫

由於今日頭條等頭條類產品的出現，以今日頭條為代表所使用的爬蟲技術正在逐漸火熱，在爬蟲領域具有良好效能和較好效果的Python在最近一年的時間裡逐漸火熱起來，同時因為Python良好的資料分析和機器學習的能力，Python的應用越來越廣泛。不過，今天我們要提到

利用Jsoup爬取天貓列表頁資料

由於技術有限天貓詳細頁的銷售資料爬取不到,所以採用折中的方法改為爬列表頁. 本文針對的是店內搜尋頁以下是獲取網頁資料: /** * @param URL 根據URL獲取document

Jsoup 爬取頁面的資料和理解HTTP訊息頭

推薦一本書：黑客攻防技術寶典.Web實戰篇；順便留下一個疑問：是否能通過jsoup大量併發訪問web或者小型域名伺服器，使其癱瘓？其實用jsoup熟悉的朋友可以用它解析url來幹一件很無恥的事（原始碼保密）。呵呵，接下來簡單的介紹下JSOUP。 jsoup 是一款基於J

使用jsoup爬取玩Android網站導航資料

知識點 - 使用jsoup爬取玩Android網站中的導航資料 - 輸出md格式的表格 /** * Created by monty on 2018/3/9. */ public class WanAndroid {

使用Java及jsoup爬取鏈家北京二手房房價資料

由於是初次使用Java寫爬蟲，所以程式碼有些繁瑣，請大家見諒，並能給與指正首先分析鏈家北京二手房頁面，使用360瀏覽器的審查元素功能，檢視原始碼，獲取查詢標籤如圖一級查詢所示，此圖標籤所獲取的是鏈家北京二手房頁面下的一級地區地址由於具體獲取有些複雜，故列大致步驟如下主頁——》

網站爬取-案例一：貓眼電影TOP100

瀏覽器取數據 pos 代碼裏的十個 wid 頁面 image 今天有小朋友說想看一下貓眼TOP100的爬取數據，要TOP100的名單，讓我給發過去，其實很簡單，先來看下目標網站：建議大家都用谷歌瀏覽器：這是我們要抓取的內容，100個數據，很少我們看一下頁面結構

java爬蟲問題二: 使用jsoup爬取數據class選擇器中空格多選擇怎麽解決

凱哥Java問題描述：在使用jsoup爬取其他網站數據的時候，發現class是帶空格的多選擇，如果直接使用doc.getElementsByClass(“class的值”),這種方法獲取不到想要的數據。爬取網站頁面結構如下：其中文章列表的div為：<div class="am-cf in

微信，爬取每日一句，發送至多人，多個群

ever ear con nbsp ret gin 定時任務 linu url Timer(5, send_news) 每日一句，發送至多人，多個群 1 # -*- coding: utf-8 -*- 2 #from __future__ import unicod

將豆瓣排名前250爬取資料通過sqlite3存入資料庫

#爬取豆瓣top250電影，並儲存到資料庫 import requests from bs4 import BeautifulSoup import sqlite3 def get_html(web_url): user_agent = 'Mozilla/5.0 (Linux; Andro

R中使用rvest爬取資料小試

總結R中使用 xpath 和 css selectors 獲取標籤內容(xpath功能強大，而CSS選擇器通常語法比較簡潔，執行速度更快些) 例:抓取下面標籤的內容： <h3 class="lister index unbold text"><span>小明他很忙</

selenium+python爬取資料跳轉網頁

專案要做一個四個層級欄的資料抓取，而且點選查詢後資料會在新跳出的網頁。原始碼如下註釋解釋 from selenium import webdriver import selenium #from time import sleep as sp url='http://202.127.42.15

python：爬蟲爬取資料的處理之Json字串的處理（2）

#Json字串的處理 Json字串轉化為Python資料型別 import json JsonStr ='{"name":"sunck","age":"18","hobby":["money","power","English"],"parames":{"a":1,"b":2}}' Js

python ：通過爬蟲爬取資料（1）

(1)通過url爬取網頁資料 import urllib.request #指定url url ="https://www.baidu.com" #向伺服器發起請求，返回響應的資料，通過infor接收 infor = urllib.request.urlopen(url)

爬取資料省市縣鎮村

package aa; import java.io.IOException; import java.util.HashMap; import java.util.Map; import org.jsoup.Jsoup; import org.jsoup.nodes.Document;

Jsoup爬取CSDN部落格

個人Jsoup練習之作，只做參考： <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <versi

用appium爬取資料python3實現

二、參考博文以下網址對於這篇教程非常重要，感謝分享在看這篇教程前，希望你已經具備selenium動態抓取網頁的知識，若不熟悉，可參看https://blog.csdn.net/Fan_shui/article/details/81516645 三、

Python使用xpath爬取資料返回空列表解決方案積累

筆者以爬取2018年AAAI人工智慧頂會論文元資料為例。其中包括標題(title)和摘要(abstract)等欄位前言：首先需要檢視該網頁是否可以爬取，通過在URL後加入/robots,txt可以檢視。 ①tbody問題 URL:2018AAAI的第一篇

jsoup 爬取資料(一)

相關推薦