C#實現簡單的網頁爬蟲
using System; using System.Collections.Generic; using System.IO; using System.Linq; using System.Net; using System.Text; using System.Text.RegularExpressions; using System.Threading.Tasks; namespace _2015._5._23通過WebClient類發起請求並下載html { class Program { static void Main(string[] args) { #region 抓取網頁郵箱 //string url = "http://zhidao.baidu.com/link?url=cvF0de2o9gkmk3zW2jY23TLEUs6wX-79E1DQVZG7qaBhEVT_xlh6TO7p0W4qwuAZ_InLymC_-mJBBcpdbzTeq_"; //WebClient wc = new WebClient(); //wc.Encoding = Encoding.UTF8; //string str = wc.DownloadString(url); //MatchCollection matchs= Regex.Matches(str,@"\
[email protected]([-\w])+([\.\w])+",RegexOptions.ECMAScript); //foreach (Match item in matchs) //{ // Console.WriteLine(item.Value); //} //Console.WriteLine(matchs.Count); #endregion #region 抓取網頁圖片 //WebClient wc = new WebClient(); //wc.Encoding = Encoding.UTF8; ////下載源網頁程式碼 //string html = wc.DownloadString("http://dongxi.douban.com/?dcs=top-nav&dcm=douban"); //MatchCollection matches= Regex.Matches(html,"<img.*src=\"(.+?)\".*>"); //foreach (Match item in matches) //{ // //下載圖片到指定路徑 // wc.DownloadFile(item.Groups[1].Value,@"c:\mv\"+Path.GetFileName(item.Groups[1].Value)); //} //Console.WriteLine(matches.Count); #endregion 爬一些資訊 WebClient wc = new WebClient(); wc.Encoding = Encoding.UTF8; string html = wc.DownloadString("http://www.lagou.com/"); MatchCollection matches= Regex.Matches(html,"<a.*jobs.*>(.*)</a>"); foreach (Match item in matches) { Console.WriteLine(item.Groups[1].Value); } Console.WriteLine(matches.Count); Console.ReadKey(); } } }
相關推薦
C#實現簡單的網頁爬蟲
using System; using System.Collections.Generic; using System.IO; using System.Linq; using System.Net; using System.Text; using System.Tex
Java基於httpclient獲取網頁資料,實現簡單網路爬蟲
1、pom檔案引入httpclient依賴 <dependency> <groupId>org.apache.httpcompon
java實現的簡單網頁爬蟲:Servlet 搜尋引擎核心爬蟲程式(三)
/** * * @author Administrator * * JavaSpider 1.6 版本 * * 1,對所有的目標網址進行抽取,得到目標java檔案,也就是我們需要的java原始檔; * 2,將所有的java原始檔儲存到對應的java檔案中
Python簡單網頁爬蟲
tab write open python2.x row browser mod err urlopen 由於Python2.x與Python3.x存在很的差異,Python2.x調用urllib用指令urllib.urlopen(), 運行時報錯:AttributeErr
C++實現簡單的文本查詢
ber number map () first begin ifstream adf times 1 該程序將讀取用戶指定的任意文本文件,然後允許用戶從該文件中查找單詞。查詢的結果是該單詞出現的次數,並列出每次出現所在的行。如果某單詞在同一行中多次出現,程序將只顯示該
python實現簡單圖片爬蟲並保存
.com 貪婪模式 web頁面 logs urn 並不是 python 保存 light 先po代碼 #coding=utf-8 import urllib.request #3之前的版本直接用urllib即可,下同 #該模塊提供了web頁面讀取數據的接口,使得我們可以
C#實現簡單的Http請求實例
semaphore bsp .text block 通過 renren www 字節 req 本文實例講述了C#實現簡單的Http請求的方法。分享給大家供大家參考。具體分析如下: 通過.Net中的兩個類HttpWebRequest類,HttpWebResponse類來實現
C#實現簡單獲取及設置Session類
static 相互 如何 相互轉換 per body share line window 本文實例講述了C#實現簡單獲取及設置Session類。分享給大家供大家參考。具體分析如下: 這是一個簡單的C#獲取Session、設置Session類文件,本類主要實現大家最常用的兩
C#實現簡單的冒泡排序
read pro i++ cto bsp con nbsp ces nag 1、C#代碼下:using System;namespace ConsoleApplication1{ class Program { static void Main()
matlab學習 — 實現簡單的爬蟲
mage data- imwrite read dai div 小寫 ranking 解析 這裏復雜的情況暫時不考慮。。測試網址為pixiv的每日排行榜 = = url = ‘https://www.pixiv.net/ranking.php?mode=daily
c實現 簡單的文件管理 不含交互
字符 當前 str2 masm 器) 上層 stream file style 實現如下功能: 1、讀取指定目錄下的所有子目錄和文件信息(比如:指定目錄為C:/temp則把此目錄 下的所有子目錄下的文件信息讀出來)2、在C盤創建一個以個人姓名命名的目錄(比如:張三)3、在
C++ 實現簡單命令行學生管理系統
什麽 cos wid 屏幕 cit 環境 iterator choice umeng C++ 實現簡單命令行學生管理系統 貼吧ID: 這把問題不大 編譯環境是macOS。system(“clear”) 在windows下請換成 system(“cls”) #include
c++實現簡單的string類
學得快,忘得快,老師講完了運算子過載這一節然後就帶我們開發一個字串類,我的程式碼也是在理解的基礎上跟著老師敲的,覺得太有意思了!!!趕緊寫部落格總結一下,加深理解,希望我這記性別讓我失望!其實字串也是可以理解為字元陣列,所以在類中有兩個屬性,字串長度len和字元指標,當定義mystring
NodeJs實現簡單的爬蟲
1.爬蟲:爬蟲,是一種按照一定的規則,自動地抓取網頁資訊的程式或者指令碼;利用NodeJS實現一個簡單的爬蟲案例,爬取Boss直聘網站的web前端相關的招聘資訊,以廣州地區為例; 2.指令碼所用到的nodejs模組 express 用來搭建
用C++實現簡單的檔案I/O操作
檔案 I/O 在C++中比烤蛋糕簡單多了。 在這篇文章裡,我會詳細解釋ASCII和二進位制檔案的輸入輸出的每個細節,值得注意的是,所有這些都是用C++完成的。 一、ASCII 輸出 為了使用下面的方法, 你必須包含標頭檔案<fstream.h>(譯者注:在標準C++中,已
c++實現簡單的Http客戶端協議,WebRequest
最近要寫一個代理程式,軟體最終要跑在嵌入式裝置上,其中一部分是需要做一個簡單爬蟲程式,用來操作嵌入式裝置的Web服務上的資訊,我不想用第三方的任何庫,如是簡單看了下http協議,用一天時間實現了http協議的客戶端,實現Get,Post,UpFile(檔案上傳)等
C#實現簡單的學生管理系統增刪改查
1.Programs.cs using System; using System.Collections; using System.Collections.Generic; using System.Linq; using System.Text; using Syste
node實現多網頁爬蟲
本案例以慕課網為例 在命令列安裝cheerio npm install cheerio 在命令列安裝bluebird npm install bluebird //爬蟲,優雅的非同步程式設計 // 載入http模組 var http = re
python3實現簡單的爬蟲
主要實現的是從百度貼吧爬取一些圖片 開啟對應的網頁 主要是使用python下的庫urllib request.urlopen() 開啟目標網頁 read() 讀取網頁資訊 因此最開始程式碼如下: #coding=utf-8 from urllib impo
用c#實現簡單文字編譯器
上學期有個程式設計實驗,其中一個是需要實現一個帶介面的簡單文字編輯器。這裡選擇用c#來實現。 頁面設計和具體功能 在檔案處選擇新建一個文字,這裡的文字使用窗體實現載入 有一些快捷鍵:比如字型選擇按鈕,點選以後可以出現一個窗體,實現字型的選擇。但是這裡貌似有點