用Scrapy抓取豆瓣小組資料（一）

最近在coursera.org（線上學習平臺）上學SNA（Social Network Analysis，社交網路分析）。有興趣的同學可以去看一眼：https://class.coursera.org/sna-002/，課程講的很有意思，等回頭我上完全部課程打算再寫下詳細總結和思考。

為什麼要抓取豆瓣小組資料？

課程要做一個帶程式設計的final project，大概內容就是自己找一個網路資料集，然後按照課程中提供的方法進行分析。其實最難的部分是找資料，兩種方法：自己抓，或者是找現成的。對於後者，國內有個叫資料堂的資料分享網站做的不錯，上面有豆瓣，淘寶，微博等各種資料，不過有些資料需要收費；國外有個叫

Konect的網站專注於複雜網路資料。

看了一圈現成的資料都不太滿意，決定自己抓取了。目標鎖定豆瓣小組，打算分析小組之間的互相聯絡。

如何用Scrapy抓取網頁？

1，先建立一個scrapy專案，專案名稱doubanscrapy startproject douban

`1`	`scrapy startproject douban`

會生成一個專案目錄，內部結構大概如下：

01 douban/

`02`	`scrapy.cfg ==> project的配置檔案，一般不用改`

03 douban/

`04`	`__init__.py`

`05`	`items.py ==> 定義抓取的資料結構`

`06`	`pipelines.py`

`07`	`settings.py ==》專案的具體配置，需要更改`

`08`	`spiders/ ==》這個是定義蜘蛛機器人的目錄`

`09`	`__init__.py`

10 ...

2，在item.py中定義要抓取的資料結構：定義了一個DoubanItem，屬性包括name,url, total member number, relative groups, active users。

定義完DoubanItem後，你就可以在實現蜘蛛機器人的程式碼裡返回DoubanItem的例項，Scrapy會自動序列化並匯出到JSON/XML等。

`01`	`from` `scrapy.item` `import` `Item, Field`

02

`03`	`class` `DoubanItem(Item):`

用Scrapy抓取豆瓣小組資料（一）

為什麼要抓取豆瓣小組資料？

如何用Scrapy抓取網頁？

用Scrapy抓取豆瓣小組資料（一）

Scrapy入門例項(使用Scrapy抓取豆瓣電影top250榜單）

一個站點的誕生02--用Scrapy抓取數據

用scrapy爬取京東的資料

用Python抓取朋友圈資料，通過人臉識別全面分析好友！看透朋友圈

用Scrapy抓取的中文字元匯出到csv中出現亂碼

用Fiddler抓取手機APP資料包

使用新浪微博官方API抓取微博資料（Python版）

用 Scrapy 抓取某家的樓盤資訊

Python3 + Scrapy 爬取豆瓣評分資料存入Mysql與MongoDB資料庫。

Python selenium爬蟲抓取船舶網站資料（動態頁面）

Python網路資料爬取----網路爬蟲基礎（一）

Scrapy爬取前程無憂（51job）相關職位資訊

Python下用Scrapy和MongoDB構建爬蟲系統（1）

爬取豆瓣電影排行（T250）的資訊

爬蟲]利用xpath爬取豆瓣電影top250（轉）

Android用surface直接顯示yuv資料（一）

python3 取頁面指定資料（json）

EffectiveJava讀書筆記——考慮用靜態工廠方法代替構造器（一）

UITableView！別再用代碼計算行高了（一）

用Scrapy抓取豆瓣小組資料（一）

為什麼要抓取豆瓣小組資料？

如何用Scrapy抓取網頁？

相關推薦