webmagic是個神奇的爬蟲(一)--如何建立webmagic專案
本人從事爬蟲工作整一年,在對爬蟲一無所知的情況下接觸到了webmagic,之後通過不斷的學習和實踐,發現了它的靈活和強大,漸漸地愛上了它,因此把心得整理出來,梳理自己思路也希望和眾多爬蟲愛好者一同交流成長。
廢話不多說,現在開始webmagic第一講,基於maven的webmagic工程建立:
maven是一個專案管理工具, 解放了程式開發者不斷匯入依賴檔案的工作,建立maven專案具體操作可參考:http://blog.csdn.net/myarrow/article/details/50824793。
在maven工程建立完之後,就需要在pom.xml檔案中加上webmagic相關的配置:
<dependency> <groupId>us.codecraft</groupId> <artifactId>webmagic-core</artifactId> <version>0.6.1</version> </dependency> <dependency> <groupId>us.codecraft</groupId> <version>0.6.1</version> <artifactId>webmagic-extension</artifactId> </dependency> <dependency> <groupId>us.codecraft</groupId> <artifactId>webmagic-selenium</artifactId> <version>0.6.1</version> </dependency>
webmagic-core是整個webmagic的核心依賴,extension包含了一些webmagic擴展出來的比較實用的功能。
附傳送門:https://my.oschina.net/flashsword/blog/180623
這裡有對webmagic框架組成比較全面的講解。
0.6.1是截至2017-3-11日webmagic最新的版本,本人之前用的0.5.3的版本也有好長一段時間,幾個版本之間功能稍有差異,具體用哪個版本看個人喜好吧。
至此,一個最基礎的webmagic專案就建立好了,之後就可以開始愉快的爬蟲之旅~
另附webmaic使用文件
最後附上webmagic總體架構圖鎮樓:
文章連結內容感謝:
http://baike.baidu.com/link?url=0_rPnwU3s0lGCqO8yFd2zsB6eRlQ_aiPe3rbvZrgZ_UuJI28h68K1AibpgINtRTjyJcFh6VBmAyRBeijG8RroK
http://blog.csdn.net/myarrow/article/details/50824793
https://my.oschina.net/flashsword/blog/180623
http://webmagic.io/docs/zh/
http://webmagic.io/docs/zh/posts/ch1-overview/architecture.html