1. 程式人生 > >webmagic是個神奇的爬蟲(一)--如何建立webmagic專案

webmagic是個神奇的爬蟲(一)--如何建立webmagic專案

本人從事爬蟲工作整一年,在對爬蟲一無所知的情況下接觸到了webmagic,之後通過不斷的學習和實踐,發現了它的靈活和強大,漸漸地愛上了它,因此把心得整理出來,梳理自己思路也希望和眾多爬蟲愛好者一同交流成長。

廢話不多說,現在開始webmagic第一講,基於maven的webmagic工程建立:

maven是一個專案管理工具, 解放了程式開發者不斷匯入依賴檔案的工作,建立maven專案具體操作可參考:http://blog.csdn.net/myarrow/article/details/50824793


在maven工程建立完之後,就需要在pom.xml檔案中加上webmagic相關的配置:

	<dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>webmagic-core</artifactId>
            <version>0.6.1</version>
        </dependency>

        <dependency>
            <groupId>us.codecraft</groupId>
            <version>0.6.1</version>
            <artifactId>webmagic-extension</artifactId>
        </dependency>

        <dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>webmagic-selenium</artifactId>
            <version>0.6.1</version>
        </dependency>


*注意所有的<dependency>標籤都是包含在<dependencies>的大標籤中。


webmagic-core是整個webmagic的核心依賴,extension包含了一些webmagic擴展出來的比較實用的功能。

附傳送門:https://my.oschina.net/flashsword/blog/180623

這裡有對webmagic框架組成比較全面的講解。


0.6.1是截至2017-3-11日webmagic最新的版本,本人之前用的0.5.3的版本也有好長一段時間,幾個版本之間功能稍有差異,具體用哪個版本看個人喜好吧。


至此,一個最基礎的webmagic專案就建立好了,之後就可以開始愉快的爬蟲之旅~

另附webmaic使用文件


最後附上webmagic總體架構圖鎮樓:



文章連結內容感謝:

http://baike.baidu.com/link?url=0_rPnwU3s0lGCqO8yFd2zsB6eRlQ_aiPe3rbvZrgZ_UuJI28h68K1AibpgINtRTjyJcFh6VBmAyRBeijG8RroK

http://blog.csdn.net/myarrow/article/details/50824793

https://my.oschina.net/flashsword/blog/180623

http://webmagic.io/docs/zh/

http://webmagic.io/docs/zh/posts/ch1-overview/architecture.html