Python實戰:網路爬蟲都能幹什麼?
阿新 • • 發佈:2019-01-03
@冰藍
之前在北京買房,誰想房價開始瘋長,鏈家的房價等資料分析只給了一小部分,遠遠不能滿足自己的需求。於是晚上花了幾個小時的時間寫了個爬蟲,爬下了北京所有的小區資訊及北京所有小區的所有歷史成交記錄。
@陳樂群
上次發現Android QQ和iOS QQ可以顯示網路狀態(2G/WiFi)之後,突然想到,這樣子好像可以監視某人的出行和作息規律。簡單的來說,在家裡或者工作的地方,一般是有WiFi的,然後出門了,WiFi就斷掉了。如果監測頻率足夠頻繁,那麼結合一定的推理,可以大致推測出一個人的行動。如果長期監視,那麼可以大致推出一個人的作息時間。
因為只有Android QQ和iOS QQ有這個功能,所以要得到一個人的網路狀態比較麻煩。我的做法是跑 Android 模擬器。然後用按鍵精靈模擬,並把網路狀態截圖,用 curl post到伺服器上。伺服器會把每次傳送的時間、截圖儲存下來。因為是用程式截圖的,所以只要網路狀態是一樣的,那麼截圖就是一樣的,這樣伺服器就只會儲存2~3張圖片而已,其餘的發現是相同的圖片,資料庫做個標記就好了。然後人工做OCR,還是注意到只有2~3張圖片,所以工作量很少。
得到資料後,要做各種統計就可以自己搞了……
@森羴
在用Python寫網頁爬蟲之前,我只用來寫過了一個駕校約車的指令碼,讓當時的我不懼上萬的學車同僚,在約車環節沒有輸在起跑線上。
接著那段時間,我女朋友的領導每天下班都會下任務,要收集100條有招聘需求的資訊,第二天檢查。看到她熬夜百度+複製貼上到半夜,心疼死了。
想到了某個牛人說:一切重複性的工作都可以用程式來完成。於是偷偷花了些時間研究了下她經常查的某些同類業務網站的頁面資料,培育了這隻爬蟲。主要技能就是爬這些網站的招聘公司資訊及聯絡方式,儲存到Excel中。
在我將戰鬥成果----1000多個客戶資料的Excel表格發給她的時候,先驚喜,後審問,再感慨!依稀記得那天她發了一條朋友圈,內容是:“有個程式設計師男朋友,感覺好幸福啊!!”成就感走直線啊,都能讓她感到幸福,你說這隻爬蟲是不是做了很酷很有趣的事情呢?
@柳易寒
我用爬蟲爬了我愛白菜網、超值分享匯、發現值得買、惠惠購物、今日聚超值、留住你、買手黨、沒得比、慢慢買、牛雜網、買個便宜貨、什麼值得買、天上掉餡餅、一分網、折800值得買、值值值等網站的折扣資訊。
這些網站都是提供的一些及時的、價效比較高的商品,很多時候要一個一個網站的看(重度使用者),很容易就會錯過一些很划算的商品。
@小白
大二學生一枚,前段時間中期考試,成績一直不出來,又不想每次都登入,突然就像用以下所學的東西來乾點事情。
說幹就幹,花了我將近4個小時完成成績提醒功能。主要是用Python定時抓取資料(定時用Ubuntu的crontab),分析資料是否變化,然後傳送簡訊。其實大部分時間是花在分析學校模擬登陸那一塊了,畢竟要提取各種值,還有url重定向,本來就才學Python,對一些東西也不是很熟悉。
執行起來之後還是效果還不錯,10分鐘抓一次,第一時間知道了我的概率論。。。
@顧旻瑋
在學校的時候做過一個專案,通過爬微博的文字,分析國內各個地區的使用者收聽蝦米的熱度和最受歡迎的歌手。當然也沒有用什麼很複雜的技術,就是寫基本的TF-IDF。
做完的時候覺得自己好有想法啊,能實現這麼有意思的東西。後來發現早就有公司做過了。當然別人做的是美國版的。
於是現在,我就在這家公司工作。
@晨晨
朋友交易了一套房子,手機號流落到了各種中介手裡,隔幾天就有中介電話騷擾,不勝其煩。每接一個電話都加黑名單,但還是有新號碼打過來,so⋯⋯問我咋辦!
Android 手機的攔截倒不是問題,但需要房產經紀人的號碼資料庫,就只能去網上爬了!
各個房產站的廣州站點加上58什麼的,一個多小時爬了快兩萬個號碼,去重之後還有一萬五千多⋯⋯
一時興起,又去爬了深圳、北京和上海,現在都不知道拿這些號碼去幹嘛了⋯⋯
PS:貌似活躍房產經紀的數量能反應市場活躍度?
PS:我覺得我可以把全國城市的都爬下來。
@孟德超
非計算機系。所以我做的比起其他人來說要簡單的多,但是卻解決了一些很實用的問題,也讓我認識到各行各業的人都需要學一點程式設計。
我一個同學做數學建模,需要57個城市兩兩之間的距離。他們本來想在百度查,可是57*56/2=1596,也就是說他們光查資料就要百度1596次。剛好我那個時候接觸了一點爬蟲,就找到一個可以查詢距離的網站,大概寫了幾十行程式碼,兩分鐘就解決問題了。
@餘生夢
說個簡單實用的例子吧。昨晚突然發現我在某培訓網站的的會員馬上就要過期了,於是趕緊寫了個爬蟲,把沒看完的教學視訊全下載下來了……
@ animalize
用爬蟲技術做了個個人資訊收集系統,部署在卡片式電腦(如樹莓派、Cubieboard)上。
之前在北京買房,誰想房價開始瘋長,鏈家的房價等資料分析只給了一小部分,遠遠不能滿足自己的需求。於是晚上花了幾個小時的時間寫了個爬蟲,爬下了北京所有的小區資訊及北京所有小區的所有歷史成交記錄。
@陳樂群
上次發現Android QQ和iOS QQ可以顯示網路狀態(2G/WiFi)之後,突然想到,這樣子好像可以監視某人的出行和作息規律。簡單的來說,在家裡或者工作的地方,一般是有WiFi的,然後出門了,WiFi就斷掉了。如果監測頻率足夠頻繁,那麼結合一定的推理,可以大致推測出一個人的行動。如果長期監視,那麼可以大致推出一個人的作息時間。
因為只有Android QQ和iOS QQ有這個功能,所以要得到一個人的網路狀態比較麻煩。我的做法是跑 Android 模擬器。然後用按鍵精靈模擬,並把網路狀態截圖,用 curl post到伺服器上。伺服器會把每次傳送的時間、截圖儲存下來。因為是用程式截圖的,所以只要網路狀態是一樣的,那麼截圖就是一樣的,這樣伺服器就只會儲存2~3張圖片而已,其餘的發現是相同的圖片,資料庫做個標記就好了。然後人工做OCR,還是注意到只有2~3張圖片,所以工作量很少。
得到資料後,要做各種統計就可以自己搞了……
@森羴
在用Python寫網頁爬蟲之前,我只用來寫過了一個駕校約車的指令碼,讓當時的我不懼上萬的學車同僚,在約車環節沒有輸在起跑線上。
接著那段時間,我女朋友的領導每天下班都會下任務,要收集100條有招聘需求的資訊,第二天檢查。看到她熬夜百度+複製貼上到半夜,心疼死了。
想到了某個牛人說:一切重複性的工作都可以用程式來完成。於是偷偷花了些時間研究了下她經常查的某些同類業務網站的頁面資料,培育了這隻爬蟲。主要技能就是爬這些網站的招聘公司資訊及聯絡方式,儲存到Excel中。
在我將戰鬥成果----1000多個客戶資料的Excel表格發給她的時候,先驚喜,後審問,再感慨!依稀記得那天她發了一條朋友圈,內容是:“有個程式設計師男朋友,感覺好幸福啊!!”成就感走直線啊,都能讓她感到幸福,你說這隻爬蟲是不是做了很酷很有趣的事情呢?
@柳易寒
我用爬蟲爬了我愛白菜網、超值分享匯、發現值得買、惠惠購物、今日聚超值、留住你、買手黨、沒得比、慢慢買、牛雜網、買個便宜貨、什麼值得買、天上掉餡餅、一分網、折800值得買、值值值等網站的折扣資訊。
這些網站都是提供的一些及時的、價效比較高的商品,很多時候要一個一個網站的看(重度使用者),很容易就會錯過一些很划算的商品。
@小白
大二學生一枚,前段時間中期考試,成績一直不出來,又不想每次都登入,突然就像用以下所學的東西來乾點事情。
說幹就幹,花了我將近4個小時完成成績提醒功能。主要是用Python定時抓取資料(定時用Ubuntu的crontab),分析資料是否變化,然後傳送簡訊。其實大部分時間是花在分析學校模擬登陸那一塊了,畢竟要提取各種值,還有url重定向,本來就才學Python,對一些東西也不是很熟悉。
執行起來之後還是效果還不錯,10分鐘抓一次,第一時間知道了我的概率論。。。
@顧旻瑋
在學校的時候做過一個專案,通過爬微博的文字,分析國內各個地區的使用者收聽蝦米的熱度和最受歡迎的歌手。當然也沒有用什麼很複雜的技術,就是寫基本的TF-IDF。
做完的時候覺得自己好有想法啊,能實現這麼有意思的東西。後來發現早就有公司做過了。當然別人做的是美國版的。
於是現在,我就在這家公司工作。
@晨晨
朋友交易了一套房子,手機號流落到了各種中介手裡,隔幾天就有中介電話騷擾,不勝其煩。每接一個電話都加黑名單,但還是有新號碼打過來,so⋯⋯問我咋辦!
Android 手機的攔截倒不是問題,但需要房產經紀人的號碼資料庫,就只能去網上爬了!
各個房產站的廣州站點加上58什麼的,一個多小時爬了快兩萬個號碼,去重之後還有一萬五千多⋯⋯
一時興起,又去爬了深圳、北京和上海,現在都不知道拿這些號碼去幹嘛了⋯⋯
PS:貌似活躍房產經紀的數量能反應市場活躍度?
PS:我覺得我可以把全國城市的都爬下來。
@孟德超
非計算機系。所以我做的比起其他人來說要簡單的多,但是卻解決了一些很實用的問題,也讓我認識到各行各業的人都需要學一點程式設計。
我一個同學做數學建模,需要57個城市兩兩之間的距離。他們本來想在百度查,可是57*56/2=1596,也就是說他們光查資料就要百度1596次。剛好我那個時候接觸了一點爬蟲,就找到一個可以查詢距離的網站,大概寫了幾十行程式碼,兩分鐘就解決問題了。
@餘生夢
說個簡單實用的例子吧。昨晚突然發現我在某培訓網站的的會員馬上就要過期了,於是趕緊寫了個爬蟲,把沒看完的教學視訊全下載下來了……
@ animalize
用爬蟲技術做了個個人資訊收集系統,部署在卡片式電腦(如樹莓派、Cubieboard)上。