Python爬蟲實習筆記 | Week9 Daliy工作流水
2018/12/10
1.所思所想
今天壓力還蠻大,因為自己開始接觸更多的維度,需要實現更加有難度的功能,但自己應迎難而上,有百折不撓的勇氣。
2.工作
【1】.維度的更新;
【2】.Python的爬蟲模組Scrapy;
【3】.核心程式設計之多執行緒程式設計總結;
【4】.自然語言處理;
【5】.XPath
Scrapy:
crawl
runspider
startproject
XPath
scrapy shell --- response.xpath , response.selector.xpath
2018/12/11
1.所思所想
今天唯一的感觸就是時間不夠用,自己的事情實在太多太多,工作任務目前開始加重,不僅僅是原有的任務,還有新新增的繁瑣的事情接踵而來,自己需要好好思量,將精力集中在最重要的事情上,努力提升自己解決問題的能力。此外,自己還有很多書要看,這些任務不能擱淺,
2.工作
吳中區指令碼更新,並用類實現;
蘇州環保局指令碼更新 進行中。
2018/12/12
1.所思所想
今天煩躁的很,時間利用的也不充分,所以之後要少碰手機,將遇到的問題多加總結,把精力放在解決疑難問題上。cc君還是一個不錯的女孩,也許之後還可以再試一下,我需要創造機會。
2.工作
安裝Scrapy出現的問題:
Exception: Version mismatch: this is the 'cffi' package version 1.11.5, located in '/usr/local/lib/python3.5/dist-packages/cffi/api.py'. When we import the top-level '_cffi_backend' extension module, we get version 1.5.2, located in '/usr/lib/python3/dist-packages/_cffi_backend.cpython-35m-x86_64-linux-gnu.so'. The two versions should be equal; check your installation.
可能是因為pip3版本太老的原因,學長那兒正常安裝,然而我這兒早了一步把python3.5給刪了,哭泣。
2018/12/13
1.所思所想
自從昨天把python3.5刪掉之後,終端也不能運行了,這使得我不得不備份所有的東西,然後請馬亮學長重灌系統。人生苦短,善待系統。此外,《沉思錄》這本書我是真看的慢啊,之後的每天中午,就儘量別碰手機啦,這樣每天可以節省半小時來看這本書。重灌系統後,也要重新安裝MySQL資料庫,Pycharm IDE等等。
後來重灌的pip3後,真的是可以安裝scrapy了。我的天。
2.工作
今天和昨天時間都沒用在工作上,但是自己解決問題的心態卻更好了,人生莫過如此。
‘python寶典’裡面有很多python爬蟲相關的小專案,自己可以找機會練練手。
2018/12/14
1.所思所想
今天過得比較充實了,主要是自己把幾個主要問題給解決了。
(1).jiance時間問題。首先就是馬亮學長提到的更新到昨天的問題,後來我用了get_yesterday()來實現了下,發現確實有效果,但是在程式執行時,它會不斷的得到時間,這本質上並沒有解決問題,特別是如果一個省更新到第二天,get_yesterday()就會失靈,所以我要把yesterday作為一個全域性變數。
(2).jiance_suzhou的更新問題。後來我把post_data和網頁中的請求實體對比了下,發現company_id居然為None,原因是馬亮學長更改了資料庫結構。後來我把company_id和從資料庫中讀取的欄位對應起來,方才解決了該問題。但這個指令碼的一個主要問題是,它裡面的有很多重複的跟資料庫連線操作,這方面可以很大的改善。
(3).punish_suzhou的自動更新問題。可以說比較完美的解決了。但一個主要問題是指令碼的get_table函式還是比較糟糕,劉鳳成學長雖然花費了很多精力,但他目前還沒有編寫簡潔程式碼的意識,所以我要以包容的心態去解決遇到的問題。下週爭取把這個指令碼給完善一下。
2.工作
自己的四川和西藏的行政處罰還沒有做好,心態很崩。下週爭取做好。此外,對於網頁的圖片格式爬取,下週完善下。
2018/12/15
1.所思所想
最近一段時間,工作上的事情越來越多,自己在專業能力的培養上所能花的時間也越來越少。
2.工作
今天主要就是在看《重構》,這是一本非常棒的書,很開心。
2018/12/16
1.工作
能運用自己的知識幫CC做了個指令碼,心裡開心的不行¬