Python爬蟲實習筆記 | Week10 Daliy工作流水
2018/12/17
1.所思所想
今天感冒加重,整天沒心情。最傷心的是,自己的技術流還很不穩固,需要更加努力!今天主要就是在看Python Scrapy爬蟲框架,感覺還是挺棒的,自己需要慢慢琢磨,學好學深。從明天開始,自己需要開始學習《MySQL技術內幕》,努力使自己成為大牛~
2.工作
yield
今天執行cnblogSpider時,papers.json的內容一直為空,心情很是鬱悶。
1.251眉山市 main_tasks get 內容為pdf
2.252宜賓市 main_tasks get 內容為圖片
3.253廣安市 main_tasks get 內容為doc
4.254達州市 main_tasks get 內容為圖片
5.255雅安市 main_tasks get 內容為圖片
6.256巴中市 main_tasks get 內容為圖片
7.257資陽市 get
8.258阿壩藏族羌族自治州 get
9.259甘孜藏族自治州 內容為圖片
10.260涼山彝族自治州 http://www.lshj.gov.cn/lshb/zdjkqy/index.shtml 內容只有一條,而且是圖片
2018/12/18
1.所思所想
所謂任重道遠不過如此,昨晚看了知乎回答關於計算機大學四年的安排,不禁感到羞愧和壓力山大。自己在專業造詣上和985高校相比相差不是一點點,自己仍然有許多需要彌補的地方,不論是演算法,計算機組成,作業系統,計網,網路程式設計,精通一門語言等等都有很大的差距。
下面是答主給的建議:
演算法方面,可以在leetcode上刷400-500道題目,把劍指offer看完;
計算機組成方面,把《深入理解計算機系統》看完吧;
作業系統呢,就自己買本書,自己構造個原型吧,網上的《30天構造作業系統》就不錯;
計網就把《計算機網路 自頂向下》看完吧;
網路程式設計,對於後端很重要,不如把《Unix網路程式設計》看完吧;
精通一門語言,C++就很不錯,而且可以和Python做比較好的搭檔,不如把Effective三部曲看完吧。
2.工作
自己在最近一直在焦急,這種心態不是很好,無論什麼事,都一定要for humans。不要給自己太多壓力,去努力成為最好的自己。
2018/12/19
1.所思所想
今天時間過得很快,上午做Scrapy的學習,中午和Momenta的兩位上司好好聊了許多,感覺自己需要做的地方有很多。下午又去輔導員辦公室去拿優秀畢業生的材料,不禁感慨大學四年飛逝而過。下午把行政處罰指令碼的get_table好好重構了下,心情舒暢了很多。
2.工作
今天主要就是把get_table這塊好好重構了下,效果不錯~
2018/12/20
1.所思所想
今天主要的事情就是學習Scrapy框架的Scrapy command tools以及下午做行政處罰任務。隨著指令碼的不斷完善,自己心裡還是挺開心的~
2.工作
262 一直出現超時問題,心累得慌~
269 網頁很糟心,完全不想跑、。。。 http://www.qiannan.gov.cn/zwgk/xxgklm/xzqlgk/xzcf/index.shtml
注意字串中是否有%!!!
2018/12/21
1.所思所想
今天上午一直在看Scrapy的Spdier部分,感覺自己對這個模組有了更深的認識,比如name IS NECCESIRY~, start_urls, start_requests, allowed_domain, parse, rules等等。中午繼續在看《沉思錄》,感覺自己看的非常慢,好吧,是自己沒有興致還是中午實在太累呢,下午就是在做行政處罰的內容了,一天過得挺充實~
2.工作
天啊嚕,270+都記錄在了GuizhouProvince裡。。