10.4-10.5隨筆
一、在爬蟲過程中的心得:
1、有些資料型別不一致,不能統一讀取
2、注意封裝函式;
3、添加註釋:有助於後續他人維護,以及自己修改
4、轉txt的時候,注意空間的利用:如何節省空間,是否可以邊儲存邊刪除。
二、最近的新詞:
1、損失函式:損失函式(loss function)或代價函式(cost function)是將隨機事件或其有關隨機變數的取值對映為非負實數以表示該隨機事件的“風險”或“損失”的函式。
2、學習率:learning rate.
3、高斯分佈:正態分佈
4、噪聲:所有難以被機器正確理解和翻譯的資料。
5、資料清洗的方式:利用有關技術如數理統計、資料探勘或預定義的清理規則將
6、注意力機制:注意力機制(Attention Mechanism)源於對人類視覺的研究。在認知科學中,由於資訊處理的瓶頸,人類會選擇性地關注所有資訊的一部分,同時忽略其他可見的資訊。上述機制通常被稱為注意力機制。人類視網膜不同的部位具有不同程度的資訊處理能力,即敏銳度(Acuity),只有視網膜中央凹部位具有最強的敏銳度。為了合理利用有限的視覺資訊處理資源,人類需要選擇視覺區域中的特定部分,然後集中關注它。例如,人們在閱讀時,通常只有少量要被讀取的詞會被關注和處理。綜上,注意力機制主要有兩個方面:決定需要關注輸入的哪部分;分配有限的資訊處理資源給重要的部分。
7、LSTM:短期記憶網路(LSTM,Long Short-Term Memory)是一種時間迴圈神經網路,是為了解決一般的RNN(迴圈神經網路)存在的長期依賴問題而專門設計出來的,所有的RNN都具有一種重複神經網路模組的鏈式形式。在標準RNN中,這個重複的結構模組只有一個非常簡單的結構,例如一個tanh層。
8、CMM:全稱Capability Maturity Model forSoftware,能力成熟度模型,它是對於軟體組織在定義、實施、度量、控制和改善其軟體過程的實踐中各個發展階段的描述.CMM
的核心是把軟體開發視為一個過程,並根據這一原則對軟體開發和維護進行過程監控和研究,以使其更加科學化、標準化、使企業能夠更好地實現商業目標.
三、寫作要注意的:
1、資料、圖等的格式要清楚標準,易於他人使用
2、作圖看重合率時,可以用不同標記(如叉號和方塊)
四、值得學習的:
1、學會為任務分解、排期。