1. 程式人生 > 其它 >10.4-10.5隨筆

10.4-10.5隨筆

一、在爬蟲過程中的心得:

  1、有些資料型別不一致,不能統一讀取

  2、注意封裝函式;

  3、添加註釋:有助於後續他人維護,以及自己修改

  4、轉txt的時候,注意空間的利用:如何節省空間,是否可以邊儲存邊刪除。

二、最近的新詞:

1、損失函式:損失函式(loss function)或代價函式(cost function)是將隨機事件或其有關隨機變數的取值對映為非負實數以表示該隨機事件的“風險”或“損失”的函式。

2、學習率:learning rate.

3、高斯分佈:正態分佈

4、噪聲:所有難以被機器正確理解和翻譯的資料。

5、資料清洗的方式:利用有關技術如數理統計資料探勘或預定義的清理規則將

髒資料轉化為滿足資料質量要求的資料。如錯誤資料(偏差分析、識別不遵守分佈或迴歸方程的值,也可以用簡單規則庫( 常識性規則、業務特定規則等)檢查資料值,或使用不同屬性間的約束、外部的資料來檢測和清理資料)、重複資料(通過判斷記錄間的屬性值是否相等來檢測記錄是否相等,相等的記錄合併為一條記錄(即合併/清除)。)、殘缺資料。

6、注意力機制:注意力機制(Attention Mechanism)源於對人類視覺的研究。在認知科學中,由於資訊處理的瓶頸,人類會選擇性地關注所有資訊的一部分,同時忽略其他可見的資訊。上述機制通常被稱為注意力機制。人類視網膜不同的部位具有不同程度的資訊處理能力,即敏銳度(Acuity),只有視網膜中央凹部位具有最強的敏銳度。為了合理利用有限的視覺資訊處理資源,人類需要選擇視覺區域中的特定部分,然後集中關注它。例如,人們在閱讀時,通常只有少量要被讀取的詞會被關注和處理。綜上,注意力機制主要有兩個方面:決定需要關注輸入的哪部分;分配有限的資訊處理資源給重要的部分。

7、LSTM:短期記憶網路(LSTM,Long Short-Term Memory)是一種時間迴圈神經網路,是為了解決一般的RNN迴圈神經網路)存在的長期依賴問題而專門設計出來的,所有的RNN都具有一種重複神經網路模組的鏈式形式。在標準RNN中,這個重複的結構模組只有一個非常簡單的結構,例如一個tanh層。

8、CMM:全稱Capability Maturity Model forSoftware,能力成熟度模型,它是對於軟體組織在定義、實施、度量、控制和改善其軟體過程的實踐中各個發展階段的描述.CMM

的核心是把軟體開發視為一個過程,並根據這一原則對軟體開發和維護進行過程監控和研究,以使其更加科學化、標準化、使企業能夠更好地實現商業目標.

三、寫作要注意的:

1、資料、圖等的格式要清楚標準,易於他人使用

2、作圖看重合率時,可以用不同標記(如叉號和方塊)

四、值得學習的:

1、學會為任務分解、排期。