機械學習——學習進度記錄
python-mod 記錄
已完成的相關程式段
Python有無代理的簡單爬蟲程式
Python基於已有爬蟲資料的資料處理程式
基於 linear model 的口袋妖怪cp值預測(課堂作業練習)
機械學習與深度學習課程
機械學習課程連結(臺灣大學-李巨集毅版本)
學習進度——周(12號)
學習筆記:
mod建立
根據已經接觸的程式碼程式,def相關常用函式,為之後變成建立相對方便查詢與使用的程式碼庫。同時熟悉各個函式的使用細節。
完成無代理無隨機暫停無headers偽裝的爬蟲軟體,並執行獲取資訊。
毫無偽裝的程式碼在資料爬去進行到2/3左右時被發現並403查封。
嘗試對爬蟲進行偽裝,在其中加入hearders偽裝,加入隨機0到1的時間暫停,同時引入代理伺服器。由於免費代理伺服器極度不穩定,所以迴圈呼叫所有爬去到的代理地址,對所需開啟的網站進行嘗試,知道成功開啟並爬去到相關資訊。
執行已完成偽裝的爬蟲軟體,由於代理伺服器的不固定,需要迴圈驗證,爬去速度降低到接近1分鐘一個網頁的速度,對於整體2600多頁的網頁內容,速度過於緩慢,所以在權衡後,刪除了代理的使用,僅以隨機暫停,與隨機hearders進行偽裝。
成功爬去到所有資訊。(期間由於關閉過一次,忘記清楚原有資訊,所以總資料為5000多條)
對爬取到的資訊進行整理(主要是對一些列表資料進行重新劃分,去除\s的無用資訊,並通過一定的加權方法,最終計算得到使用者在所有種類的電影中最喜歡的一類。)
ps:完成代理與非代理爬蟲程式和其資料處理程式。
學習進度——周(19號)
學習筆記:
瞭解現代機械學習的基本分類:
supervised learning (最高效的學習方法,但需要的資料量極大) #之後的的機械學習方法資料使用量逐漸降低,學習效率逐漸下降
semi-supervised learning
transfor learning
unsupervised learning
reinforcement learning
Linear Model:
f(x)=b+w1*x+w2*x2+… …+wn*xn
——基礎的線性迴歸公式
L(f)=
——基礎的誤差分析公式
Gradient Descent——以種隨機過程,存在global minimun 不等於logical minimum的可能性
過程:
(Randomly)pick an initial value
Compute
w1=wb-
Regularization 一種使擬合曲線平滑化的處理方法
定義: L(f)=
Linear Model 作業
深度學習可曾連結(臺灣大學-李巨集毅版本)
相關推薦
機械學習——學習進度記錄
python-mod 記錄 已完成的相關程式段 Python有無代理的簡單爬蟲程式 Python基於已有爬蟲資料的資料處理程式 基於 linear model 的口袋妖怪cp值預測(課堂作業練習) 機械學習與深度學習課程 機械學習課程連結(臺灣大學-李巨
學習進度記錄
代碼行數 text pac pan size 學習 ext border style 周次 (閱讀/編寫)代碼行數 發布博客量/博客評論數量 課堂/課余學習時間(小時) 最滿意的編程任務 第1周 30/15 1/2 6/5
awk學習隨常記錄
awk回顧:字符串處理數組: 數組 : declare -a index: 0- 關聯數組 : declare -A編程:數據結構和算法字符串處理: 切片、查找替換、查找刪除、變量賦值GUN awk: 文本處理三工具: grep ,sed ,awk grep:grep、eg
python學習之-- 故障記錄
修改 文件大小 類型 nic quest rac pos iter obj 以下為我編程期間遇到的錯誤並進行記錄,起始時間2017-6-21----------------------------------------Exception happened during p
Kvm學習文檔記錄
lib 操作 exe cpu 創建虛擬機 選項 start edi 目錄 一、實驗環境: 在vmware上打開vt支持選項: 操作系統信息: [[email protected]/* */ ~]# cat /etc/issue CentOS relea
canvas學習之路--記錄(二)
繪制圖形 ext.get 繼續 set ket length 偏移 上下文對象 asp 接著上面... 一、圖形組合 當我們在canvas中繪制的圖形重合在一起的時候,能看到哪個圖形則完全取決於圖形的繪制順序(後繪制的圖形會覆蓋掉之前繪制的圖形,當然,如果後面繪制的圖形顏色
spacemacs及python學習-坑之記錄
window load connect conf 計劃 -m clone ant 目錄 Table of Contents 1. spacemacs 1.1. .spacemacs 文件 1.2. 項目文件 1.3. open shell windows 1.4.
老男孩Linux運維第41期20170917開班第四周學習重點課堂記錄
linux運維 學習重點 課堂記錄第1章 必知必會文件配置文件位置該文件作用/etc/sysconfig/network-scripts/ifcfg-eth0第一塊網卡的配置文件 同setup中的network/etc/resolv.conf客戶端DNS配置文件,優先級低於網卡配置文件/etc/hosts主要
Create-React-App創建antd-mobile開發環境(學習中的記錄)
bpa css rar add strong 打包 nod www. 新版 (參考別人結合自己的整理得出,若有錯誤請大神指出) Facebook 官方推出Create-React-App腳手架,基本可以零配置搭建基於webpack的React開發環境,內置了熱更新等功能。
MongoDB學習--環境搭建記錄
文件 .com sea 密碼 chkconfig 密鑰 win -- 啟動 Mongo安裝教程,參考英文官網 基本命令, 索引的引用,索引基於地理位置的數據, win10 64位 系統中安裝虛擬機 win10 系統中安裝虛擬機VMwareWorkstation11 並安裝
OpenCV學習代碼記錄——人臉檢測
puts tro 按鍵 img IE source cpu cpp gray 很久之前學習過一段時間的OpenCV,當時沒有做什麽筆記,但是代碼都還在,這裏把它貼出來做個記錄。 代碼放在碼雲上,地址在這裏https://gitee.com/solym/OpenCVTest/
OpenCV學習代碼記錄——canny邊緣檢測
scalar pos down 輸入 canny emp 函數 color 什麽 很久之前學習過一段時間的OpenCV,當時沒有做什麽筆記,但是代碼都還在,這裏把它貼出來做個記錄。 代碼放在碼雲上,地址在這裏https://gitee.com/solym/OpenCVTes
OpenCV學習代碼記錄——Hough線段檢測
point -m ann art uri 失敗 pen detection 讀取 很久之前學習過一段時間的OpenCV,當時沒有做什麽筆記,但是代碼都還在,這裏把它貼出來做個記錄。 代碼放在碼雲上,地址在這裏https://gitee.com/solym/OpenCVTes
四月學習知識點列表記錄
最小表示法 kmp isp dfs str 記錄 ash floyed style 圖論: 1.基本鄰接表,鄰接矩陣即其dfs,bfs 2.最短路: <1>floyed <2>dijlstra <3&g
JavaScript入門學習(2)--進度條
tel htm type () doc element TE light document <html> <style type="text/css"> #bar{width:0px; height:20px; background:#e
Django學習踩坑記錄
drivers windows IV TE 端口號 system32 localhost bsp oca 這是個補坑過程的記錄。可補充。 1、啟動django的時候報錯 原因:端口被酷狗占用 解決辦法:指定端口號 2、運行啟動時報錯 解決辦法將C:\Windo
PCA(matlab)學習,與記錄
目前 2.7 details 4.2 hot matlab 地址 統計 6.0 最近學習ML(Matlab),用到了PCA,參考了網上的一些資料,現在總結如下,以後忘記的話,可以回來看看。參考地址:https://blog.csdn.net/qq1987924/articl
數據庫學習(2) ----- 表記錄的操作
set 最重要的 exp 創建 說了 簡單 aso 一點 深入 在上一篇的學習中,我們學習了如何創建數據庫和表,同時也簡單的進行了表的操作,如插入記錄,這次就讓我們深入學習一下表的操作。表主要是用來存儲數據的,對於數據而言,最主要的就是增刪改查。 首先就是增加數據,
嵌入式開發學習(持續記錄)
http make all 安裝 sta none oid tool 助手 (1)安裝工具(在Ubuntu下面的工具) 1.安裝交叉編譯工具鏈 https://www.veryarm.com/arm-none-linux-gnueabi-gcc 在這個裏面可以下載一個
Koa2學習系列09-記錄日誌——開發日誌中介軟體,記錄專案中的各種形式資訊
log 日誌中介軟體 最困難的事情就是認識自己。 在一個真實的專案中,開發只是整個投入的一小部分,版本迭代和後期維護佔了極其重要的部分。專案上線運轉起來之後,我們如何知道專案運轉的狀態呢?如何發現線上存在的問題,如何及時進行補救呢?記錄日誌就是解決困擾的關鍵方