節目--標籤 0 , 1矩陣的建立（0代表節目有這個標籤，1代表沒有這個標籤）

阿新 • • 發佈：2018-11-04

原始的節目及所包含的標籤型別對應的格式如下：


import pandas as pd
import numpy as np
import os
os.chdir('E:/廣電大資料營銷推薦專案案例/資料清洗/電視節目資訊資料預處理')
tv = pd.read_csv('./wordsbag/dataprocess/data/week/mydata/data1_tv.csv',sep=',',encoding='gbk',header='infer',error_bad_lines=False)
sample = tv.head(100) #選擇電視節目的前100條資料為實驗的樣本資料
movies = sample.filter(regex='program_title|genres_good')  #只提取出節目名稱和標籤型別這兩列資料

(m , n) = movies.shape  #得到行數和列數

data_array = np.array(movies.iloc[0:m+1,:])
print(data_array)
print(type(data_array))

#按指定順序排列所有的標籤
all_labels = ['劇情', '西部', '家庭', '驚悚', '動畫', 
        '愛情', '情色', '運動', '音樂', '災難', 
        '懸疑', '兒童', '短片', '歷史', '動作', 
        '科幻', '傳記', '同性', '冒險', '歌舞',
        '脫口秀', '真人秀', '新聞', '恐怖', '奇幻',
        '犯罪', '喜劇', '紀錄片', '戰爭', '古裝', 
        '武俠', '綜藝' ,'電視劇', '邵氏','電影']
labels_num = len(all_labels)

#按順序提取所有節目的名稱
all_items_name = np.array(movies.iloc[:m+1, 0])[0:]
print(all_items_name)

# 建立一個01矩陣，0表示該節目不屬於該型別，1表示該節目屬於該型別
data_to_be_written = []
for i in range(len(all_items_name)):
     #每個節目的01行向量
     vector = [0] * labels_num
     labels_names = str(data_array[i][1]).split(" / ")
     
     for j in range(len(labels_names)):
         location = all_labels.index(labels_names[j])
         vector[location] = 1
     data_to_be_written.append(vector)
     
# 將01矩陣寫入“備選推薦節目集及所屬型別01矩陣表”
movies_mat = pd.DataFrame(data_to_be_written, index=all_items_name, columns=all_labels)

最終得到下圖所有的矩陣

本例項主要參考https://blog.csdn.net/WuchangI/article/details/80160566

轉自https://blog.csdn.net/WuchangI/article/details/80160566

節目--標籤 0 , 1矩陣的建立（0代表節目有這個標籤，1代表沒有這個標籤）

原始的節目及所包含的標籤型別對應的格式如下： import pandas as pd import numpy as np import os os.chdir('E:/廣電大資料營銷推薦專案案例/資料清洗/電視節目資訊資料預處理') tv = pd.read_csv('./wordsb

R︱Rstudio 1.0版本嚐鮮（R notebook、下載連結、sparkR、程式碼時間測試profile）

每每以為攀得眾山小，可、每每又切實來到起點，大牛們，緩緩腳步來俺筆記葩分享一下吧，please~——————————————————————————— 2016年11月1日，RStudio 1.

0/1揹包問題（回溯法、分支限界法、動態規劃法、貪心法）（C++版）

此篇整理自李老師上課PPT --- On one way by myself（1）問題描述有n個重量分別為{w1，w2，…，wn}的物品，它們的價值分別為{v1，v2，…，vn}，給定一個容量為W的揹包。設計從這些物品中選取一部分物品放入該揹包的方

android5.0協調佈局CoordinatorLayout（第一篇CoordinatorLayout、AppBarLayout、CollapsingToolbarLayout之間的關係詳解）原理

首先從協調佈局最簡單的例子為入口開始分析，由淺到深，看效果圖：此效果如果不用5.0以下的自定義的效果的話，相對麻煩很多，而用5.0的協調佈局的話只需要簡單的寫一個佈局檔案就搞定了，看佈局檔案程式碼 <android.support.design.widget.C

1定時器（springboot 和spring的區別： springboot的配置檔案不用配）

在Spring Boot中使用@Scheduled實現定時任務之前沒有使用Spring Boot的Java風格配置的時候，用XML配置過@Scheduled定時任務，現在都習慣使用Java風格配置了，在此簡單記錄一下Spring Boot的@Scheduled定時任務的實現過程。 1.

讓html標籤以正常文字顯示（評論模組中防止使用者提交惡意的html或javascipt程式碼）

大部分的網站都提供有評論模組以供使用者發表自己的觀點，但是如何防止使用者輸入有惡意攻擊js指令碼呢？比如<script>alert('惡意彈窗')</script>。第一種方法很簡單，使用<xmp></xmp&

Mac OS X中Launchpad的圖標添加刪除方法（添加方法別試了，和Linux很大區別）

com nsh usr folders 單純 ron bsp blank 結構說明：在Mac下的Launchpad圖標添加和刪除都與應用程序的app文件有關，如果單純的只想在Launchpad添加自定義的圖標，然後指定要某條命令運行時，建議不要這麽幹，Launchpad的

SetProcessWorkingSetSize() 方法使內存降低了很多（把內存放到交換區，其實會降低性能）——打開後長時間不使用軟件，會有很長時間的加載過程，原來是這個！

相關 opera UNC 情況下縮小 ole careful however guarantee 在項目中對程序性能優化時，發現用SetProcessWorkingSetSize() 方法使內存降低了很多，於是查閱了相關的資料如下：我的程序為什麽能夠將占用的內存

2018年航空概論課後作業（PS：部分答案不正確，綜合得分：83.6）

方式效率設備形式燃氣產品差值原理基礎 1 【單選題】航空是指載人或不載人的飛行器在地球____的航行活動。 ? A、高空? B、大氣層內? C、宇宙? D、大氣層外我的答案：B 得分： 33.3分 2 【多選題】軍用飛機可分為____兩大類。 ? A、作戰飛

CodeForces - 813C The Tag Game（拉格朗日乘數法，限制條件求最值）

The int main fixed 方法情況 upper typedef 題目【傳送門】http://codeforces.com/problemset/problem/813/C 【題意】給定整數a,b,c,s，求使得 xa yb zc值最大的實數 x,y,z

總結5 （http協議與chorme抓包，cookie,ajax載入爬取）

get 請求：從伺服器獲取資料，並不會對伺服器資源產生影響的，使用get請求（一般情況） post請求：向伺服器傳送資料（登入），上傳檔案等。會對伺服器的資源產生影響的。請求頭常見引數在nttp協議中,向伺服器傳送一個請求,資料分為三部分,第一個是

Ubuntu14.04（估計16.04也可以用，參照的就是16.04）+opencv + caffe(GPU版) + cuDnn超詳細包括報錯

lalalalala~ 經過一星期的折磨，總算把caffe配置好，感謝網上大神們的助攻。查看了好多的部落格，多多少少存在著坑。然後不停的在查詢與修改，終於把caffe裝進自己的碗裡。在成功執行caffe後兩天，特意分享一下caffe的配置過程，幫助後來有需要配置的人。配置過程參考了https

WEB開發Dao層的抽取（獲取泛型的Class物件，實現查詢方法的抽取）

在WEB開發中，用到三層架構中經常會遇到程式碼抽取的情況，例如在dao層中，我們需要對資料庫的基本操作進行抽取例如這樣，在抽取之前我們需要定義抽取類的介面： public interface BaseDao<T> { public void save(T

C語言程式設計：圖書管理系統（超詳細有登入系統，附程式碼和試驗報告）

C課程設計——圖書管理系統 1、題目意義圖書館，作為文獻的聚集地和展示平臺，常常扮演著引領文化前進的角色，是每個大學不可或缺的基礎設施，而圖書管理系統則是一個圖書館能夠正常運轉的關鍵。本次課程設計使用C語言製作程式來實現圖書的登記，刪除，查詢，瀏覽以及讀者的借

python 3.x 爬蟲基礎---正則表示式（案例：爬取貓眼資訊，寫入txt,csv,下載圖片）

python 3.x 爬蟲基礎前言　　正則表示式是對字串的一種邏輯公式，用事先定義好的一些特定字元、及這些特定字元的組合，組成一個“規則的字串”，此字串用來表示對字串的一種“過濾”邏輯。正在在很多開發語言中都存在，而非python獨有。對其知識點進行總結後，會寫一個demo。 1.正

Paul純正美式發音③~發音技巧（三）：連讀（終於知道歌詞中的gonna ，wanna是什麼意思了）

學習英語聽英文歌曲可謂是一個很享受、很輕鬆的學習方法，然而在看歌詞時很多歌詞都看不懂，比如 gonna,wanna, gotta等等，這是啥意思吖，我們正規的教學裡沒有這個單詞吖，今天在聽完Paul的視訊後終於知道它們的由來了，現在分享給大家^_^ &nb

redis 主從配置（完成的是複製的功能，主從資料是同步的）

一個master（主）可以擁有多個slave（從），一個slave又可以擁有多個slave，如此下去，形成了強大的多級伺服器叢集架構比如，將ip為192.168.1.10的機器作為主伺服器，將ip為192.168.1.11的機器作為從伺服器設定主伺服器的配置 bind 192.1

SQL Server附加資料庫報錯（因為它是隻讀的，或者具有隻讀檔案）

查看了資料庫檔案屬性，並不是只讀的。從網上找了幾種方式:：經查閱資料，發現並不是檔案只讀的問題，嚴格說應該是一個“許可權”的問題，當前的SQL Server登入帳號沒有對要附加檔案的可寫許可權，就會出現上述“只讀”的提示，解決辦法有以下幾種： 1.將要附加的檔案拷貝到 SQL Server 預設的

android程序保活實踐（根據鴻洋大神彙總，本人忘性大備份下）

前言程序保活的關鍵點有兩個，一個是程序優先順序的理解，優先順序越高存活機率越大。二是弄清楚哪些場景會導致程序會kill，然後採取下面的策略對各種場景進行優化：提高程序的優先順序在程序被kill之後能夠喚醒程序優先順序Android一般的程序優先順序劃分：1.前臺程序 (Foreground process)2

圖解陣列指標與多維陣列（附：為什麼指標加一，地址不一定加一）

這裡不是單純討論什麼是陣列指標，什麼是指標陣列，而是在掌握了一些知識後再回頭看看陣列指標與陣列到底怎麼理解。（陣列指標：指向陣列的指標。指標陣列：指標構成的陣列）先放上一道題：答案是10,20,30。雖然是很常見的題，對於一個剛開始學C語言可能就可以做出來，但

節目--標籤 0 , 1矩陣的建立（0代表節目有這個標籤，1代表沒有這個標籤）

相關推薦