項目實戰-使用PySpark處理文本多分類問題
阿新 • • 發佈:2019-04-13
als pytho enc tps 數據 nbsp des 類目 target
原文鏈接:https://cloud.tencent.com/developer/article/1096712
在大神創作的基礎上,學習了一些新知識,並加以註釋。
TARGET:將舊金山犯罪記錄(San Francisco Crime Description)分類到33個類目中
源代碼及數據集:https://github.com/cymx66688/python.git
一、載入數據集data
1 import time 2 from pyspark.sql import SQLContext 3 from pyspark import SparkContext 4 # 利用spark的csv庫直接載入csv格式的數據5 sc = SparkContext() 6 sqlContext = SQLContext(sc) 7 data = sqlContext.read.format(‘com.databricks.spark.csv‘).options(header=‘true‘, 8 inferschema=‘true‘).load(‘train.csv‘) 9 # 選10000條數據集,減少運行時間 10 data = data.sample(False, 0.01, 100)11 print(data.count())
結果:
8703
1.1 除去與需求無關的列
# 除去一些不要的列,並展示前五行
drop_list = [‘Dates‘, ‘DayOfWeek‘, ‘PdDistrict‘, ‘Resolution‘, ‘Address‘, ‘X‘, ‘Y‘]
data = data.select([column for column in data.columns if column not in drop_list])
data.show(5)
項目實戰-使用PySpark處理文本多分類問題