1. 程式人生 > >京東商品評論的分類預測與LSA、LDA建模

京東商品評論的分類預測與LSA、LDA建模

truncated location sem lsi 說明 網絡 表達 都是 真的

(一)數據準備

1.爬取京東自營店kindle閱讀器的評價數據,對數據進行預處理,使用機器學習算法對評價文本進行輿情分析,預測某用戶對本商品的評價是好評還是差評。通過數據分析與模型分析,推測出不同型號(價格)的kindle具有的特征,並根據每種型號的特征向不同需求的顧客推薦。爬取的數據集中包括“評論”、“字數”、“評論的點贊數”、“評論的評論數”、“評論類型”五列,為了找出價值較高的數據。首先利用主成分分析的方法,將“字數”、“評論的點贊數”、“評論的評論數”作為輸入變量,得到每條數據的權重,而後抽取好評與差評中,權重最高的各50條記錄,進行抽樣,利用抽樣得到的100條數據進行數據分析。

隨後,對評論內容進行結巴分析並去除停用詞及數字、英文等詞(圖2-3),並用詞雲進行結果展示(圖2-4);根據圖2-4的詞雲內容可知,558款kindle好評偏多,它的關鍵詞為“白色”、“喜歡”、“看書”、“閱讀”等,但也有較多“閃屏”、“問題”字眼;928款kindle主要關鍵字為“電子書”、“喜歡”、“保護”、“屏幕”、“售後”等;1258款kindle關鍵字為“喜歡”、“屏幕”、“閱讀”、“物流”等。

                       技術分享圖片 技術分享圖片 技術分享圖片

                         558款            928款             1258款

2.計算詞頻

將分詞後的語句轉換為向量的形式,這裏使用CountVectorizer實現轉換為詞頻;並將句號、評論內容、是否好評、單句詞頻、詞匯總詞頻等存儲到excel中,便於下一步的分析,如圖。

             技術分享圖片

技術分享圖片

3.計算TF-IDF值

TF-IDF是一種常用於信息處理和數據挖掘的加權技術。該技術采用一種統計方法,根據字詞在文本中出現的次數和在整個語料中出現的文檔頻率來計算一個字詞在整個語料中的重要程度。它的優點是能過濾掉一些常見的卻無關緊要本的詞語,同時保留影響整個文本的重要字詞。TF-IDF權重計算方法主要用到兩個類:CountVectorizer和TfidfTransformer。

①CountVectorizer。CountVectorizer類會將文本中的詞語轉換為詞頻矩陣,例如矩陣中包含一個元素a[i][j],它表示j詞在i類文本下的詞頻。它通過fit_transform函數計算各個詞語出現的次數,通過get_feature_names()可獲取詞袋中所有文本的關鍵字,通過toarray()可看到詞頻矩陣的結果。②TfidfTransformer用於統計vectorizer中每個詞語的TF-IDF值。

下圖2-7、2-8是計算評論TF-IDF值的主要代碼及結果展示。

                技術分享圖片

                                       2-7 計算評論TF-IDF值

                             技術分享圖片

                                       2-8 TF-IDF值展示

(二)模型構建

模型構建前用LassoCV回歸模型進行特征選擇,對整個數據集降維,再先後構建決策樹、樸素貝葉斯模型。

1.特征選擇

首先,這裏用生成的詞向量文件舉例,觀察數據預處理中得到的數據集特征。該數據集其實是一個大型的稀疏矩陣,該矩陣中零元素占大多數且維度很高,如1258款的數據集除目標變量“是否好評”外,一共有720個自變量(分出來的全部詞)。其實,裏面大多數的詞對於目標變量沒有重要價值,如果全部作為模型的輸入變量,構建出模型的質量不會太好,所以很有必要對數據集進行特征選擇。

由於該數據集是高緯度稀疏矩陣, LassoCV回歸模型正好擅長在高緯度系數矩陣中的一堆特征裏面找出對應於目標變量主要的特征,該模型的效果是,可以使得一些特征的系數較小,並使一些絕對值較小的系數直接變為0,如果該變量的系數為0,則說明這個變量不重要,這樣就可以在後續的操作中根據這個把不重要的變量篩選掉,從而增強模型的泛化能力,因此可以通過該模型計算出各個變量系數的結果來區分變量的重要性,以及篩選掉那些並不重要的變量

如圖3-1所示,可知該模型信息與該模型最終篩選掉了653個無關變量,最終保留了67個重要變量。

                           技術分享圖片

                          技術分享圖片

                                             LassoCV回歸模型

再將模型結果根據計算出的系數進行排序,打印出前20個和後20個進行觀察,如圖所示。

                               技術分享圖片

                         技術分享圖片技術分享圖片

                              技術分享圖片技術分享圖片

3.構建樸素貝葉斯、神經網絡模型

1)訓練樸素貝葉斯模型使用tf-idf值的文件,同樣經過LassoCV回歸模型特征選擇後,采用訓練集70%,測試集30%的模式進行模型的訓練與測試,如圖3-8所示,其模型準確率與決策樹一樣達到97%,召回率與F值均為97%,模型效果很好。

                        技術分享圖片

                    技術分享圖片

                                       3-8 樸素貝葉斯模型

2)訓練神經網絡同樣使用與樸素貝葉斯一樣的數據集,模型構建及測試如圖3-9所示,測試集中有28個預測正確,準確率達到93.3%,召回率與F值均為93%,模型效果不錯。

                       技術分享圖片

                                      圖 3-9 神經網絡模型

4.模型結論

對模型結果進行分析,首先我們分析特征選擇模型篩選出的對於顧客體驗有關聯的40個詞,把每種型號的詞分為“與商品特征相關”、“與客戶體驗相關”兩類詞,同時剔除無關詞語如:

1.情緒化詞語(對於推測商品特征沒幫助),如‘喜歡‘、‘不好‘、‘強烈推薦、‘沒用

2.詞意不確定的詞語

3.無意義詞語,結合決策樹中的關鍵詞,最終得出結論如下表所示。

558款

928款

1258款

與商品特征相關

‘跳字‘,‘插頭‘,‘彩色‘,‘功能‘,‘光線‘,‘輕便‘,‘白色‘

‘黑色‘,‘處理速度‘,‘字跡‘,‘充電‘,‘保護套‘,‘分辨率‘

‘保護套‘,‘電量‘,‘數據線‘,‘味道‘,‘塑料‘,‘屏幕‘,‘紙質‘,‘內存‘

與客戶體驗相關

‘劃痕‘,‘服務態度‘,‘好看‘,‘方便‘,‘眼睛‘,‘輕便‘,‘沈沈的‘

‘堪比‘,‘糾結‘,‘輕便‘,‘眼睛‘,‘舒服‘,‘晚上‘

‘用券‘,‘價格‘,‘免息‘,‘方便‘,‘禮物‘

官方數據

入門款

分辨率:167ppi

無閱讀燈

重量:161克

內存:4G

防水:無

經典款

分辨率:300ppi

有閱讀燈

重量:161克

內存:8G

防水:IPX8

漫畫款

分辨率:300ppi

有閱讀燈

重量:161克

內存:32G

防水:IPX8

決策樹重要詞語(括號中為補充解釋)

‘方便‘、(受歡迎)‘白色‘、(不)‘傷眼‘

(重要)‘晚上‘、‘輕便‘、(美觀)‘保護套‘

(好)‘屏幕‘、(價格)‘免息‘、‘方便‘

結論

入門款有基礎功能,購買該款的人群主要為了方便、不傷眼看書舒服,要求較低。該款白色更受歡迎,側面說明購買該款的人女性居多

經典款在入門款的基礎上加了閱讀燈,提升了分辨率。購買該款的人群相比於入門款主要為了閱讀輕便舒服、晚上閱讀方便、分辨率更高、處理速度更快。且比入門款更加在意保護套,說明購買這一款的人群更加註重美觀

漫畫款在經典款的基礎上增加了大內存。購買該款的人群主要為了高質量的屏幕以及大的內存。由於該款價格較高,購買的人較註意購買時分期免息的優惠。側面說明購買kindle的人群價格接受分界線在1000元左右

(三)數據分析

主題分析-潛在語義分析模型(LSA)與文檔主題生成模型(LDA)

1 傳統向量空間模型的缺陷

向量空間模型簡單的基於單詞的出現與否以及TF-IDF等信息來進行檢索,但是“說了或者寫了哪些單詞”和“真正想表達的意思”之間有很大的區別,其中兩 個重要的阻礙是單詞的多義性(polysems)和同義性(synonymys)。多義性指的是一個單詞可能有多個意思,比如Apple,既可以指水果蘋果,也可以指蘋果公司;而同義性指的是多個不同的詞可能表示同樣的意思,比如search和find。

2 潛在語義分析模型(LSA)

我們希望找到一種模型,能夠捕獲到單詞之間的相關性。如果兩個單詞之間有很強的相關性,那麽當一個單詞出現時,往往意味著另一個單詞也應該出現(同義詞);反之,如果查詢語句或者文檔中的某個單詞和其他單詞的相關性都不大,那麽這個詞很可能表示的是另外一個意思(比如在討論互聯網的文章中,Apple 更可能指的是Apple公司,而不是水果) 。

LSA(LSI)使用SVD來對單詞-文檔矩陣進行分解。SVD可以看作是從單詞-文檔矩陣中發現不相關的索引變量(因子),將原來的數據映射到語義空間內。在單詞-文檔矩陣中不相似的兩個文檔,可能在語義空間內比較相似。我們是一個使用sklearn中的TruncatedSVD進行文本主題分析。

1)實現步驟

(1)將數據填充空白值處理後抽樣50條差評(或差評)。

(2)分詞、停用詞處理得到如圖4-1的結果。

(3)將(2)的結果作為輸入,調用TfidfVectorizer.fit_transform方法得到詞向量矩陣

(4)設定主題數、能代表主題的文檔數、主題的關鍵詞數,調用TruncatedSVD方法處理

(5)打印結果。

2)結論解讀

我們選定3個有代表性的主題(topic),每個主題選取3個代表性的文檔,每個主題選取5個關鍵詞(key word)。得到結果如表3-1,3-2所示。

4-1 差評結果(實例)

topic 0

topic 1

topic 2

Keyword 0

京東

翻頁

客服

Keyword 1

東西

屏幕

不好

Keyword 2

快遞

左側

態度

Keyword 3

客服

一頁

咨詢

doc 0

快遞超級慢,本來送給老師的教師節禮物,竟然過了幾天才到!不是說京東自營第二天可以送達的嗎?又欺騙顧客,投訴還無效~~第一次這麽失望

沒有送充電頭,屏幕感覺還行,右側翻頁沒問題,左側翻頁混亂,經常是左側也是下一頁

買到的kindle有問題,咨詢客服,態度很差,很不好的一次購買體驗!

doc 1

第一次碰到這麽慢的京東快遞,絕對差評,以後買東西要考慮轉其他商城了。差評差評差評

東西收到了,感覺不錯,屏幕翻頁的時候很閃,很不習慣,答應送的50元購書劵沒有送,差評

不到倆月,出現三次這個情況,前兩次自己解決了。這次徹底壞了,練習了售後,說是更換一個官方維修機。哎……可能是運氣不好吧

doc 2

失望至極 朋友說京東自營可以 結果一直閃屏 真不知道網評那麽好哪來的 便宜無好貨 哎上當

顯示屏保的時候居然能看到下面一頁的字!翻頁的時候閃到頭暈,翻頁過程中經常出現黑色的屏閃,朋友家的那個就沒有這種問題!

不滿意,有問題咨詢。買之前客戶態度很好。買過以後態度惡劣。連消息都不理。過段差評。而且註冊賬號,我了過涼。簡直要人命

在此例中,3個topic可以理解為京東快遞、屏幕及翻頁、客服態度。這時便可向消費者傳遞信息,此商品的槽點在於京東快遞不給力,屏幕和翻頁問題,客服態度差。若消費害怕出現上述同樣的問題,則不推薦購買。

4-2 好評結果(實例)

topic 0

topic 1

topic 2

Keyword 0

看書

屏幕

閃屏

Keyword 1

真的

入門

現象

Keyword 2

閱讀

完美

真的

Keyword 3

不錯

舒服

接受

doc 0

買 正好 新品 下手 拿到 失望 閱讀 效果 確實 很棒 特別 電子 墨水 屏 真的 舒服 一點 不 傷 眼睛 關鍵 紙 快遞 很快 包裝 確實 令人 失望 裸機 加 塑料包裝 真的 擔心 物流 中途 機子 弄爛 幸好 看書 買個 操作 遲鈍 換 閃 手機 靈敏 閱讀 體驗 很棒 系統 算是 預期 效果

入門 版 閱讀 燈 屏幕 不平 新版 猶豫 久 到貨 查看 手感 棒 入門 版款 更讓人 心動 廣告 關 速度 很快 後期 反饋 可用 容量 自我感覺 舒服

閃屏 現象 之外 操作 延遲 接受 心理準備 不錯 產品 期待 很 久 閱讀器 喜歡 包裝 真的 簡單 粗暴 哈哈哈哈

doc 1

閱讀器 買 評價 質量 不錯 輕 出門 攜帶 輕巧 負擔 放 包裏 沒什麽 京東 物流 不錯 快遞 師傅 態度 機器 包裝 簡單 操作 繁瑣 平時 手機 習慣 習慣 幾本書 看書 閃頻 還好 確實 眼 晴好 受點 買 想 戒 手機 不知 戒 會員 優惠 點太力 機器 到手 顏值力 字 調節 買 外殼 隨身帶 研究 透 機器 開機 待機時間 還好 希望 閱讀 體驗

壓 泡面 神器 閱讀 燈光 線 均勻 屏幕 平整 再藏塵 升級 超值 續航 差點 天 充電 顯示 效果 細膩 入門 款 好多 字號 字體大小 入門 款 一點

關註 新品 很 久 下單 心心念念 物流 特別 其他人 說 包裝 簡陋 挺書券 充電器 充電 開機 卡頓 閃屏 現象 閱讀 一會 閃屏 現象 發現 減少 閃屏 技巧 翻頁 按著 左下角 部位 按著 左下角 稍微 往 上 部位 閃屏 閱讀 體驗 喜歡

doc 2

入手 晚超 愛 閱讀 早買 神器 手機 看書 眼睛 實在 受不了 幹澀 發漲 電子 墨水 紙書 手機 強太 安心 看書 閃屏 不可避免 接受 乳鴨圖 保護 殼 做工 不錯 套 好看

入門 版 閱讀 燈 屏幕 不平 新版 猶豫 久 到貨 查看 手感 棒 入門 版款 更讓人 心動 廣告 關 速度 很快 後期 反饋 可用 容量 自我感覺 舒服

物流 超級 早上 九點 前 拍 當天 下午 四五點 收到 機器 迷你 放 接口 比例 視覺效果 不錯 紙質 書 待機 顯示 內容 書本 間歇 翻頁 閃屏 技術 辦法 解決 依然

在此例中,3個topic可以理解為看書閱讀、屏幕完美、閃屏。這時便可向消費者傳遞信息,該商品的亮點在於看書閱讀體驗好,屏幕體驗效果好,但存在閃屏現象需要註意,不過問題不大。

以往消費者購買某商品,需要瀏覽大量評論並反復對比好評差評,LSA精簡了評論信息,不僅能實現一定程度的聚類,幫助篩選主要信息,提取關鍵詞,更能將有代表性的具體文檔提供提給消費者,為語義分析提供一定的依據。

3LSA的不足與LDA的優點

上例中,LSA對TF-IDF進行處理得出結論,而IDF值的大小表示某詞在所有文檔中重要程度,IDF值越大,說明某詞區別於其他詞的程度就越大;相反,在所有的差評或好評中,我們希望找到大家共同出現的問題,對於某些個別問題我們可以忽略。同時,LSA利用分解SVD進行處理,主要是對分類任務進行降維。消除了同義詞、多義詞的影響,但LSA的概率模型假設文檔和詞的分布是服從聯合正態分布的,但從觀測數據來看是服從泊松分布。LDA(Latent Dirichlet Allocation)是一種文檔主題生成模型,也稱為一個三層貝葉斯概率模型,包含詞、主題和文檔三層結構。所謂生成模型,就是說,我們認為一篇文章的每個詞都是通過“以一定概率選擇了某個主題,並從這個主題中以一定概率選擇某個詞語”這樣一個過程得到。文檔到主題服從多項式分布,主題到詞服從多項式分布。將每一篇文檔視為一個詞頻向量,從而將文本信息轉化為了易於建模的數字信息。但是詞袋方法沒有考慮詞與詞之間的順序,這簡化了問題的復雜性,同時也為模型的改進提供了契機。每一篇文檔代表了一些主題所構成的一個概率分布,而每一個主題又代表了很多單詞所構成的一個概率分布。

4LDA實現及結果

1)權重排序後抽樣好評差評各50條

2)處理數據得到詞頻矩陣

3)設定主題數、關鍵詞數、支持文檔數

4)調用LatentDirichletAllocation方法進行處理得到表4-3和4-4的結果

4-3 差評結果(實例)

topic 0

topic 1

topic 2

Keyword 0

京東

客服

退貨

Keyword 1

下單

東西

不好

Keyword 2

購物

套裝

時間

Keyword 3

商品

不錯

閃屏

doc 0

吐槽 京東 定價 體系 價格 變 充分利用 規則 月 日 下單 買個 套裝 元 說 保價 天到 第天 價格 元書券 元書券 外殼 顏色 有變 客服 電話 教科書 式 道歉 關註 促銷 活動 商品 解決 價格 短時間 隨意 變 任性 變 遭遇 幾次 吃虧 留意到 關註 傻子 耍 想想 細思極 恐 京東 只能 比價 下單 真買

物流 磨磨 唧唧 倒 說 發貨 慢 貨品 早 配送 站 平時 速度 配送 速度 速度 東西 配送 站 早晨 躺 屍 物流 信息 派送 信息 實在 焦急 問 網上 客服 回應 通知 告訴 東北 下雪 影響 下雪 天氣 依舊 派送 期間 無數次 騷擾 客服 答案 依舊 換 電話 客服 手機號 催說 地址 詳細 送錯 配送 站 幫 轉交 送過來 告知 丟件 問錢 說一千 這才 調 監控 仔細 排查 中午 找到 去向 下午 送來 算算 配送 站 第三天 送來 期間 態度 不錯 配送 流程 紮心 操碎 母親 心

第一 時間 預訂 此款 第一 時間 付 尾款 預訂 多花 塊錢 發貨 拖 半個 多月 好多 買 收到 貨 焦急 等待 中 一個多月 送 電子書 券未 到 賬 不知 猴年馬月

doc 1

商品 京東 服務 套裝 寄過來 變 裸機 投訴 告知 外殼 選 京東 購物 糟心 京東 服務 越來越 差

補發 購書 券 售後 態度 超級 解決 京東 專屬 客服 店鋪 客服 兩邊 踢皮球 可想而知 真 碰到問題 京東 售後 坑

特別 不好 打開 閃屏 做 操作 差點 眼鏡 晃壞 果斷 退貨

doc 2

商品 不錯 京東 物流 只用 袋子 送過來 袋子 折損 好好 包裝 套裝 售貨 清單 裏 外殼 發過來 外殼 返京 豆 不爽

閱讀器 皮套 訂 收到 閱讀器 保護套 沒收 兩個 包裹 京東 快遞 員 說 包裹 問 客服 沒 人 回應

莫名其妙 商店 英文 賬戶 買書 找 不到 這是 第三個 前 兩個 設置 情況 先是 半天 不上 賬號 買 書 一本 找 不到

在此例中,3個topic可以理解為商品折損,物流慢,閃屏。消費者購買時需要主要這些問題。

4-4 好評結果(實例)

topic 0

topic 1

topic 2

Keyword 0

屏幕

屏幕

看書

Keyword 1

閱讀

完美

不錯

Keyword 2

入門

看書

閱讀

Keyword 3

終於

不錯

真的

doc 0

心 水 終於 到手 有過 一款 一代 送給 朋友 想著 買 終於 入手 一代 摸 質感 更好 重 顯示 效果 那種 清晰 簡單 配置 推薦 糾結 容量 小夥伴 買 版本 反饋 周期長 看書 實際上 夠用 都行 翻倍 不行 哈哈哈 真的 值得

基礎 班 用戶 買 基礎 版 擔心 吃 灰 發現 好用 升級 理由 因素 像素 說 基礎 版 夠用 真的 無法忍受 毛刺 感 很 強 忘記 屏幕 電子 背光 因素 基礎 版 背光 確實 場景 一體化 屏幕 清爽 不易 積灰 整體性 更強 內存 升級 意義

閱讀器 買 評價 質量 不錯 輕 出門 攜帶 輕巧 負擔 放 包裏 沒什麽 京東 物流 不錯 快遞 師傅 態度 機器 包裝 簡單 操作 繁瑣 平時 手機 習慣 習慣 幾本書 看書 閃頻 還好 確實 眼 晴好 受點 買 想 戒 手機 不知 戒 會員 優惠 點太力 機器 到手 顏值力 字 調節 買 外殼 隨身帶 研究 透 機器 開機 待機時間 還好 希望 閱讀 體驗

doc 1

這 是 家 第三個 新款 入門 版 分辨率 高初 代高加 註音 反應速度 初代 流暢 出廠 固件 系統 最新 客服 建議 官網 更新 鏈接 下載 費勁 放棄 尺寸 初代 輕薄 屏幕 邊框 一體 插頭 挺好用 評論 屏幕 壞點 廣告 挺 喜歡 推薦書 想著 關新 服務 書 找到 關鍵 書 設備 太 春節 京東 送貨 贊

帶質 保單 公司 同事 買 領導 推薦書 電子書 不錯 書 夠用 字體 調節 大小 調整 亮度 免費 推送 文章 不錯 夠用 快遞 太 簡陋 原裝 薄 盒子 屏幕 壓碎 幸好 順豐 快遞 肯定 摔次

買 正好 新品 下手 拿到 失望 閱讀 效果 確實 很棒 特別 電子 墨水 屏 真的 舒服 一點 不 傷 眼睛 關鍵 紙 快遞 很快 包裝 確實 令人 失望 裸機 加 塑料包裝 真的 擔心 物流 中途 機子 弄爛 幸好 看書 買個 操作 遲鈍 換 閃 手機 靈敏 閱讀 體驗 很棒 系統 算是 預期 效果

doc 2

利益 相關 用戶 先 評價 超級 贊取 快遞 拿錯 真的 超薄 工藝 更新換代 新 屏幕 陰陽 屏 反正 屏幕 壞點 多存 點兒 書以 供 出差 路上 買 實有 接受 系統 存儲管理 軟件 占 一部分 容量 防水 仔細 想想 真的 超贊 生活 中 威脅 解決 買 順便 買 套子 平時 愛惜 不用 買膜 超贊 跟前 一代 相比 陰陽 屏 真的 屏幕 歪斜 贊

平面 很爽 待機時間 蠻長配 套餐 買 外殼 不錯 看書 網購 有時候 懶得 評價 京東 配送 服務 一流 送貨 快遞 員 態度 送貨上門 希望 京東 越做越 提供 更好 商品 服務

久 評論 壓 泡面 神器 看書 真的 躺 床上 用手 不 累加 殼 加殼 磁吸 控制 屏幕 喚醒 睡眠 晚上 睡不著 看看書 瞬間 想 睡覺 清晰度 夠 放大 用眼 真的 舒服 比看 電腦 舒服 不用 打印 適合 深度 閱讀 文獻 適合 快速 瀏覽 文獻 翻頁 真的 慢 用 郵件 小說 算 反應速度 真的 很慢 很慢 用慣 手機 電腦 肯定 莫名 緩慢 反應速度 有利於 專註 閱讀 狀態 說 神器 值得 擁有

這三個topic可以理解為商品入手體驗好,屏幕清爽,看書體驗好。若滿足消費者需求,則可以考慮購買。

3數據分析結論

通過以上介紹的方法,分析數據集,分別得出三款kindle的好評、差評結論

558款關鍵詞及解讀

928款關鍵詞及解讀

1258款關鍵詞及解讀

好評

京東, 喜歡, 特別, 看書

電子書, 喜歡, 開心, 希望

屏幕, 閱讀, 入門, 終於

閱讀, 真的, 不錯, 學生

不錯, 閱讀, 看書, 喜歡

屏幕, 完美, 看書, 不錯

看書, 喜歡, 白色, 晚上

真的, 京東, 手機, 體驗

看書, 不錯, 閱讀, 真的

快遞服務好,閱讀體驗好,白色好看

護眼,專註閱讀,比手機閱讀體驗好

商品入手體驗好,屏幕清爽,看書體驗好

差評

充電, 翻頁, 收到, 一點

電子書, 錯誤, 內容, 兩天

京東, 下單, 購物, 商品

京東, 自營, 電子書, 失望

屏幕, 閃屏, 郁悶, 確實

客服, 東西, 套裝, 不錯

客服, 產品, 包裝, 體驗

京東, 東西, 不錯, 看書

退貨, 不好, 時間, 閃屏

充電充不進去,客服態度差,京東自營物流和設備差

電子書內容少,屏幕閃屏

商品折損,物流慢,閃屏。

京東商品評論的分類預測與LSA、LDA建模