nlp電商搜尋比賽學習筆記-第一輪

阿新 • • 發佈：2022-03-15

學習網址：https://github.com/datawhalechina/team-learning-data-mining/tree/master/ECommerceSearch

第一輪任務：

任務1：環境配置、實踐資料下載

任務內容：
- 從比賽官網下載資料集，並使用Python讀取資料
- 使用jieba對文字進行分詞
- 使用TFIDF對文字進行編碼
- 思考如何使用TFIDF計算文字相似度？
學習資料：https://coggle.club/blog/tianchi-open-search

1、讀取資料：

import pandas as pd
import numpy as np
data = pd.read_csv('train.query.txt',sep='\t',header=None)

2、使用jieba

import jieba
test2 = jieba.cut(data.iloc[0][1], cut_all=False)
print("精確模式: " + "| ".join(test2))

3、使用TFIDF

class TfIdf(object):
    def __init__(self, corpus):
        self.corpus = corpus
        self.vocab = self.get_vocab()
 
    def get_vocab(self):
        vocab = list()
        for doc in self.corpus:
            for w in jieba.lcut(doc):
                if w not in vocab and len(w) > 1:
                    vocab.append(w)
        return vocab
 
    def get_tfidf(self, doc):
        item_tfidf = dict()
        wordList = [w for w in jieba.lcut(doc)]
        wordSet = set([w for w in wordList if len(w) > 1])
        doclen = len(wordList)
        corpuslen = len(self.corpus)
        for word in wordSet:
            tf = wordList.count(word) / doclen
            idf = math.log(corpuslen + 1 / (len([1 for doc in self.corpus if word in jieba.lcut(doc)]) + 1)) + 1  # 平滑處理
            # idf = math.log10(corpuslen + 1 / (len(['' for doc in self.corpus if word in doc]) + 1)) + 1  # 平滑處理
            item_tfidf[word] = tf * idf
        return item_tfidf
 
    def transform(self, item_tfidf):
        arr = list()
        for w in self.vocab:
            arr.append(item_tfidf.get(w, 0.0))
        return np.array(arr).reshape([-1, len(self.vocab)])
 
    def run(self, mode=1):
        item_rst = dict()
        array_rst = np.empty([0, len(self.vocab)])
        for idx, doc in enumerate(self.corpus):
            item_tfidf = self.get_tfidf(doc)
            item_rst[idx] = item_tfidf
            arr = self.transform(item_tfidf)
            arr /= np.sqrt(np.sum(np.power(arr, 2)))  # l2正則
            array_rst = np.append(array_rst, arr, axis=0)
        if mode == 0:
            return item_rst
        elif mode == 1:
            return array_rst

nlp電商搜尋比賽學習筆記-第一輪

學習網址：https://github.com/datawhalechina/team-learning-data-mining/tree/master/ECommerceSearch

前端入職學習筆記-第一週第四天

學習路徑 Node.js· 1、Node.js入門 1.1 構建基礎的HTTP伺服器讓我們先從伺服器模組開始。在你的專案的根目錄下建立一個叫server.js的檔案，並寫入以下程式碼：

dubbo學習筆記第一章 zookeeper安裝配置

dubbo的實際使用中，基本都是使用zookeeper來管理它的服務，以及實現分散式呼叫。至於zookeeper是什麼，具有什麼使用者，大家可以百度搜索瞭解一下。實際生產環境中，zookeeper的應用服務數目，基本都是

《高效能MySQL》學習筆記——第一章 MySQL架構與歷史

第一章 MySQL架構與歷史 1.1 MySQL邏輯架構第一層：連線、執行緒處理、授權認證、安全等

SQL學習筆記----第一天

技術標籤：sql學習sql資料庫通過With子句檢索學生選課名字、高校歸屬城市名----目錄

Kubernetes學習筆記第一階段煉氣期（2-4 周，每週 3-5 小時）

技術標籤：Kuberneteskubernetes 基礎知識參考本文由才雲科技（Caicloud）於 2019 年內部推出，現以開源的形式進行維護，網址在https://github.com/caicloud/kube-ladder

Java學習筆記第一章類與物件

技術標籤：java程式語言封裝第一章類與物件 1.1 面向物件面向物件三個主要特徵：

Matlab學習筆記第一天

本教程筆記以 Matlab 2020b 官網文件為主，需要入門的dalao可以自行查詢官方文件

吳恩達-機器學習筆記-第一章

參考：機器學習筆記： 1.2機器學習是什麼？即使是在機器學習的專業人士中，也不存在一個被廣泛認可的定義來準確定義機器學習是什麼或不是什麼

OpenGL學習筆記-第一節

OpenGL是Khronos組織（https://www.khronos.org/）制定並且維護的規範，這個規範嚴格規定了每個操作圖形、圖形的函式該如何執行，以及它們的輸出值，但並不關注函式本身如何實現。函式具體如何實現由OpenGL庫的開發

2022-3-28 CSAPP學習筆記(第一章+第二章到2.2.4)

CSAPP(深入理解計算機系統) 計算機系統漫遊資訊表示和處理資訊儲存(Infomation Storage)

Unity3D學習筆記第一課

第一課程： 1.Unity類名必須與檔名保持一致 2.講屬性設定為public可以在Unity中訪問

前端學習筆記JavaScript - 輪播圖二（動畫）

帶動畫輪播圖預覽圖程式碼 html程式碼 <div> <ul> <li><img src="IMG/ad1.jpg" alt="1"></li>

微服務分散式電商專案學習筆記（三）---- docker介紹安裝以及使用docker安裝軟體（2020/7/1）

其實在介紹docker的使用和安裝之前應該還要介紹虛擬機器的安裝與配置，以及虛擬網路的配置，但是我使用的是vmware，而視訊課使用的是vagrant，這一塊我簡看的，因此沒有過多的介紹，至於vmware的安裝配置和虛擬網路

Java講義第一章學習筆記

Chapter 1 Java語言概述與開發環境 1.2java程式執行機制 --1.2.1高階語言的執行機制　　計算機高階語言按程式的執行方式可以分為：編譯型和解釋型

前端入職學習筆記-第二週第一天（Vue基礎）

學習路徑 Vue 1、Vue基礎 1.1 安裝Vue 一般vue的安裝以及其開發過程需要用到的一些包的安裝使用的都是npm命令，但是 npm 安裝速度慢，可以使用淘寶的映象及其命令 cnpm，安裝使用介紹參照：使用淘寶 NPM 映象。

微信小程式[電商]-實現標籤雲熱搜及搜尋功能

效果圖從首頁的搜尋入口進入到搜尋頁面，展示熱搜。再根據使用者的輸入內容模糊搜尋，返回資料顯示在熱搜下方。

前端入職學習筆記-第三週第一天

一、使用vue-cli建立模板專案 1、什麼是vue-cli 　　是vue官方提供的腳手架工具。腳手架工具簡單講就是自動將專案需要的環境、依賴等資訊都配置好。

前端入職學習筆記-第四周第一天（python學習）

學習地址：python學習-廖雪峰在正式編寫第一個Python程式前，我們先複習一下什麼是命令列模式和Python互動模式。

微控制器學習筆記————51微控制器實現利用AT24C02進行掉電後的資料儲存

一、使用proteus繪製簡單的電路圖，用於後續模擬關於IIC的讀寫：二、編寫程式