樂高積木資料處理

阿新 • • 發佈：2020-10-14

樂高積木資料處理

1.匯入模組

import pandas as pd
import numpy as np
import jieba 
import time

from pyecharts.charts import Bar,Line,Map,Page,Pie
from pyecharts import options as opts
from pyecharts.globals import SymbolType
from pyecharts.faker import Faker

2.讀取資料

# 讀取資料
df_tb=pd.read_csv('F:\Python資料分析課程\python資料處理\Pandas練習\資料分析專案練習\legao3225\樂高淘寶資料.csv')
# 讀取前五條資料
df_tb.head()

3.檢視資料集的資訊

df_tb.info()

4.資料處理

# 去除重複值
df_tb.drop_duplicates(inplace=True)
# 刪除購買人數為空的記錄
df_tb=df_tb[df_tb['purchase_num'].str.contains('人付款')]

# 重置索引
df_tb=df_tb.reset_index(drop=True)
#再次檢視資料集資訊
df_tb.info()

# purchase_num 處 將購買數量轉化為int型別
df_tb['purchase_num']=df_tb['purchase_num'].str.extract('(\d+)').astype('int')
# 計算銷售額
df_tb['sales_volume']=df_tb['price']*df_tb['purchase_num']

# 新增一列location，對province進行分割
df_tb['province']=df_tb['location'].str.split(' ').str[0]
df_tb.head()

資料視覺化

樂高銷量排名top10店鋪-條形圖
樂高產地數量排名top10-條形圖
樂高產國內銷量分佈-地圖
價格分佈-餅圖
不同價格區間的銷量表現-餅圖
商品標題詞雲圖-詞雲圖

1.樂高銷量排名top10店鋪-條形圖

# 對商品店鋪名稱進行分組，並對購買數量進行求和，降序排序，取前10條資料
shop_top10=df_tb.groupby('shop_name')['purchase_num'].sum().sort_values(ascending=False).head(10)
shop_top10

# 條形圖
# bar1=Bar(init_opts=opts.InitOpts(width='1350px',height='750px'))
bar1=Bar()
bar1.add_xaxis(shop_top10.index.tolist())
bar1.add_yaxis('',shop_top10.values.tolist())
bar1.set_global_opts(title_opts=opts.TitleOpts(title='樂高銷量排名Top10淘寶店鋪'),
                     xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-15)),
                     visualmap_opts=opts.VisualMapOpts(max_=28669)
                    )
bar1.render_notebook()

2. 樂高產地數量排名top10

province_top10=df_tb.province.value_counts()[:10]
province_top10

bar2=Bar()
bar2.add_xaxis(province_top10.index.tolist())
bar2.add_yaxis('',province_top10.values.tolist())
bar2.set_global_opts(
        title_opts=opts.VisualMapOpts(max_=1000)
                    )
bar2.render_notebook()

3. 國內各省份樂高銷量分佈圖

province_num=df_tb.groupby('province')['purchase_num'].sum().sort_values(ascending=False)

province_num[:10]

map1=Map()
map1.add("",[list(z) for z in zip(province_num.index.tolist(),province_num.values.tolist())],
        maptype='china')
map1.set_global_opts(
    title_opts=opts.TitleOpts(title='國內各產地樂高銷量分佈圖'),
    visualmap_opts=opts.VisualMapOpts(max_=172277)
)
map1.render_notebook()

4.天貓樂高價格分佈

cut_bins=[0,50,100,200,300,500,1000,8888]
cut_labels=['0~50元','50~100元','100~200元','200~300元','300~500元','500~1000元','1000元以上']

price_cut=pd.cut(df_tb['price'],bins=cut_bins,labels=cut_labels)
price_num=price_cut.value_counts()
price_num

bar3=Bar()
bar3.add_xaxis(['0~50元','50~100','100~200元','200~300元','300~500元','500~1000元','1000元以上'])
bar3.add_yaxis('',[895,486,701,288,370,411,260])
bar3.set_global_opts(title_opts=opts.TitleOpts(title='不同價格區間的商品數量'),
                    visualmap_opts=opts.VisualMapOpts(max_=900))
bar3.render_notebook()

5.不同價格區間的銷售額整體表現

df_tb['price_cut']=price_cut

cut_purchase=df_tb.groupby('price_cut')['sales_volume'].sum()
cut_purchase

data_pair=[list(z) for z in zip(cut_purchase.index.tolist(),cut_purchase.values.tolist())]
# 繪製餅圖
piel=Pie()
piel.add('',data_pair,radius=['35%','60%'])
piel.set_global_opts(title_opts=opts.TitleOpts(title='不同價格區間的銷售額整體表現'),
                    legend_opts=opts.LegendOpts(orient='vertical',pos_top='15%',pos_left='2%'))
piel.set_series_opts(label_opts=opts.LabelOpts(formatter="{b}:{d}%"))
piel.set_colors(['#EF9050','#3B7BA9','#6FB27C','#FFAF34','#D7BFD7','#00BFFE','#7FFFAA'])
piel.render_notebook()

6.商品標題詞雲圖

def get_cut_words(content_series):
    # 讀入停用圖表析
    stop_words=[]
    with open("F:\\Python資料分析課程\\python資料處理\\Pandas練習\\資料分析專案練習\\legao3225\\cn_stopwords.txt",'r',encoding='utf-8')as f:
        lines=f.readlines()
        for line in lines:
            stop_words.append(line.strip())
    # 新增關鍵詞
    my_words=['樂高','悟空小俠','大顆粒','小顆粒']
    for i in my_words:
        jieba.add_word(i)
    # 自定義停用詞
    # my_stop_words=[]
    # stop_words.extend(my_stop_words)

    # 分詞
    word_num=jieba.lcut(content_series.str.cat(sep='。'),cut_all=False)
    # 條件篩選
    word_num_selected=[i for i in word_num if i not in stop_words and len(i)>=2]
    return  word_num_selected
text=get_cut_words(content_series=df_tb['goods_name'])
text[:10]

import stylecloud
from IPython.display import Image
# 繪製詞雲圖
stylecloud.gen_stylecloud(
    text=' '.join(text),
    collocations=False,
    font_path=r'F:\Python資料分析課程\python資料處理\Pandas練習\資料分析專案練習\legao3225\simhei.ttf',
    icon_name='fas fa-plane',
    background_color='pink',
    size=768,
    output_name='淘寶樂高標題詞雲圖.png'
)
Image(filename='淘寶樂高標題詞雲圖.png')

樂高積木資料處理

樂高積木資料處理 1.匯入模組 import pandas as pd import numpy as np import jieba import time from pyecharts.charts import Bar,Line,Map,Page,Pie

SEGA吉祥物索尼克確定會推出樂高積木套裝

去年，任天堂與樂高合作推出了一系列以超級馬里奧為主題的互動型樂高玩具積木。作為馬里奧早期的對手，SEGA公司的吉祥物——索尼克，也跟隨義大利水管工的腳步，確定會推出樂高積木套裝。

索尼克樂高積木正式宣佈將於明年1月1日開售

經過上週提前洩露之後，今天（12月29日）凌晨，樂高聯合SEGA正式釋出了索尼克樂高積木套裝。該積木將於2022年1月1日起正式開售。

《樂高積木傳說》釋出新預告遊戲將於2022年推出

遊戲發行商Thunderful Publishing今日公佈了新作《樂高積木傳說（LEGO® Bricktales）》的最新預告。該作由ClockStone開發，將於2022年內發售，目前遊戲已上架Steam。

任天堂釋出碧琪公主樂高積木套裝宣傳片 8月1日發售

任天堂今日釋出了“樂高馬里奧”系列碧琪公主城堡套裝的最新宣傳片，該套裝預計發售時間為8月1日，售價59.99美元。

ENVI中高分五號02星高光譜資料處理

高分五號02星於2021年9月7日成功發射，這顆衛星也被稱為高光譜觀測衛星，衛星搭載了一臺60公里幅寬、330譜段、30米解析度的可見短波紅外高光譜相機（AHSI），可見近紅外和短波紅外光譜解析度分別達到5奈米和10奈米。

彈指間灰飛煙滅樂高漫威無限手套積木現已正式發售

樂高積木與漫威超級英雄系列合作推出過很多聯動產品，而今天看到的這款是其中最為炫酷的產品之一。樂高近日推出了由590塊積木組成的滅霸無限手套，而且擁有全套無限寶石，就差一個響指了。

《樂高星球大戰天行者傳奇》資料卡收集攻略資料卡在哪

《樂高星球大戰天行者傳奇》中一共有19張資料卡，找到後就可以解鎖有趣的附加專案了，還沒有找齊資料卡的小夥伴請看《樂高星球大戰天行者傳奇》資料卡收集攻略，希望能夠幫助到各位。

Springboot實現高吞吐量非同步處理詳解(適用於高併發場景)

技術要點 org.springframework.web.context.request.async.DeferredResult<T> 示例如下： 1. 新建Maven專案 async

mysql中blob資料處理方式

具體程式碼如下所示： package epoint.mppdb_01.h3c; import java.io.File; import java.io.FileInputStream;

pytorch中的自定義資料處理詳解

pytorch在資料中採用Dataset的資料儲存方式，需要繼承data.Dataset類，如果需要自己處理資料的話，需要實現兩個基本方法。

pytorch 資料處理:定義自己的資料集合例項

資料處理版本1 #資料處理 import os import torch from torch.utils import data from PIL import Image

python 多程序佇列資料處理詳解

我就廢話不多說了，直接上程式碼吧！ # -*- coding:utf8 -*- import paho.mqtt.client as mqtt

pandas 空資料處理方法詳解

這篇文章主要介紹了pandas 空資料處理方法詳解,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Pandas 缺失資料處理的實現

資料丟失(缺失)在現實生活中總是一個問題。機器學習和資料探勘等領域由於資料缺失導致的資料質量差，在模型預測的準確性上面臨著嚴重的問題。在這些領域，缺失值處理是使模型更加準確和有效的重點。

Python資料處理篇之Sympy系列(五)---解方程

前言 sympy不僅在符號運算方面強大，在解方程方面也是很強大。本章節學習對應官網的：Solvers

pandas資料處理進階詳解

一、pandas的統計分析 1、關於pandas 的數值統計（統計detail 中的單價的相關指標）

Python 中pandas索引切片讀取資料缺失資料處理問題

引入　　numpy已經能夠幫助我們處理資料，能夠結合matplotlib解決我們資料分析的問題，那麼pandas學習的目的在什麼地方呢？ numpy能夠幫我們處理處理數值型資料，但是這還不夠很多時候，我們的資料除了數值之外，還

python資料處理之如何選取csv檔案中某幾行的資料

前言有些人看到這個問題覺得不是問題，是嘛，不就是df.col[]函式嘛，其實忽略了一個重點，那就是我們要省去把csv檔案全部讀取這個過程，因為如果在面臨億萬級別的大規模資料，得到的結果就是boom，boom，boom。

Pytorch DataLoader 變長資料處理方式

關於Pytorch中怎麼自定義Dataset資料集類、怎樣使用DataLoader迭代載入資料，這篇官方文件已經說得很清楚了，這裡就不在贅述。

樂高積木資料處理

樂高積木資料處理

1.匯入模組

2.讀取資料

3.檢視資料集的資訊

4.資料處理

資料視覺化

1.樂高銷量排名top10店鋪-條形圖

2. 樂高產地數量排名top10

3. 國內各省份樂高銷量分佈圖

4.天貓樂高價格分佈

5.不同價格區間的銷售額整體表現

6.商品標題詞雲圖

相關推薦