1. 程式人生 > 實用技巧 >採集美食網站3032個菜譜資料,對比各大菜系美食的數量、用料

採集美食網站3032個菜譜資料,對比各大菜系美食的數量、用料

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

以下文章來源於菜J學Python ,作者資料分析pjy

前言

這是鉅變的中國,人和食物,比任何時候走的更快。近日,J哥為了尋味中國,奔走於某五線城市的大街小巷,結果除了累,啥也沒尋到。

於是,J哥默默打開了各大美食網站,如豆果美食、下廚房、美食天下等。經過甄選,最終爬取了豆果網最新發布的中國菜系共3032個菜譜,然後清洗資料並做視覺化分析,試圖走上美食博主的康莊大道。

豆果美食網的資料爬取比較簡單,如果您對爬蟲感興趣,可以看一看。

本次爬取的資料範圍為川菜、粵菜、湘菜等八個中國菜系,包含菜譜名、連結、用料、評分、圖片等欄位。限於篇幅,僅給出核心程式碼。

 1#主函式
 2defmain(x):
 3url='https://www.douguo.com/caipu/{}/0/{}'.format(caipu,x*20)
 4print(url)
 5html=get_page(url)
 6parse_page(html,caipu)
 7
 8if__name__=='__main__':
 9caipu_list=['川菜','湘菜','粵菜','東北菜','魯菜','浙菜','湖北菜','清真菜']#中國菜系
10start=time.time()#計時
11forcaipuincaipu_list:
12foriinrange(22):
13#爬取多頁
14main(x=i)
15time.sleep(random.uniform(1,2))
16print(caipu,"第"+str(i+1)+"頁提取完成")
17end=time.time()
18print('共用時',round((end-start)/60,2),'分鐘')

短短几分鐘就爬下了3032個菜譜資訊,為了方便視覺化分析,還需要對爬取的資料進行簡單清洗。

本文資料清洗主要用到Python的Pandas庫。

匯入資料

用pd.read方法匯入爬取到的菜譜資料,並新增列名。預覽資料如下:

刪除重複項

爬蟲過程中少量菜譜資料被重複抓取,需要用drop_duplicates方法刪除。

缺失值處理

通過info方法發現少量記錄含有缺失值,用dropna方法刪除。

評分欄位清洗

爬取的評分欄位含有多餘的字串且為object型別,需要替換多餘字串並轉換為數字型別,方便後續計算。

新增用料數字段

為方便菜譜用料分析,需要根據用料欄位計算出每個菜譜的用料數量。由於用料欄位都是以逗號分隔,計算逗號數即可間接得到。

本文資料視覺化主要用到pyecharts庫,它能輕鬆實現酷炫的圖表效果。如果您對視覺化感興趣,可檢視J哥往期原創文章「資料視覺化分析系列」,涉及地產、電商、招聘等各領域。

菜譜評分分佈

 1frompyechartsimportoptionsasopts
 2frompyecharts.chartsimportPage,Pie
 3cut=lambdax:'4分以下'ifx<4else('4.1-4.5分'ifx<=4.5else('4.6-4.9分'ifx<=4.9else'5分'))
 4df['評分分佈']=df['評分'].map(cut)
 5df2=df.groupby('評分分佈')['評分'].count()
 6df2=df2.sort_values(ascending=False)
 7df2=df2.round(2)
 8print(df2)
 9c=(
10Pie()
11.add(
12"",
13[list(z)forzinzip(df2.index.to_list(),df2.to_list())],
14radius=["20%","80%"],#圓環的粗細和大小
15rosetype='area'#玫瑰圖
16)
17.set_global_opts(
18title_opts=opts.TitleOpts(title="菜譜評分分佈"
19),
20legend_opts=opts.LegendOpts(
21orient="vertical",pos_top="5%",pos_left="2%",textstyle_opts=opts.TextStyleOpts(font_size=14)#左面比例尺
22),
23
24
25)
26.set_series_opts(label_opts=opts.LabelOpts(formatter="{b}:{d}%",font_size=18),
27)
28)
29c.render_notebook()

豆果美食網菜譜評分實行5分制。由上圖可知,4分以下的菜譜佔比不到2%,滿分菜譜高達32.6%,可見使用者對中國菜系菜譜評價普遍較高。

各菜系菜譜數量對比

 1frompyechartsimportoptionsasopts
 2frompyecharts.chartsimportPage,Pie
 3df2=df.groupby('菜系')['評分'].count()#按菜系分組,對評分計數
 4df2=df2.sort_values(ascending=False)#降序
 5print(df2)
 6c=(
 7Pie()
 8.add("",[list(z)forzinzip(df2.index.to_list(),df2.to_list())])
 9.set_global_opts(title_opts=opts.TitleOpts(title="各菜系菜譜數量佔比",subtitle="資料來源:豆果美食"))
10.set_series_opts(label_opts=opts.LabelOpts(formatter="{b}:{c}"))
11)
12c.render_notebook()

由上圖可知,川菜和粵菜菜譜數量較多,顯示出作為中國“八大菜系”成員的地位。湖北菜和清真菜菜譜數量較少,相對更為小眾。

各菜系評分對比

 1frompyechartsimportoptionsasopts
 2frompyecharts.chartsimportPage,Pie
 3df2=df.groupby('菜系')['評分'].mean()
 4df2=df2.sort_values(ascending=False)
 5df2=df2.round(2)
 6print(df2)
 7c=(
 8Pie()
 9.add(
10"",
11[list(z)forzinzip(df2.index.to_list(),df2.to_list())],
12radius=["40%","75%"],#圓環的粗細和大小
13)
14.set_global_opts(
15title_opts=opts.TitleOpts(title="各菜系平均評分"),
16legend_opts=opts.LegendOpts(
17orient="vertical",pos_top="5%",pos_left="2%"#左面比例尺
18),
19)
20.set_series_opts(label_opts=opts.LabelOpts(formatter="{b}:{c}"))
21)
22c.render_notebook()

由上圖可知,各菜系評分非常接近,使用者平均評分都在4.6分以上。相對一致的評分,導致通過使用者評分來評價菜譜的可信度降低。

各菜系用料數量對比

 1frompyecharts.chartsimportBar,Pie
 2frompyechartsimportoptionsasopts
 3df1=df.groupby('菜系')['用料數'].mean()#按菜系分組,對評分計數
 4df1=df1.sort_values(ascending=False)#降序
 5df1=df1.round(0)
 6print(df1)
 7bar=Bar()
 8bar.add_xaxis(df1.index.to_list())
 9bar.add_yaxis("用料數量",df1.to_list())
10bar.set_global_opts(title_opts=opts.TitleOpts(title="各菜系用料數量",subtitle="資料來源:豆果美食"))
11bar.render_notebook()

由上圖可知,川菜和東北菜用料較足。川菜素有取材廣泛、調味多、菜式多樣等特點,雖然東北菜沒有排在傳統的“八大菜系”中,但豪邁熱情的東北人從不吝嗇菜餚裡的用料。

粵菜更注重菜品的原味鮮香,具有清、鮮、爽、嫩、滑等特色,因此用料相對更少。清真飲食風俗源於伊斯蘭教,部分食材屬於禁忌物,因此用料也不多。

川菜用料分析

1#繪製詞雲圖
2text1=get_cut_words(content_series=df[df['菜系']=='川菜']['用料'])
3stylecloud.gen_stylecloud(text=''.join(text1),max_words=1000,
4collocations=False,
5font_path='字酷堂清楷體.ttf',
6icon_name='fasfa-thumbs-up',
7size=653,
8output_name='./川菜.png')
9Image(filename='./川菜.png')

由川菜用料詞雲圖可知,川菜主要用料包括花椒、豆瓣醬和幹辣椒。不怕辣的四川人喜好種植花椒,四川火鍋也因為有了花椒的加入更有吸引力,千千萬萬的海內外尋味者奔湧相隨。

料實材真,一般都能出美味。川菜用料最足的菜譜為川味砂鍋之足不出戶的麻辣燙,共用料35種。

用料明細:毛肚,黃喉,鮮牛肉片,自制肉,鴨血,金針菇,平菇,豆芽,苕粉,冬筍片,白菜,萵筍葉,鵪鶉蛋(煮熟剝殼),豬骨湯,豬油,牛油,植物油(菜油上佳),薑片,大粒的蒜,郫縣豆瓣,八角,茴香,桂皮,丁香,陳皮,香葉,白胡椒粉,冰糖,生抽,鹽,蔥結,花椒,幹辣椒,雞精丸,午餐肉

粵菜用料分析

由粵菜用料詞雲圖可知,粵菜主要用料包括胡椒粉、五花肉和白糖。粵菜的聖地在順德,粵菜注重質和味,口味相對清淡,力求清中求鮮、淡中求美。

粵菜用料最足的菜譜為廣式腸粉,共用料23種。

用料明細:粉漿用料,粘米粉(米打的粉),澄面(小麥澱粉),土豆澱粉,粟米粉(玉米澱粉),水,醬汁用料,獨頭蒜,大蒜籽,薑片,香菜(不吃香菜的可用蔥代替),雞湯,鮮味生抽,老抽,蠔油,蜂蜜,魚露(可不放),雞精(個人喜歡就放,不放也很鮮了),水,腸粉裡面放的料,肉末,雞蛋,生菜葉

湘菜用料詞雲圖

由湘菜用料詞雲圖可知,湘菜主要用料包括辣椒、大蒜、花椒等。辣不怕的湖南人以辣椒為生,尤其以剁椒出名。J哥雖不是湖南人,但在湖南待了幾年後,目前也成了個胖子。美食雖美,可不要貪多哦~

湘菜用料最足的菜譜為麻辣滷鴨三件,共用料20種。

用料明細:鴨爪(清水泡一小時),鴨翅膀(清水泡一小時啊),鴨腸(洗乾淨後捆成一個個小捆),白芷,桂皮,香葉,大料(兩個焯水用,三個滷用),幹辣椒(根據個人喜辣程度放),小茴香,花椒,麻椒,草果,生薑(一塊焯水去味用,一塊滷用),蒜瓣(全部去皮),辣椒醬(根據個人喜辣放),老抽,生抽,料酒,白糖,鹽

東北菜用料詞雲圖

由東北菜用料詞雲圖可知,東北菜主要用料包括土豆、麵粉、胡蘿蔔等。東北菜在做法上也融合了一些宮廷菜點和漢族飲食所長,利用東北特產原料和純綠色食品原料。土豆和胡蘿蔔在黑土地的孕育下為東北菜源源不斷輸送著美味配方。

東北菜用料最足的菜譜為翡翠白菜水餃,共用料20種。

翡翠白菜水餃 圖片來源:豆果美食

用料明細:麵皮製作,麵粉(綠色麵糰所用),麵粉(白色麵糰所用),小白菜葉(取汁),清水,餡料製作,豬五花肉,大白菜,胡蘿蔔,蔥碎,薑末,鹽,生抽,老抽,蠔油,芝麻油,糖,雞精,花椒粉,花生油

湖北菜用料詞雲圖

由湖北菜用料詞雲圖可知,湖北菜主要用料包括糯米、花椒、麵粉等。千湖之省湖北坐落於江漢平原,同時作為重要的商品糧基地,從來不缺美食原料。

湖北菜用料最足的菜譜為家常美味——香菇雞肉面,共用料23種。

用料明細:雞脯肉或雞腿肉,香菇,刀削麵或寬面,芹菜,青菜,郫縣紅油豆瓣,蔥,姜,蒜,幹辣椒,花椒,八角,老抽,生抽,料酒,澱粉,蛋清,十三香,白胡椒,雞精,鹽,蒜苗,香菜

浙菜用料詞雲圖

浙菜主要用料包括白糖、冰糖、胡椒粉等。俗話說“上有天堂,下有蘇杭”,素有魚米之鄉之稱的浙江,賦予了浙菜豐富的原料。浙菜菜式小巧玲瓏,菜品甜而不膩。

浙菜用料最足的菜譜為經典糖醋排骨,共用料17種。

經典糖醋排骨 圖片來源:豆果美食

用料明細:豬肋排,小蔥段(煮排骨用),姜(煮排骨用),料酒(煮排骨用),冷水,綿白糖,米醋,香醋,老抽,鹽,綿白糖(澆汁用),米醋(澆汁用),香醋(澆汁用),澱粉(澆汁用),溫水(澆汁用),食用油,熟白芝麻

魯菜用料詞雲圖

魯菜主要用料包括麵粉、胡蘿蔔、蠔油等。魯菜講究原料質地優良,以本地用料為主。作為我國第二大小麥主產區,能夠為麵粉的製作提供充足的儲備,同時還盛產胡蘿蔔、大白菜等蔬菜,成為魯菜常用的配菜來源。

魯菜用料最足的菜譜為大白菜燉牛肉,共用料28種。

用料明細:燉牛肉,牛肉,蔥姜,小香蔥,冰糖,八角,草果,小茴香,香葉,幹辣椒,蒜,洋蔥,油,生抽,甜麵醬,番茄醬,鹽,清水,啤酒,大白菜燉牛肉,大白菜,熟牛肉,牛肉湯,粉絲,食用油,蔥花,水澱粉,鹽

清真菜用料詞雲圖

清真菜主要用料包括蛋白、蛋清、麵粉等。在我國,包括回族、維吾爾族、哈薩克族等10個少數民族具有清真飲食習慣,清真菜最突出的特點在於飲食禁忌比較嚴格,因此在用料上明顯與其他菜系有所區別。清真菜的口味偏重鹹鮮,汁濃味厚,肥而不膩,嫩而不羶。

清真菜用料最足的菜譜為糖醋蛋白肉,共用料15種。

糖醋蛋白肉 圖片來源:豆果美食

用料明細:蛋白肉,尖椒,小米椒,蒜瓣,小蔥,食用油,糖,醋,蒸魚豆豉,生抽,黃酒,番茄醬,澱粉,清水,鹽