自學Python之路--入門菜鳥的菜鳥篇：爬蟲

阿新 • • 發佈：2019-01-05

第一次寫部落格&第一次自學Python&第一次實戰

Hi，親們，本部落格只是個人瞎寫著記錄的：

作為已經做BI工程師三年的人竟然第一次接觸Python，自學Python 哎~~是不是很晚呢
畢業第一年進入SAP BW模組
第二年已經差不多開始懂點什麼是資料建模，什麼是資料倉庫，資料集市
*第三年在公司開始做ETL,資料清洗，資料整合，報表展示

到目前所使用過的資料庫：
SAP HANA,SQL server,Greenplum,Mysql,Hadoop,MongoDB,Oracle**

所使用過的BI工具：
SAP BO,Tableau，PowerBI，Microsoft CUBE，Tabular等

唯獨目前最火的Python,R等語言一次都沒接觸過，因此藉此正好有空閒時間來自學一下Python

入門學習篇

先明確學習的內容：爬蟲！！
去各種網站搜Python自學教學等教材。
最好用的還是 w3cschool的資料，不懂得問題直接去Bing搜，就是這麼簡單粗暴
邊學習邊應用：
個人是比較習慣於一一邊學習一邊實戰的方式。所以一邊學習爬蟲相關的庫，一邊直接應用
學習到的庫：
BS4
urlopen
pyhdb
datetime
requests
re
也不能說是學完了，應該是有一點點知道了怎麼應用，網上資料很多，不懂直接去Bing搜就出來一堆東西啦~哈哈哈哈
選定一個目標就直接實戰：
稱為我獵物的是某DM論壇。（因為個人比較喜歡遊戲）

廢話不多說下面就獻醜自己亂寫的程式碼，因為沒有考慮效率問題，希望能得到更好的建議

實戰篇

分析

先進入論壇首頁，分析網站結構，找出規律。

1、發現搜尋列右邊已經給出所有遊戲類目，找到定位就更簡單了。
把所有類目都放在class=”scbar_hot_td”下的id=”scbar_hot”下 class=‘xi2’
Href=後面直接有每個類目地址

2、開啟每個類目地址又發現一個很有規律性的邏輯~~哈哈太有趣
每個類目下都按一定規律寫了遊戲論壇地址和名稱，讓我更簡單的利用爬蟲來爬取資料提供了很強大的支援。

這裡寫圖片描述

3、進入每款遊戲論壇地址也一樣，都按一定規律編寫每個帖子的基本資訊

比如class=”new” 存放帖子型別、帖子標題、熱度等資訊
class=”by”存放建立者建立日期、最後回覆人以及最後回覆日期等
class=”num”存放檢視數、回覆次數

這裡寫圖片描述

編寫Python

提取每款遊戲資訊：

def getgrand(url):

#URL就是網頁地址
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36(KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}  # 設定標頭檔案資訊 #
response = requests.get(url, headers=headers).content  # 提交requests get 請求
soup = BeautifulSoup(response, "html.parser")  # 用Beautifulsoup 進行解析
commid = soup.findAll('a', class_='xi2') ##這裡找出所有xi2類
for commid2 in commid[2:-1]: ##爬取論壇首頁
    href=commid2.get("href") ##這裡要抽取每個遊戲類目地址
    if len(href.split("-"))>=2 :
        id=href.split("-")[1] ##這裡要抽取每個類目ID，後面做資料模型的時候用
        site=url+href  #完整的遊戲類目地址
        print(site)
        cate=commid2.text   #這裡要抽取每個遊戲類目名稱
        if check_contain_chinese(cate) == True:  ## 相當於資料清洗，因為抽取有可能不是類目名稱，排除不是中文的名稱
            response2 = requests.get(site, headers=headers).content  # 提交requests get 請求
            soup2= BeautifulSoup(response2, "html.parser")  # 用Beautifulsoup 進行解析
            catmid=soup2.findAll('dt')
            intohana_grandcat(conn, id, cate, site)##匯入到HANA資料庫裡 建立類目維表
            # print(catmid)
            # print(cate)
            for catmid2 in catmid: ##爬取每個遊戲首頁 
                a=catmid2.findAll("a")[0]
                href2=a.get("href")
                gamename=a.text  ## 提取遊戲名稱
                # print(gamename)
                if (len(href2.split("-"))>=2) & (href2[-4:]=="html") :    ##資料清洗，清理垃圾資料
                    site2=url+href2  ## 提取出每款遊戲地址
                    id2=href2.split("-")[1]  ##每款遊戲ID

            #         print(a)
            #         print(id2)
            #         print(site2)
                    intohana_game(conn, id, cate, id2, gamename, site2)  ###建立遊戲維度維表
                    getdetail(site2,conn,id,id2,gamename)  ## get detail of blog information ##要爬取每個遊戲論壇地址

爬取每個遊戲論壇地址：

def getdetail(site,conn,GRAND_ID,GAME_ID,GAME_NAME): ## get detail of blog information

globals()   #定義所用到的所有全域性變數
type=''
theme=''
replynum=''
readnum=''
editor=''
createdate=''
lastreply=''
lastreplydate=''

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36(KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}  # 設定標頭檔案資訊 #

response3 = requests.get(site, headers=headers).content  # 提交requests get 請求
soup3 = BeautifulSoup(response3, "html.parser")  # 用Beautifulsoup 進行解析
gamemid = soup3.findAll('th', class_='new')  
td = soup3.findAll('td', class_='by')
for tbody in soup3.findAll('tbody'):   ##對每個tbody進行解析
    for tr in tbody.findAll('tr'):   ##對每個tbody的tr進行解析
        for new in tr.findAll('th', class_='new'):  ##對每個tbody的tr下class_=new進行解析
            em = new.find('em')    #抽取帖子型別
            if em:    ##資料清洗
                type = em.text[1:-1]
            else:
                type = ''
            theme = new.find('a', class_='s xst').text #抽取帖子主題
            num = tr.find('td', class_='num')  ###get reply & read #抽取帖子檢視和回覆次數
            if num:  ##資料清洗
                replynum = num.find('a').text 
                readnum = num.find('em').text
            else:
                replynum='0'
                readnum='0'
            # print(type, theme, replynum, readnum)
        by = tr.findAll('td', class_='by')  # get editor & date #抽取每個帖子 建立者和最後回覆人
        if by: ##資料清洗
            for uby in by[:1]:  # get editor & date
                createdate = uby.find('em').text
                editor = uby.find('cite').text
            # print(editor,createdate)
            for uby in by[1:]:  # get editor & date
                lastreply = uby.find('cite').text
                lastreplydate = uby.find('em').text
            # print(editor, createdate, lastreply, lastreplydate)
            # print(lastreply, lastreplydate)
        intohana_blogdetail(conn,GRAND_ID,GAME_ID,GAME_NAME,type,theme,replynum,
                            readnum,editor,createdate,lastreply,lastreplydate,current_daytime) # 對每條資料逐步insert到資料庫表建立Fact實時表

整個程式碼釋出到GIT上，做了點簡單的現狀分析

簡單分析：

這裡寫圖片描述

工具

PyCharm
SAP HANA
SAP BO
EXCEL

改進

1、不知道怎麼改進程式碼，就感覺做的太粗糙，希望有人指導
2、分析目的不明確，導致抽取的資料沒有目的性。
3、希望有大神能教點分析方法。

自學Python之路--入門菜鳥的菜鳥篇：爬蟲

第一次寫部落格&第一次自學Python&第一次實戰 Hi，親們，本部落格只是個人瞎寫著記錄的：作為已經做BI工程師三年的人竟然第一次接觸Python，自學Python 哎~~是不是很晚呢畢業第一年進入SAP BW模組第二年已經差不多開

NO.1：自學python之路

代碼流程圖意義 .com log ont index.php 環境分享引言人工智能如今越來越貼近生活，在這裏將記錄我自學python與tensorflow的過程。編程使用IDE：visual studio 2017，python版本3.6.3，tensorflow

NO.2：自學python之路

電腦安全 ++ 密碼詳細刪除耳機 sort 參數引言本周初步認識了庫，並學習了Python中各種類型的變量和常用操作。並完成了較為完善的用戶與商家購物界面設計。正文模塊： Python有標準庫和第三方庫。第三方庫需要安裝才能使用。大量的庫可以幫助我們更容易的

淺談自學Python之路（day1）

簡單程序 odi odin 限制次數變量類型第一個程序構造 welcom 2018-02-19 17:15:14 Python語言相對於其他語言較為簡潔，也相對好入門比如後面不加分號，基本見不著大括號等優點第一個程序，也是學每門語言都需要掌握的第一個代碼

python之路入門篇

邏輯判斷入門查看就是 world 千萬發布數值計算化運維一、 Python介紹 python的創始人為吉多·範羅蘇姆（Guido van Rossum）。1989年的聖誕節期間，Guido開始寫能夠解釋Python語言語法的解釋器。Python這個

開啟自學python之路

今年3月份初辭職，從深圳回到廣州，決心轉行。之前在學校時搞過網站設計，對IT還是有一點點的理解。畢業後的三年在深圳的一家藥企工作，在其中的最大感受是：技術更新的速度非常慢，生產的裝置和工具還是十幾年前的，需要工人來一步步操作，一點自動化都沒有。身邊很多同學投身到IT行業中，時

菜鳥的Python之路--基礎知識

python 剛剛開始自學Python，整理一下自己的學習感悟剛剛開始學習Python，代碼之路才剛剛開始第一個差距就感受到了。Python的標點符號與其他語言的差別，它每句後面都沒有“；”。變量的命名規則 1. 要具有描述性 2. 變量名只

菜鳥的Python之路--基礎知識（列表的基本操作）

python列表list1 = [,,,,,]list2 = [,,] t = [,,,,,] t.sort(=)(t)本文出自 “11316806” 博客，請務必保留此出處http://11326806.blog.51cto.com/11316806/1959140菜鳥的Python之路--基礎知識（列表的

【mysql 修煉之路】如何從菜鳥成為mysql 大神？

首先MySQL大多是跑在Linux環境上的，所以我們需要學習一下Linux的知識，最基礎的需要了解： ■ Linux的安裝及目錄結構意義 ■ 常用的Linux命令，大概20多個 ■ 網路基本知識，

學習python之路_入門篇A

www. 轉換成自動化知識點編程跟著 .cn com href 偶爾經同事的介紹進入了金角大王的博客裏，看到大王編寫的文章都是關於python編程的，由於自己一直也是做軟件測試方面的工作，也一直想往自動化測試方面發展，了解到利用python可以進行自動化

Python之路【第一篇】:Python簡介和入門

源碼 world 網絡服務換行編程風格大小寫 utf8 編譯安裝比較 python簡介：一、什麽是python Python（英國發音：/ pa θ n/ 美國發音：/ pa θɑ n/），是一種面向對象、直譯式的計算機程序語言。每一門語言都有自己的哲學： py

python之路_flask框架_框架入門

soc msg path 分享 erro arm ret 虛擬 style 　　Flask是一個基於Python開發並且依賴jinja2模板和Werkzeug WSGI服務的一個微型框架，對於Werkzeug本質是Socket服務端，其用於接收http請求並對請求進行預處理

python之路 -- 爬蟲 -- Scrapy入門

.py python模塊 spi 以及技術 16px 安裝爬蟲應用 Scrapy 　　Scrapy　是一個為了爬取網站數據，提取結構性數據而編寫的應用框架。其可以應用在數據挖掘，信息處理或存儲歷史數據等一系列的程序中。其最初是為了頁面抓取 (更確切來說, 網絡抓取

Python之路【第一篇】：Python簡介和入門

readline def 美團 sys eric gcc 下劃線博客 height Python簡介 Python前世今生 python的創始人為吉多·範羅蘇姆（Guido van Rossum）。1989年的聖誕節期間，吉多·範羅蘇姆為了在阿姆斯特丹打發時間，決心開發

小菜鳥學習Python之路--OOP(2)

繼承和多型 class Human(object): def learn(self): print('Human is learning') class Qin(Human): #繼承human類 pass qin = Qin() qin.l

Python資料分析之路| 入門起航篇

資料分析準備工作 1.資料分析工具工欲善其事，必先利其器，網上有很多關於資料分析的文章，相信大家一定聽過R語言和Python之爭，而且各有千秋，R語言在學術界更流行,但是在做專案上面我個人比較喜歡Python,Python更通用，更簡潔，文件也很多,而且有大量的庫特別是Google,Fac

Python之路54-JavaScript

python目錄一、如何編寫二、變量三、數據類型四、其他五、語句和異常六、函數JavaScript是一門編程語言，瀏覽器內置了JavaScript語言的解釋器，所以在瀏覽器上按照JavaScript語言的規則編寫相應的代碼，瀏覽器可以解釋並作出相應的處理。一、如何編寫1.JavaScript代碼存在形式（ty

Python之路-文件操作（py）

句柄接口編碼操作 strong span 操作系統使用 color 文件操作的基本步驟: 　　1.打開文件:f=open(‘filename‘),with open(‘filename‘) as f 　　2.操作文件:增，刪，改，查　　3.關閉文件:f.close

python之路

正則字符串格式化 socket編程 nice spa 進程 sock 第二篇數據 python學習之路學習目錄番外篇：python簡介及安裝第一篇：python基礎第二篇：python基本數據類型第三篇：字符串格式化及函數第四篇：pyth

Python之路57-前端快速開發

python適用於全棧BootStrapcss、js學習BootStrap規則1.響應式@media<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title&

自學Python之路--入門菜鳥的菜鳥篇：爬蟲

第一次寫部落格&第一次自學Python&第一次實戰

唯獨目前最火的Python,R等語言 一次都沒接觸過，因此藉此正好有空閒時間來自學一下Python

入門學習篇

實戰篇

分析

編寫Python

簡單分析：

工具

改進

相關推薦

唯獨目前最火的Python,R等語言一次都沒接觸過，因此藉此正好有空閒時間來自學一下Python