中國大學MOOC課程資訊爬取與資料儲存

阿新 • • 發佈：2018-12-18

寫在前面

暑假沒事玩玩爬蟲，看到中國大學MOOC便想爬取它所有課程資訊。無奈，它不是靜態網頁，課程資料都是動態載入的。而爬取動態頁面目前來說有兩種方法：

分析頁面Ajax請求
selenium模擬瀏覽器行為

可能方法不正確，我嘗試了前者發現行不通，便採用了後者。由於第一次寫部落格且自己程式設計能力有限，文中有不足或需要改進的地方請不吝賜教。

環境配置及模組安裝

編譯環境： Python3.6 、Spyder

依賴模組：pymysql，selenuim，bs4，re等

另外還要下載chromedriver並配置，參考這篇文章

簡要分析流程

主頁分析

主頁上便有課程類別，可以將其儲存為字典，通過不同課程類別便可到達相應課程類別介面。

subjects={'全部':'all_sub','計算機':'computer','經濟管理':'management','心理學':'psychology',
         '外語':'language','文學歷史':'literary_history','藝術設計':'art','工學':'engineering',
         '理學':'science','生命科學':'biomedicine','哲學':'philosophy','法學':'law',
         '教育教學':'teaching_method','大學先修課':'advanced_placement','職業教育課程':'TAFE'}
for i,subject in enumerate(subjects):
     subject_Eng=subjects[subject]
     mooc_crawl(subject,subject_Eng)

每個頁面都有都可找到多個這樣的課程資訊。

點選下一頁可實現翻頁。

2.網頁解析

載入Chrome網頁

url = 'http://www.icourse163.org/category/all' 
driver = webdriver.Chrome()  
driver.set_page_load_timeout(50)  
driver.get(url)  
driver.maximize_window() # 將瀏覽器最大化顯示  
driver.implicitly_wait(5) # 控制間隔時間，等待瀏覽器反應

選擇課程類別，模擬點選;獲取網頁原始碼，Beautifulsou解析

ele=driver.find_element_by_link_text(subject)
ele.click()
htm_const = driver.page_source  
soup = BS(htm_const,'xml')

返回soup物件，便可看到動態載入好的網頁原始碼。由於是txt文件，雖然不好檢視，但並不妨礙我們找到需要的資訊。從上面截圖可以看到了一些課程的課程名、開課老師、網頁連結、參與人數等。因此從這裡入手，我們便可得到該頁面的課程資訊！

c_names=soup.find_all(name='img',attrs={'height':'150px'})
c_schools=soup.find_all(name='a',attrs={'class':'t21 f-fc9'})
c_teachers=soup.find_all(name='a',attrs={'class':'f-fc9'})
c_introductions=soup.find_all(name='span',attrs={'class':'p5 brief f-ib f-f0 f-cb'})
c_stunums=soup.find_all(name='span',attrs={'class':'hot'})
c_start_times=soup.find_all(name='span',attrs={'class':'txt'})
c_links=soup.find_all(name='span',attrs={'class':' u-course-name f-thide'})
for i in range(len(c_names)):
     kc_names.append(c_names[i]['alt'])
     kc_schools.append(c_schools[i].string)
     kc_teachers.append(c_teachers[i].string)
     if c_introductions[i].string ==None:
         c_introduction=''
     else:
         c_introduction=c_introductions[i].string
     kc_introductions.append(c_introduction)
     c_stunum=re.compile('[0-9]+').findall(c_stunums[i].string)[0]
     kc_stunums.append(int(c_stunum))
     kc_start_times.append(c_start_times[i].string)
     kc_links.append('http:'+c_links[i].parent['href'])
     c_id_num=re.compile('[0-9]{4,}').findall(c_links[i].parent['href'])[0]
     kc_id_nums.append(int(c_id_num))
kc_info=[kc_names,kc_schools,kc_teachers,kc_introductions,kc_stunums,kc_start_times,kc_links,kc_id_nums]

如下：

接下來，便是資料儲存啦。

資料儲存

由於mysql功能強大，操作簡便，python對其支援性較好，我就選用了mysql。不過其他資料庫皆可，資料儲存原理大同小異。在實現過程中，遇到了很多問題（SQL語句報錯，主鍵的設定讓每次插入資料都不重複，以變數為表單名的表單建立等等），好在花了一些功夫後，最終得以解決。下面是存入資料庫函式：

def save_mysql(subject,kc_info):     
    db = pymysql.connect(host='localhost',user='root',passwd='root',db='mooc_courses',charset='utf8')
    cur = db.cursor()
    try:
        cur.execute("select * from %s"% subject)  
        results=cur.fetchall()
        ori_len=len(results) 
    except:
        #建立新表
        sql = "create table %s"% subject+"(order_num int(4) not null,\
         course varchar(50),\
         school varchar(20),\
         teacher varchar(20),\
         start_time varchar(20),\
         stu_num int(6),\
         introduction varchar(255),\
         link varchar(50),\
         id int(11) not null,\
         primary key(id)\
         )"
        cur.execute(sql)
        db.commit() 
        ori_len=0
        print('已在mooc_course資料庫中建立新表'+subject)
    for i in range(len(kc_info[0])):
        cur = db.cursor()
        sql = "insert into %s"% subject+"(order_num,course,school,teacher,introduction,stu_num,start_time,link,id) VALUES ('%d','%s','%s','%s','%s','%d','%s','%s','%d')" %\
          (ori_len+i,kc_info[0][i],kc_info[1][i],kc_info[2][i],kc_info[3][i],kc_info[4][i],kc_info[5][i],kc_info[6][i],kc_info[7][i])#執行資料庫插入操作
        try:
            # 使用 cursor() 方法建立一個遊標物件 cursor
            cur.execute(sql)
        except Exception as e:
            # 發生錯誤時回滾
            db.rollback()
            print('第'+str(i+1)+'資料存入資料庫失敗！'+str(e))
        else:
            db.commit()  # 事務提交
            print('第'+str(i+1)+'資料已存入資料庫')
    db.close()

噹噹噹！修成正果，部分資料展示如下：

執行整個程式一共花了：726s，效率有待提高。不過對於我來說，還過得去。（實在不行，加多執行緒撒）。當然，資料爬取了，必須利用嘛，不然放在那裡養老不？有空，我做做資料分析，看看什麼課最受歡迎，哪些院校開課最多等等。。。。。。

中國大學MOOC課程資訊爬取與資料儲存

寫在前面

環境配置及模組安裝

簡要分析流程

資料儲存

中國大學MOOC課程資訊爬取與資料儲存

中國大學MOOC課程《程式設計入門——C語言》第5周程式設計練習

中國大學 MOOC 課程《Python 語言程式設計》第五週課後習題

中國大學 MOOC 課程《Python 語言程式設計》第六週課後習題

將爬取的資料儲存到mysql中

python 將爬取的資料儲存在資料庫裡

scrapy 爬取的資料儲存到exce表格中

使用selenium + chrome爬取中國大學Mooc網的計算機學科的所有課程鏈接

Python網路爬蟲與資訊提取（中國大學mooc）

★ Python爬蟲 - 爬取網頁文字資訊並儲存（美文的爬取與儲存）

11-雜湊3 QQ帳戶的申請與登陸（25 分）中國大學MOOC-陳越、何欽銘-資料結構-2018秋

中國大學MOOC-人工智慧實踐：Tensorflow筆記-課程筆記 Chapter5

關於C++學習 && 中國大學MOOC計算機程式設計（C++）課程程式碼

pyhont---信息的爬取與提取---requests庫

pyhont---信息的爬取與提取---bs4，BeautifulSoup，re庫

中國大學MOOC—基礎學Java語言----第6周程式設計題——單詞長度（5分）

中國大學MOOC 零基礎學Java語言 ——多項式加法（5分） 4分答案（想哭）

演算法學習——中國大學MOOC-陳越、何欽銘-資料結構-起步能力自測題——java程式碼實現

MOOC課程資訊D3.js動態視覺化

[Python] [爬蟲] 1.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲概要——脫離Scrapy框架

中國大學MOOC課程資訊爬取與資料儲存

寫在前面

環境配置及模組安裝

簡要分析流程

資料儲存

相關推薦