爬取騰訊課堂的課程評論

阿新 • • 發佈：2018-12-07

最近想了解一下線上教育的課程的如何去選擇，課程的質量如何？所以試著去爬了一下騰訊課堂，只爬了IT網際網路這一項。

通過分析發現要想爬取到評論需要是個步驟：

解析學習方向，如下圖所示：

學習方向
通過開發者工具審查元素，發現標籤在<dl class="sort-menu sort-menu1 clearfix">下

然後去寫解析程式碼：

·	# _pattern表示解析href的正則表示式
	def get_menu_link(self, url, _pattern):
	        headers = {
	            'user-agent': self.round_header()
	        }
	        start = time.perf_counter()
	        res = self.s.get(url, headers=headers)
	        if res is None:
	            return
	        content = res.text
	        menu_pattern = re.compile(r'<dl class="sort-menu sort-menu1 clearfix">(.*?)</dl>', re.S)
	        menu = re.findall(menu_pattern, content)
	        link_paternt = re.compile(_pattern, re.S | re.M)
	        if len(menu) != 0:
	            links = re.findall(link_paternt, menu[0])
	            end = time.perf_counter()
	            _time = end - start
	            print('{0}解析成功，共耗時：{1:f}s'.format(url, _time))
	            for item in links:
	                item = item.replace('&amp;', '&')
	                link = 'https://ke.qq.com{0}'.format(item)
	                yield link
	        else:
	            end = time.perf_counter()
	            _time = end - start
	            print('{0}解析失敗！！！，共耗時：{1:f}s'.format(url, _time))
	            return None

解析學習方向下的分類，如下圖所示（發現與第一步相似）：

到這裡就要解析課程資訊了，全部課程都在<ul class="course-card-list" auto-test="">下，如圖所示：

解析程式碼如下：

	def get_course_list(self, url):
        headers = {
            'user-agent': self.round_header()
        }
        start = time.perf_counter()
        res = self.s.get(url, headers=headers)
        if res is None:
            return
        content = res.text
        course_card_list_pattern = re.compile(r'<ul class="course-card-list.+?">\s+(.+)\s+</ul>', re.S)
        course_card_list = re.findall(course_card_list_pattern, content)
        course_list_pattern = re.compile(r'<li class="course-card-item.*?">.*?<h4 class="item-tt">\s+'
        + r'<a href="(.*?)" target="_blank" class="item-tt-link.*?">(.*?)</a>\s+</h4>.*?<div '
        + r'class="item-line.*?middle">\s+<span class="line-cell.*?">\s+(.*?)\s+</span>\s+<span '
        + r'class="item-source">.*?class="item-source-link.*?">(.*?)</a>\s+.*?<div '
        + r'class="item-line.*?bottom">\s+<span class="line-cell item-price free">(.*?)</span>\s+</div>\s+</li>',
         re.S)
        if len(course_card_list) != 0:
        #這裡只獲取了前三個
            course_list = re.findall(course_list_pattern, course_card_list[0])[0:3]
            end = time.perf_counter()
            _time = end - start
            print('解析成功，共耗時：{0}s'.format(_time))
            for item in course_list:
                yield {
                    'url': 'https:{0}'.format(item[0]),
                    'courseName': item[1],
                    'num': item[2],
                    'source': item[3],
                    'fee': item[4]
                }
        else:
            end = time.perf_counter()
            _time = end - start
            print('在該連結下沒有找到課程列表，共耗時：{0}s'.format(_time))
            return None

最後到了獲取評論，發現是動態獲取的，所以要去分析傳送請求中的引數

在這裡插入圖片描述
好了，引數都分析好了，接著看程式碼：

	def get_comment(self, url, params, headers):
        res = self.get(url, params=params, headers=headers)
        if res is None:
            return
        #解析json成Python物件
        result = json.loads(res.text).get('result')
        return {
            'total_page': result.get('total_page'),
            'comments': result.get('items'),
            'total_num': result.get('total_num')
        }
    # 獲取cid
    cid = re.search(r'/(\d+)', _url).group(1)
    # 獲取19位隨機數
    r = eval('{0:.18f}'.format(random.random())[0:19])
    params = {
		'cid': cid,
		'count': 10,
		'page': 0,
		 'filter_rating': 0,
		'bkn': '',
		'r': r
	}
	headers = {
		'user-agent': t.round_header(),
		'referer': _url,
		'cookie': 'pgv_info=ssid=s6819497920; ts_last=ke.qq.com/course/144558; pgv_pvid=1821056816; ts_uid=7896600315; _pathcode=0.9075570219139721; tdw_auin_data=-; tdw_data={"ver4":"4","ver6":"","refer":"","from_channel":"","path":"eh-0.9075570219139721","auin":"-","uin":null,"real_uin":null}; tdw_first_visited=1; Hm_lvt_0c196c536f609d373a16d246a117fd44=1543998342; Hm_lpvt_0c196c536f609d373a16d246a117fd44=1543998342; tdw_data_new_2={"auin":"-","sourcetype":"","sourcefrom":"","uin":"","visitor_id":"53087919"}'
 	}
 	__url = 'https://ke.qq.com/cgi-bin/comment_new/course_comment_list'
	print('獲取cid：{0}的評論'.format(cid), end='\t')
	comments = t.get_comment(__url, params, headers=headers)
	coures.update(comments)

到這裡整個爬蟲就寫完了，全部程式碼如下：

import requests as req
import sys
import io
import time
import re
import random
import json
import csv
from utils.spider import Spider

class Ten(Spider):
    def __init__(self, url):
        Spider.__init__(self, url)
        self.url = url
        self.s = req.Session()
        self.flag = 1

    def get_menu_link(self, url, _pattern):
        headers = {
            'user-agent': self.round_header()
        }
        start = time.perf_counter()
        res = self.s.get(url, headers=headers)
        if res is None:
            return
        content = res.text
        menu_pattern = re.compile(r'<dl class="sort-menu sort-menu1 clearfix">(.*?)</dl>', re.S)
        menu = re.findall(menu_pattern, content)
        link_paternt = re.compile(_pattern, re.S | re.M)
        if len(menu) != 0:
            links = re.findall(link_paternt, menu[0])
            end = time.perf_counter()
            _time = end - start
            print('{0}解析成功，共耗時：{1:f}s'.format(url, _time))
            for item in links:
                item = item.replace('&amp;', '&')
                link = 'https://ke.qq.com{0}'.format(item)
                yield link
        else:
            end = time.perf_counter()
            _time = end - start
            print('{0}解析失敗！！！，共耗時：{1:f}s'.format(url, _time))
            return None

    def get_course_list(self, url):
        headers = {
            'user-agent': self.round_header()
        }
        start = time.perf_counter()
        res = self.s.get(url, headers=headers)
        if res is None:
            return
        content = res.text
        course_card_list_pattern = re.compile(r'<ul class="course-card-list.+?">\s+(.+)\s+</ul>', re.S)
        course_card_list = re.findall(course_card_list_pattern, content)
        course_list_pattern = re.compile(r'<li class="course-card-item.*?">.*?<h4 class="item-tt">\s+'
        + r'<a href="(.*?)" target="_blank" class="item-tt-link.*?">(.*?)</a>\s+</h4>.*?<div '
        + r'class="item-line.*?middle">\s+<span class="line-cell.*?">\s+(.*?)\s+</span>\s+<span '
        + r'class="item-source">.*?class="item-source-link.*?">(.*?)</a>\s+.*?<div '
        + r'class="item-line.*?bottom">\s+<span class="line-cell item-price free">(.*?)</span>\s+</div>\s+</li>',
         re.S)
        if len(course_card_list) != 0:
            course_list = re.findall(course_list_pattern, course_card_list[0])[0:3]
            end = time.perf_counter()
            _time = end - start
            print('解析成功，共耗時：{0}s'.format(_time))
            for item in course_list:
                yield {
                    'url': 'https:{0}'.format(item[0]),
                    'courseName': item[1],
                    'num': item[2],
                    'source': item[3],
                    'fee': item[4]
                }
        else:
            end = time.perf_counter()
            _time = end - start
            print('在該連結下沒有找到課程列表，共耗時：{0}s'.format(_time))
            return None
    
    def get_comment(self, url, params, headers):
        res = self.get(url, params=params, headers=headers)
        if res is None:
            return
        result = json.loads(res.text).get('result')
        return {
            'total_page': result.get('total_page'),
            'comments': result.get('items'),
            'total_num': result.get('total_num')
        }
    
    def save(self, data):
        fieldnames = ['url', 'courseName', 'num', 'source', 'fee', 'total_num', 'total_page', 'comments']
        file_name = 'mooc.csv'
        with open(file_name, 'a+', newline='', encoding='utf-8') as f:
            w = csv.DictWriter(f, fieldnames)
            if self.flag == 1:
                w.writeheader()
                self.flag = 0
            w.writerow(data)
            

if __name__ == "__main__":
    # it 網際網路
    # 第一步先解析網際網路下的分類URL
    # 第二步解析一級選單下的分類
    # 第三步解析二級選單下的前三個課程連結
    # 第四步解析課程中的評論
    url = 'https://ke.qq.com/course/list?mt=1001'
    list_no = []
    t = Ten(url)
    # 1.
    link_paternt = r'<dd class="">\s+<\w+></\w+>\s+<a href="(.*?)" title=".*?">.*?</a>\s+</dd>'
    print('--------開始爬取--------')
    links = t.get_menu_link(url, link_paternt)
    if links is not None:
        for item in links:
            # 2.
            option_pattern = r'<dd class="">\s+<a href="(.*?)" title=".*?">.*?</a>\s+</dd>'
            options = t.get_menu_link(item, option_pattern)
            time.sleep(2)
            if options is not None:
                for option in options:
                    print('開始解析{}'.format(option), end=' ====>> ')
                    # 3
                    course_list = t.get_course_list(option)
                    time.sleep(2)
                    if course_list is None:
                        list_no.append(option)
                        continue
                    else:
                        for coures in course_list:
                            _url = coures.get('url')
                            # 4
                            cid = re.search(r'/(\d+)', _url).group(1)
                            r = eval('{0:.18f}'.format(random.random())[0:19])
                            params = {
                                'cid': cid,
                                'count': 10,
                                'page': 0,
                                'filter_rating': 0,
                                'bkn': '',
                                'r': r
                            }
                            headers = {
                                'user-agent': t.round_header(),
                                'referer': _url,
                                'cookie': 'pgv_info=ssid=s6819497920; ts_last=ke.qq.com/course/144558; pgv_pvid=1821056816; ts_uid=7896600315; _pathcode=0.9075570219139721; tdw_auin_data=-; tdw_data={"ver4":"4","ver6":"","refer":"","from_channel":"","path":"eh-0.9075570219139721","auin":"-","uin":null,"real_uin":null}; tdw_first_visited=1; Hm_lvt_0c196c536f609d373a16d246a117fd44=1543998342; Hm_lpvt_0c196c536f609d373a16d246a117fd44=1543998342; tdw_data_new_2={"auin":"-","sourcetype":"","sourcefrom":"","uin":"","visitor_id":"53087919"}'
                            }
                            __url = 'https://ke.qq.com/cgi-bin/comment_new/course_comment_list'
                            print('獲取cid：{0}的評論'.format(cid), end='\t')
                            comments = t.get_comment(__url, params, headers=headers)
                            coures.update(comments)
                            t.save(coures)

爬取騰訊課堂的課程評論

最近想了解一下線上教育的課程的如何去選擇，課程的質量如何？所以試著去爬了一下騰訊課堂，只爬了IT網際網路這一項。通過分析發現要想爬取到評論需要是個步驟：解析學習方向，如下圖所示：通過開發者工具審查元素，發現標籤在<dl class="sort-me

教你爬取騰訊課堂、網易雲課堂、mooc等所有課程資訊

本文的所有程式碼都在GitHub上託管，想要程式碼的同學請點選這裡

Python 爬取騰訊電視劇評論

視頻評論爬取騰訊定向爬取騰訊電視劇評論本例思路：打開評論頁面，通過fiddler提取加載評論頁面的網址，對比分析url，構造內容和用戶pattern，然後爬取輸出。1，打開電視劇如果愛頁面https://v.qq.com/x/cover/zjfjxmtdzhowjoz.html，找到下圖影評位置，

Python網絡爬蟲Scrapy+MongoDB +Redis實戰爬取騰訊視頻動態評論教學視頻

並發數 www. 深入圖例編程 ppt 研發 read 網絡爬蟲課程簡介學習Python爬蟲開發數據采集程序啦！網絡編程，數據采集、提取、存儲，陷阱處理……一站式全精通！！！目標人群掌握Python編程語言基礎，有誌從事網絡爬蟲開發及數據采集程序開發的人群。學習目

python 爬取騰訊視訊的全部評論

## 一、網址分析查閱了網上的大部分資料，大概都是通過抓包獲取。但是抓包有點麻煩，嘗試了F12，也可以獲取到評論。以[電視劇《在一起》](https://v.qq.com/x/cover/mzc00200jg5gfcq.html)為例子。評論最底端有個**檢視更多評論**猜測過去應該是 Ajax 的非同步載

python+scrapy入門教程之爬取騰訊招聘職位資訊

我是用的IDE是pycharm,要想使用scrapy我們先安裝模組file-settings-project Interpreter 安裝完成之後我們開啟Terminal 在終端輸入：scrapy startproject tencent 建立spiders我們需要進入spi

用etree和Beautiful Soup爬取騰訊招聘網站

1.lxml 是一種使用 Python 編寫的庫,可以迅速、靈活地處理 XML ，支援 XPath (XML Path Language)，使用 lxml 的 etree 庫來進行爬取網站資訊 2.Beautiful Soup支援從HTML或XML檔案中提取資料的Python庫；支援Python標準庫中的H

scrapy-redis例項，分佈爬蟲爬取騰訊新聞，儲存在資料庫中

本篇文章為scrapy-redis的例項應用，原始碼已經上傳到github: https://github.com/Voccoo/NewSpider 使用到了： python 3.x redis scrapy-redis pymysql Redis-Desktop-Manage

Python爬蟲-爬取騰訊QQ招聘崗位資訊（Beautiful Soup）

爬取騰訊招聘資訊-Beautiful Soup --------------------------------------- ============================================ =================================

Python3.7爬取騰訊地圖關鍵詞位置及電話資訊

朋友創業需要拓展客戶，閒來無事幫朋友搞些資料，網上看到的全是爬取百度地圖的資料，無奈百度地圖AK一直申請不來，便摸索著做個騰訊地圖的小爬蟲，些許小感慨：資料時代，共享無限，隱私難藏啊！實現功能通過指定關鍵詞，自動搜尋騰訊地圖全國範圍內的相關位置及電話資訊，並將結果輸出

python爬蟲3——爬取騰訊招聘全部招聘資訊

python爬蟲2中，已經有了初步的程式碼，之後做了優化增加了工作職責、工作要求：獲取的資料有：程式碼如下： #!/usr/bin/env python # -*- coding:utf-8 -*- from bs4 import BeautifulS

python requests 爬取騰訊科技的新聞

昨天收到一道面試題爬取http://tech.qq.com/articleList/rolls/的新聞，當時看到的時候簡直簡單爆了，事實證明的確是，將將將，就是這個頁面，很普通啊，開幹。。。 1.首先發現在檢視原始碼的時候看不見這些資料，所以需要js抓一下，注意到

Python3 +Scrapy 爬取騰訊控股股票資訊存入資料庫中

目標網站：http://quotes.money.163.com/hkstock/cwsj_00700.html每支股票都有四個資料表找到這四個資料表的資訊所在資料名第一條到第三條資料所在其他三個表也是這樣子尋找，找到資料後，就可以動手爬取了。於2018\3\17 重寫。一.

python爬蟲學習筆記（一）—— 爬取騰訊視訊影評

前段時間我忽然想起來，以前本科的時候總有一些公眾號，能夠為我們提供成績查詢、課表查詢等服務。我就一直好奇它是怎麼做到的，經過一番學習，原來是運用了爬蟲的原理，自動登陸教務系統爬取的成績等內容。我覺得挺好玩的，於是自己也琢磨了一段時間，今天呢，我為大家分享一個爬蟲

python爬蟲--scrapy爬取騰訊招聘網站

背景：虛擬機器Ubuntu16.04，爬取https://hr.tencent.com/招聘資訊！第一步：新建專案：scrapy startproject tencent第二步：編寫items檔案 1 # -*- coding: utf-8 -*- 2 3 # D

資料採集（三）：用XPath爬取騰訊新聞

需要匯入的庫 import requests from lxml import etree 先用requests.get()方法請求頁面 result=requests.get("http://news.qq.com/") encode=resul

Python爬蟲練習——爬取騰訊新聞

在解析後的文字中，使用select選擇器，在文字中選擇指定的元素，通常我們還會使用find()和findall()方法來進行元素選擇。這一步返回的為一個列表，列表內的元素為匹配的元素的HTML原始碼。

<scrapy爬蟲>爬取騰訊社招信息

extra rul topic osi .org 接收處理 += doc 1.創建scrapy項目 dos窗口輸入: scrapy startproject tencent cd tencent 2.編寫item.py文件(相當於編寫模板,需要爬取的數據在這裏

Python爬蟲---爬取騰訊動漫全站漫畫

[TOC] ##操作環境 1. 編譯器：pycharm社群版 2. python 版本：anaconda python3.7.4 3. 瀏覽器選擇：Google瀏覽器 4. 需要用到的第三方模組：requests , lxml , selenium , time , bs4,os ##網頁分析 ###明確目標

爬蟲自動抓取騰訊視訊評論 -- json的使用和資料解析

　　這周和大家分享下騰訊視訊評論抓取爬蟲，實際抓下來的資料裡面除了評論還有其他不少有價值的資訊，有部分使用者資料可以使用的，不過具體就看大家自己怎麼用了。　　這個demo的具體原始碼在最後面，下文將對這個demo的實現過程進行說明。　　其實我挺期待有人評

爬取騰訊課堂的課程評論

最近想了解一下線上教育的課程的如何去選擇，課程的質量如何？所以試著去爬了一下騰訊課堂，只爬了IT網際網路這一項。

解析學習方向，如下圖所示：

解析學習方向下的分類，如下圖所示（發現與第一步相似）：

到這裡就要解析課程資訊了，全部課程都在<ul class="course-card-list" auto-test="">下，如圖所示：

相關推薦

到這裡就要解析課程資訊了，全部課程都在`<ul class="course-card-list" auto-test="">`下，如圖所示：