python定期爬取GitHub上每日流行專案

阿新 • • 發佈：2018-12-30

介紹一個在GitHub上看到的通用的python爬蟲，難度不大，是一個蠻好玩的點，順便總結一下python爬蟲的一些需要注意的點。
先上鍊接：github原始碼

1. 專案簡介

隨時關注最新的技術動向，永遠是一個程式設計師應該做到的，但我們不能做到每天去檢視，於是就誕生了這個repo（更正為原作者寫了這個repo），我們將爬蟲掛在Linux伺服器上，定期爬取並且推送到自己的repo上，只要有時間，就可以看到之前的所有熱門專案。

順便說一句這樣是不是還可以刷一波GitHub commit

程式碼po在了最後面

2. 關於python的私人總結

使用python開發爬蟲的時候需要注意哪些？

1.區分python版本

python 2.x 3.x 差別很大，如果遇到就編譯通不過，及早意識到進行修正還好，若是語法差別不大卻沒有意識到，有時候會給自己惹來很大的麻煩

2.關注幾種易於混淆的資料型別

Tuples
Lists
Dictionary
Json
需要格外關注這幾種型別之間的轉換，我們知道python是一種弱資料型別語言，但不代表著它的資料型別可以混用，反而，正因為弱化了宣告，才讓有些操作更加容易出錯，這時候我們需要做的，就是仔細閱讀文件，熟悉不同的用法。

Lists

Dictionary

3.注意合理使用第三方類庫

python相對於java等語言，最大的優勢就在於其具有很大規模的封裝良好的類庫，可以讓我們使用短短的幾行程式碼，實現很多功能。這裡列舉幾個常用的庫和框架：

virtualenv 建立獨立 Python 環境的工具。
Beautiful Soup 提供一些簡單的、python式的函式用來處理導航、搜尋、修改分析樹等功能簡單的說就是解析網頁

3. 程式碼

下面是註釋版程式碼，python2.7 用了requests PyQuery等幾個類庫
程式碼寫的比較明確了，就沒有過多註釋

#!/usr/local/bin/python2.7
# coding:utf-8

import datetime
import codecs
import requests
import os
import time
from pyquery import 
 PyQuery as pq

#git操作 推送到遠端repo
def git_add_commit_push(date, filename):
    cmd_git_add = 'git add .'
    cmd_git_commit = 'git commit -m "{date}"'.format(date=date)
    cmd_git_push = 'git push -u origin master'

    os.system(cmd_git_add)
    os.system(cmd_git_commit)
    os.system(cmd_git_push)


def createMarkdown(date, filename):
    with open(filename, 'w') as f:
        f.write("###" + date + "\n")


def scrape(language, filename):

    HEADERS = {
        'User-Agent'        : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.7; rv:11.0) Gecko/20100101 Firefox/11.0',
        'Accept'            : 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
        'Accept-Encoding'   : 'gzip,deflate,sdch',
        'Accept-Language'   : 'zh-CN,zh;q=0.8'
    }

    url = 'https://github.com/trending/{language}'.format(language=language)
    r = requests.get(url, headers=HEADERS)
    assert r.status_code == 200
    # print(r.encoding)

    d = pq(r.content)
    items = d('ol.repo-list li')

    # codecs to solve the problem utf-8 codec like chinese
    with codecs.open(filename, "a", "utf-8") as f:
        f.write('\n####{language}\n'.format(language=language))

        for item in items:
            i = pq(item)
            title = i("h3 a").text()
            owner = i("span.prefix").text()
            description = i("p.col-9").text()
            url = i("h3 a").attr("href")
            url = "https://github.com" + url
            # ownerImg = i("p.repo-list-meta a img").attr("src")
            # print(ownerImg)
            f.write(u"* [{title}]({url}):{description}\n".format(title=title, url=url, description=description))
#定時爬取對應語言的並寫入到markdown文字中
def job():
    strdate = datetime.datetime.now().strftime('%Y-%m-%d')
    filename = '{date}.md'.format(date=strdate)
    # create markdown file
    createMarkdown(strdate, filename)
    # write markdown
    scrape('python', filename)
    scrape('swift', filename)
    scrape('javascript', filename)
    scrape('go', filename)
    scrape('Objective-C', filename)
    scrape('Java', filename)
    scrape('C++', filename)
    scrape('C#', filename)

    # git add commit push
    git_add_commit_push(strdate, filename)
#主函式
if __name__ == '__main__':
    while True:
        job()
        time.sleep(12 * 60 * 60)

4. 擴充套件及埋坑下集預告

這裡分享幾個python相關的重要連結，看了一定會有收穫（尤其是前兩者），而且很大，沒效果你回來打我（匿

下面準備把oschina一個類似的東西一塊爬一下，push到repo裡

接下來準備寫一個爬取學校教務系統驗證碼並訓練識別的文章，敬請期待。

歡迎各位在評論區批評指正若是覺得碼字不易，也可以讚賞啊Orz

python定期爬取GitHub上每日流行專案

介紹一個在GitHub上看到的通用的python爬蟲，難度不大，是一個蠻好玩的點，順便總結一下python爬蟲的一些需要注意的點。先上鍊接：github原始碼 1. 專案簡介隨時關注最新的技術動向，永遠是一個程式設計師應該做到的，但我們不能做到

爬取github上流行的python項目

fin .get get cnblogs rep 地址 ges name req # -*- coding:utf-8 -*- __author__ = "MuT6 Sch01aR" import requests from pyquery import PyQue

Python爬蟲爬取網站上的圖片

python爬蟲爬取github專案裡的評論

這幾天因為實驗需要，對github上的bitcoin裡的評論資訊進行了爬取。現在貼出原始碼： import urllib.request import re from bs4 import BeautifulSoup import io import sys import

誰說Python不能爬取APP上面的數據？看我把快手視頻弄到手！

網絡設置 5.5 .com 熱門 user imp 9.4 type prev 設置代理，重啟，下一步，查看本機ip 手機打開網絡設置通過代理服務器；設置好，刷新快手app 看到請求，去找自己要用的，非了九牛二虎之力找到了

Python - 爬蟲爬取和登陸github

用API搜尋GitHub中star數最多的前十個庫，並用post方法登陸並點選收藏一用API搜尋GitHub中star數最多的前十個庫利用GitHub提供的API爬取前十個star數量最多的Python庫 GitHub提供了很多專門為爬蟲準

2018年GitHub上最流行50大Python開源專案(上)

近日開源眾包平臺IssueHunt（這是一個開源專案的賞金平臺）評選出了2018年GitHub上最流行的50個Python開源專案下面我們一起來看看上榜的專案都有哪些： 1) TensorFlow Models 如果你對機器學習和深度學習感興趣

用python爬蟲爬取和登陸github

一利用API簡單爬取利用GitHub提供的API爬取前十個star數量最多的Python庫 GitHub提供了很多專門為爬蟲準備的API介面，通過介面可以爬取到便捷，易處理的資訊。（這是GitHub官網的各種api介紹）使用到的庫 import re

用Python爬取網頁上的小說，讓你從此告別書荒！

eset 爬取網頁網站鏈接表頭寫入改變 span 人生人生苦短，我用Python。有道愛看小說的小夥伴們，在看小說的期間總會遇到那麽一段書荒期，在這段期間想看書卻找不到，要麽就是要VIP，要麽就是下載不了。所以學會爬取網站上的小說是很有必要的，今天就以爬取筆趣閣

python爬取網站上的圖片並儲存到本地

　　1.匯入需要的模組requests，BeautifulSoup，os（用於檔案讀寫）。　　2.建立一個類，並初始化。 class BeautifulPicture: def __init__(self): # 類的初始化操作 self.headers = {

python爬蟲——爬取知乎上自己關注的問題

與之前爬的網站圖片的不同的是，現在爬取的是要自己個人的關注的東西，所以需要做到模擬登入。模擬登入的原理是登入網站後，在瀏覽器上獲取儲存的cookies資訊，填充之後與請求一起傳送。如果前面的爬取圖片的會爬取了，對於這個解析字串的也沒有多大問題了。一直看著知乎上很多程式設計師把

2018年GitHub上最流行50大Python開源專案（下）

近日開源眾包平臺IssueHunt（這是一個開源專案的賞金平臺）評選出了2018年GitHub上最流行的50個Python開源專案，上次我們盤點了前面25個專案：《2018年GitHub上最流行50大Python開源專案（上）》下面我們一起來看看上榜的專案都有哪些： &n

[Python]如何簡單的爬取網站上的圖片。

為了熟練的運用協程，接下來的程式碼將用協程來實現。只是一個簡單的小demo。 import gevent import urllib.request import re from gevent import monkey monkey.patch_all() def

利用Python爬取YouTube上的視訊播放地址

開啟www.youtube.com, 隨便選擇一個topic（我這裡選的是lion king），再過濾選擇時長小於4分鐘右鍵檢視原始碼資訊紅色框內的就是視訊的地址，利用正則表示式，很容易的就可

[原創]python爬蟲之BeautifulSoup,爬取網頁上所有圖片標題並存儲到本地文件

%20 分享圖片本地 col cbc quest 執行 python div from bs4 import BeautifulSoup import requests import re import os r = requests.get("https:/

利用Python爬取OPGG上英雄聯盟英雄勝率及選取率資訊

一、分析網站內容本次爬取網站為opgg，網址為：” http://www.op.gg/champion/statistics” 由網站介面可以看出，右側有英雄的詳細資訊，以Garen為例，勝率為53.84%，選取率為16.99%，常用位置為上單現對網頁原始碼進行分析（右鍵滑鼠在選單中即可找到檢視網頁原始

Python爬蟲-爬取糗事百科段子

hasattr com ima .net header rfi star reason images 閑來無事，學學python爬蟲。在正式學爬蟲前，簡單學習了下HTML和CSS，了解了網頁的基本結構後，更加快速入門。 1.獲取糗事百科url http://www.qiu

Github上比較流行的PHP擴展庫項目

負載均衡 red rpo erp comet open 任務調度運行開發這裏列出比較常用的PHP開源擴展庫項目： swoole， C擴展實現的PHP異步並行網絡通信框架，可以重新定義PHP。過去PHP只能做Web項目，現在有了Swoole。任意服務器端程序都可以用P

python爬蟲爬取頁面源碼在本頁面展示

一個 nts ring 想要 strip code 空白列表 ngs python爬蟲在爬取網頁內容時，需要將內容連同內容格式一同爬取過來，然後在自己的web頁面中顯示，自己的web頁面為django框架首先定義一個變量html，變量值為一段HTML代碼 >&

python 爬蟲爬取證券之星網站

爬蟲周末無聊，找點樂子。。。#coding:utf-8 import requests from bs4 import BeautifulSoup import random import time #抓取所需內容 user_agent = ["Mozilla/5.0 (Windows NT 10.0

python定期爬取GitHub上每日流行專案

1. 專案簡介

2. 關於python的私人總結

1.區分python版本

2.關注幾種易於混淆的資料型別

3.注意合理使用第三方類庫

3. 程式碼

4. 擴充套件及埋坑 下集預告

相關推薦

4. 擴充套件及埋坑下集預告