爬蟲入門之爬取靜態網頁表格資料

阿新 • • 發佈：2018-11-16

我們的目標就是將這個表格中的資料爬下來儲存成csv檔案
目標連結:http://www.zuihaodaxue.cn/zuihaodaxuepaiming2018.html
在這裡插入圖片描述

內容解析部分我更喜歡使用Pyquery 你也可以使用其他的解析方式

#!/usr/bin/env python 
# -*- coding: utf-8 -*-
import requests
from pyquery import PyQuery as pq


def get_page(url):
    """發起請求 獲得原始碼"""
    r = requests.get(url)
    r.encoding = 'utf8'
    html = r.text
    return html


def parse(text):
    """解析資料 寫入檔案"""
    doc = pq(text)
    # 獲得每一行的tr標籤
    tds = doc('table.table tbody tr.alt').items()
    for td in tds:
        rank = td.find('td:first-child').text()     # 排名
        name = td.find('div').text()  # 大學名稱
        city = td.find('td:nth-child(3)').text()    # 城市
        score = td.find('td:nth-child(4)').text()   # 總分
        with open('college.csv', 'a+', encoding='utf8') as f:
            f.write(rank + '\t\t')
            f.write(name + '\t\t')
            f.write(city + '\t\t')
            f.write(score + '\t\t\n')
    print("寫入完成")


if __name__ == "__main__":
    url = "http://www.zuihaodaxue.cn/zuihaodaxuepaiming2018.html"
    text = get_page(url)
    parse(text)

執行程式碼之後檢視檔案

在這裡插入圖片描述

爬蟲入門之爬取靜態網頁表格資料

我們的目標就是將這個表格中的資料爬下來儲存成csv檔案目標連結:http://www.zuihaodaxue.cn/zuihaodaxuepaiming2018.html 內容解析部分我更喜歡使用Pyquery 你也可以使用其他的解析方式 #!/usr/bin/env py

Python 爬蟲入門之爬取妹子圖

Python 爬蟲入門之爬取妹子圖來源：李英傑連結： https://segmentfault.com/a/1190000015798452 聽說你寫程式碼沒動力？本文就給你動力，爬取妹子圖。如果這也沒動力那就沒救了。 GitHub 地址:&

python爬蟲入門之爬取小說.md

新手教學：用Python爬取小說我們在學習Python之餘總想著讓其更具趣味性，可以更好地學習。下面我將講解如何去從網站中爬取我們想看的小說。讓我們枯燥無聊的學習生涯稍微多些趣味。需要只是一點點對requests庫、Beautiful庫及python基礎知識

Python爬蟲入門（爬取某網頁財經部分股票資料）

1：反思部分之前上學期也是看過一點點爬蟲的東西，然後時間太久了也基本哪裡學的又還給哪裡了。然後這兩週的時間被班主任的要求下開始一點一點接觸爬蟲，開始的時候覺的很害怕。可能是因為我這個人的性格，對於未接觸過的事物總有一些莫名的恐懼感，而且之前做東西總習慣了旁邊

python 爬蟲入門(二) 爬取簡單網頁並儲存到本地

import refrom urllib.request import Request, urlopen#爬蟲基本的三個步驟:1.向頁面傳送請求, 獲取原始碼(都是靜態頁面的程式碼);2, 利用正則匹配資料;3 .儲存到資料庫class DataParserTool(obje

python爬蟲例項之爬取智聯招聘資料

這是作者的處女作，輕點噴。。。。實習在公司時領導要求學習python，python的爬蟲作為入門來說是十分友好的，話不多說，開始進入正題。主要是爬去智聯的崗位資訊進行對比分析出java和python的趨勢，爬取欄位：工作地點，薪資範圍，要求學歷，

Python3網路爬蟲：Scrapy入門實戰之爬取動態網頁圖片

Python版本： python3.+ 執行環境： Mac OS IDE： pycharm 一前言二 Scrapy相關方法介紹 1 搭建Scrapy專案 2 shell分析三網頁分析

爬蟲簡易入門程式碼-爬取簡單網頁圖片

# -*- coding: utf-8 -*- """ Created on Mon Jul 9 22:12:07 2018 @author: name """ #!/usr/bin/env Python3 # -*- encodin

C# 爬取靜態網頁入門

目錄確定目標內容和目標站點分析目標站點結構網頁獲取網頁節點解析分析天氣網頁結構總結爬蟲分為兩種，靜態網頁爬蟲和動態網頁爬蟲，相比較於動態網頁爬蟲而言很簡單，靜態網頁的爬取不需要執行如JavaScript類似的程式碼，只需要獲取頁面Html程式碼，並解析目

Python爬蟲入門 | 4 爬取豆瓣TOP250圖書信息

Python 編程語言 Python爬蟲先來看看頁面長啥樣的:https://book.douban.com/top250 我們將要爬取哪些信息：書名、鏈接、評分、一句話評價……1. 爬取單個信息我們先來嘗試爬取書名，利用之前的套路，還是先復制書名的xpath：得到第一本書《追風箏的人》的書名xpath如下：

Python爬蟲入門 | 5 爬取小豬短租租房信息

圖片交流 ffffff 信息 jpg http 而已基本 mat 小豬短租是一個租房網站，上面有很多優質的民宿出租信息，下面我們以成都地區的租房信息為例，來嘗試爬取這些數據。小豬短租（成都）頁面：http://cd.xiaozhu.com/1.爬取租房標題按照慣例，

Python 爬蟲入門(一)——爬取糗百

upa ext win comment 地址 odi 批量爬蟲程序 article 爬取糗百內容 GitHub 代碼地址https://github.com/injetlee/Python/blob/master/qiubai_crawer.py 微信公眾號：【智能制造專

Python進階(十八)-Python3爬蟲小試牛刀之爬取CSDN部落格個人資訊

分享一下我的偶像大神的人工智慧教程！http://blog.csdn.net/jiangjunshow 也歡迎轉載我的文章，轉載請註明出處 https://blog.csdn.net/mm2zzyzzp Python進階(十八)-Python3爬蟲實踐

python 學習 - 爬蟲入門練習爬取鏈家網二手房資訊

import requests from bs4 import BeautifulSoup import sqlite3 conn = sqlite3.connect("test.db") c = conn.cursor() for num in range(1,101): url = "h

Python 爬蟲爬取單個基因表格資料的生物學功能（urllib+正則表示式）：

Python 爬蟲爬取單個基因的生物學功能（urllib+正則表示式）： import re import urllib from urllib import request url = 'https://www.ncbi.nlm.nih.gov/gene/?term=FUT1'

python 爬取靜態網頁

# python 3.6.3 import re from urllib import request # '''網址''' 圖片_百度百科獲取整個網頁的程式碼 url = 'https://baike.baidu.com/item/%E5%9B%BE%E7%89%87/372416?fr

python爬蟲學習之爬取全國各省市縣級城市郵政編碼

例項需求：運用python語言在http://www.ip138.com/post/網站爬取全國各個省市縣級城市的郵政編碼，並且儲存在excel檔案中例項環境：python3.7　　　　　　 requests庫(內建的python庫，無需手動安裝)　　　　　　 xlwt庫(需要自己手動安裝) 例項網站：

爬蟲入門，爬取酷狗歌單top500，簡單爬蟲案例

import requests from bs4 import BeautifulSoup import time headers = { 'User-Agent': 'Mozilla/5.0

Python 爬蟲爬取單個基因表格資料的生物學功能（urllib+正則表示式）：

Python 爬蟲爬取單個基因的生物學功能（urllib+正則表示式）： import re import urllib from urllib import request url = ‘https://www.ncbi.nlm.nih.gov/gene

Python3網路爬蟲：requests爬取動態網頁內容

本文為學習筆記學習博主:http://blog.csdn.net/c406495762 Python版本：python3.+ 執行環境：OSX IDE：pycharm 一、工具準備抓包工具：在OSX下,我使用的是Charles4.0 下載連結以及安裝教

爬蟲入門之爬取靜態網頁表格資料

相關推薦