Python3爬取簡書首頁文章的標題和文章連結

阿新 • • 發佈：2018-12-22

from urllib import request  
from bs4 import BeautifulSoup            #Beautiful Soup是一個可以從HTML或XML檔案中提取結構化資料的Python庫  

#構造標頭檔案，模擬瀏覽器訪問  
url="http://www.jianshu.com"  
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36' 
}  
page = request.Request(url,headers=headers)  
page_info = request.urlopen(page).read().decode('utf-8')#開啟Url,獲取HttpResponse返回物件並讀取其ResposneBody  

# 將獲取到的內容轉換成BeautifulSoup格式，並將html.parser作為解析器  
soup = BeautifulSoup(page_info, 'html.parser')  
# 以格式化的形式列印html  
#print(soup.prettify())  

titles = soup.find_all('a' 
, 'title')# 查詢所有a標籤中class='title'的語句  


''''' 
# 列印查詢到的每一個a標籤的string和文章連結 
    for title in titles: 
        print(title.string) 
        print("http://www.jianshu.com" + title.get('href'))    
'''   


#open()是讀寫檔案的函式,with語句會自動close()已開啟檔案  
with open(r"D:\articles.txt","w") as file:       #在磁碟以只寫的方式開啟/建立一個名為 articles 的txt檔案   

    for title in titles:  
        file.write(title.string+'\n')  
        file.write("http://www.jianshu.com" + title.get('href')+'\n\n')

執行結果如下：
這裡寫圖片描述

Python3爬取簡書首頁文章的標題和文章連結

from urllib import request from bs4 import BeautifulSoup #Beautiful Soup是一個可以從HTML或XML檔案

部落格搬家系列（四）-爬取簡書文章

部落格搬家系列（四）-爬取簡書文章一.前情回顧部落格搬家系列（一）-簡介：https://blog.csdn.net/rico_zhou/article/details/83619152 部落格搬家系列（二）-爬取CSDN部落格：https:/

xpath爬取簡書攝影專題裡的最新收錄文章的詳情及圖片完整程式碼

import requests from lxml import etree #etree import urllib.parse import re header = { "User-Age

java爬取百度首頁源代碼

clas read 意思出現異常 nts java.net new 有意思 all 爬蟲感覺挺有意思的，寫一個最簡單的抓取百度首頁html代碼的程序。雖然簡單了一點，後期會加深的。 1 package test; 2 3 import java.io.B

爬取校園新聞首頁的新聞

att text mage port htm pos sele time 爬取 import requests from bs4 import BeautifulSoup url = ‘http://news.gzcc.cn/html/xiaoyuanxinwen/‘

爬取校園新聞首頁的新聞的詳情，使用正則表達式，函數抽離

嘗試 htm des script its etc 新聞 ttr sid 1. 用requests庫和BeautifulSoup庫，爬取校園新聞首頁新聞的標題、鏈接、正文、show-info。 2. 分析info字符串，獲取每篇新聞的發布時間，作者，來源，攝影等信息。 3.

scrapy初探之爬取武sir首頁博客

scrapy一、爬蟲網絡爬蟲（又被稱為網頁蜘蛛，網絡機器人，在FOAF社區中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。二、scrapy框架 Scrapy是一個為了爬取網站數據，提取結構性數據而編寫的應

小白scrapy爬蟲之爬取簡書網頁並下載對應鏈接內容

tps python 分享列表 scrapy 網頁 pytho 分享圖片介紹 *準備工作：爬取的網址：https://www.jianshu.com/p/7353375213ab 爬取的內容：下圖中python庫介紹的內容列表，並將其鏈接的文章內容寫進文本文件中小

scrapy 試用爬取百度首頁

# -*- coding: utf-8 -*- import scrapy class BaiduSpider(scrapy.Spider): name = 'baidu' allowed_domains = ['baidu.com'] start_urls = ['ht

python3 抓取簡書，增加瀏覽量

訪問簡書實現重新整理訪問次數,什麼都不說直接上程式碼（一） # -*- coding:utf-8 -*- import sys import random import requests import pycurl import urllib import json import re i

爬取簡書網30日熱門得到詞雲

這幾天在看《從零開始學python網路爬蟲》，裡面有一章是爬取簡書網7天熱門，不過我在開啟簡述網七天熱門的時候發現壓根就只有一頁（可能連一頁都不到。。。），之後感覺不夠難度就改而選擇爬取30天熱門。 1.連結分析首先，簡書網30天熱門的第一個連結是：https://www.jianshu.

爬取簡書網30日熱門得到詞雲續

前面所使用的jieba分詞中，是自行收集一些不重要的詞進行過濾的，效率不是很高，並且帶有比較大的主觀性（算是優點，也算是缺點）。本次則改為使用中文停用詞表來過濾一些詞語。程式碼相對於上一節來說變化的主要是analysis.py 中的analysis函式。程式碼大致如下： import

爬取豆瓣圖書首頁的圖書資訊

使用requests庫和re庫來爬取豆瓣圖書首頁的圖書資訊 import requests import re content = requests.get("http://book.douban.com").text #get函式獲取豆瓣圖書網頁程式碼 pattern

Scrapy學習筆記（3）爬取知乎首頁問題及答案

目標：爬取知乎首頁前x個問題的詳情及問題指定範圍內的答案的摘要 power by: Python 3.6 Scrapy 1.4 json pymysql Step 1——相關簡介 Step 2——模擬登入知乎如果不登入

Python爬蟲爬取CSDND首頁的所有的文章

# -*- encoding: utf-8 -*- import re import urllib.request def function(): """Python爬蟲爬取CSDND首頁的所有的文章""" html="https://blog.csdn.n

python 爬取qidian某一頁全部小說

decode return data- dib read etc break beautiful range 1 import re 2 import urllib.request 3 from bs4 import BeautifulSou

python3 爬取圖片

.com ret reg eve code Coding aid quest fin #coding=utf-8import urllib.requestimport redef getHtml(url): page = urllib.request.urlopen(

幾行代碼抓取百度首頁

python 百度python中源碼位置(以urllib為例): python中自帶的模塊: /usr/lib/python3.5/urllib/request.py(python3) /usr/lib/python2.7/urllib2.py(python2) py

初學python3-爬取cnnvd漏洞信息

zip 技術 [0 string linux; sdc 開始時間還需要 2.x 　　因為工作需要cnnvd漏洞信息，以前用著集客搜、八爪魚之類的工具，但對其效果和速度都不滿意。最近開始接觸學習爬蟲，作為初學者，還需要慢慢完善。先記錄下第一個爬蟲。還想著在多進程和IP代理方

抓取簡書個人主頁目錄制作

pac bsp auto apt www main chrome 主程序 content 寫作不易，轉載請註明出處！！！直接上幹貨！！！本文代碼運行環境pyhton2，代碼註釋的很詳細，直接看代碼即可。 #-*- coding:utf-8 -*- import ur

Python3爬取簡書首頁文章的標題和文章連結

相關推薦