文字分類（0）——scrapy爬新浪滾動新聞

阿新 • • 發佈：2018-12-21

這基本上就是一個從入門到差點放棄的故事。。程式碼在最下面

頁面的選擇

這門課需要100萬的中文語料來做文字分類，所以還要自己爬一些。

Problem 1

xPath沒有獲取到任何東西，看了下網頁的原始碼，才發現數據是由Ajax獲取的在這裡插入圖片描述然後發現了API是就決定直接爬介面了。

Problem 2

可能因為他用的jQuery？？（純猜測）嘗試了一下去掉了callback這個引數，返回的就是純json了。 Page是頁碼，lid是新聞的類別，別的就不知道了沒試。

附程式碼

#encoding: utf-8
import scrapy
import re
import sys, os
#sys.setdefaultencoding("utf-8") 

from scrapy.selector import Selector
from scrapy.spiders import Spider
from scrapy.http import Request
from third.items import ThirdItem
import json
#import js2py
import time
i=1
base="C:/lyr/Data/tech/"
class techSpider(Spider):
	name='tech'
	headers={
		'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36' 
,
	}
	allowed_domains=['tech.sina.com.cn']	
	start_urls=[]
	for page in range(1,2000):
		urls = "https://feed.mix.sina.com.cn/api/roll/get?pageid=153&lid=2515&k=&num=50&page="+str(page)+"&r=0.7643548077821145&callback=&_=1542094996079"
		start_urls.append(urls)
	def parse(self,response) 
:
		items=[]
		item=ThirdItem()
		datas=json.loads(response.body)
		newsList=datas['result']['data']
		#print('Data:',datas['result']['data'])
		dataLen=len(datas['result']['data'])
		
		for idx in range(dataLen):
			print("Next:",newsList[idx]["url"])
			yield Request(url=newsList[idx]["url"], headers=self.headers,callback=self.second_parse)

	def second_parse(self,response):
		head = response.xpath(u'//h1[@id="main_title"]/text()').extract()
		content = ""
		content_list=response.xpath(u'//div[@id="artibody"]/p/text()').extract()
		for content_one in content_list:
			content_one=content_one.replace('\xa0','').replace('\u3000','')
			content+=content_one
		item=ThirdItem()
		item['news_body']=content
		item['news_title']=head
		global i
		dir=base + "tech_"+ str(i) + ".txt"
		print(dir)
		i = i + 1
		fp = open(dir , 'w')
		fp.write(item['news_body'])
		fp.close()
		yield item

文字分類（0）——scrapy爬新浪滾動新聞

這基本上就是一個從入門到差點放棄的故事。。程式碼在最下面頁面的選擇這門課需要100萬的中文語料來做文字分類，所以還要自己爬一些。 Problem 1 xPath沒有獲取到任何東西，看了下網頁的原

爬蟲框架開發（4）--- 專案實戰——>新浪滾動新聞資訊實時資料採集

要求：儲存文章的標題、作者、釋出時間、正文、正文中的圖片連結、文章連結、文章所屬分類根據網站的實時更新(週期1分鐘)進行採集時間格式儲存為"yyyy-mm-dd HH:MM:SS" 儲存到mysql資料庫程式碼實現如下：新浪滾動的爬蟲檔案： # spid

文字分類（二）：scrapy爬取網易新聞

文字分類的第一項應該就是獲取文字了吧。在木有弄懂scrapy的情況下寫的，純應用，或許後續會補上scrapy的原理。首先說一下我的環境：ubuntu14.10 scrapy安裝指南（肯定官網的最權威了）：[傳送門](http://scrapy-chs.rea

《機器學習系統設計》之應用scikit-learn做文字分類（上）

前言：本系列是在作者學習《機器學習系統設計》（[美] WilliRichert）過程中的思考與實踐，全書通過Python從資料處理，到特徵工程，再到模型選擇，把機器學習解決問題的過程一一呈現。書中設計的原始碼和資料集已上傳到我的資源：http://download

《機器學習系統設計》之應用scikit-learn做文字分類（下）

# inspired by http://scikit- # learn.org/dev/auto_examples/cluster/plot_kmeans_digits.html#example- # cluster-plot-kmeans-digits-py import os import scipy

文字分類（六）：使用fastText對文字進行分類--小插曲

需要注意的問題： 1、linux mac 平臺 2、標籤中的下劃線是兩個！兩個！兩個！環境說明：python2.7、linux 自己打自己臉，目前官方的包只能在linux，mac環境下使用。誤導大家了，對不起。測試facebook開源的基於深度學習

資料探勘文字分類（七）特徵提取

上一篇我們做完了詞頻統計，下面就該提取文字特徵了。其實詞的頻率就是文字最重要的特徵了，但是我們如果只靠詞的頻率去判斷文字的分類的話，顯然正確率是很低的。當然，文字的特徵提取有很多辦法了，我上這門課程老師著重介紹的是TF-IDF和卡方校驗兩種

資料探勘文字分類（八）訓練和測試

今天來個大結局吧，我們有了chi值或者TF-IDF值以後，就可以拿他們用lib-svm工具進行訓練了。當然我們還要對資料進行一些標準化處理，我們需要將某詞與該詞對應的值作為一個向量處理，這個就是特徵向量了。舉個例子，

資料探勘文字分類（二）蒐集中文語料庫與ICTCLAS分詞

在上一篇部落格中簡單介紹了實驗環境和流程，這一篇我們繼續。第一步，下載搜狗中文語料庫。連結：http://www.sogou.com/labs/dl/c.html 我們下載

scrapy爬蟲框架（三）：爬取桌布儲存並命名

寫在開始之前按照上一篇介紹過的 scrapy爬蟲的建立順序，我們開始爬取桌布的爬蟲的建立。首先，我們先過一遍 scrapy爬蟲的建立順序：第一步：確定要在pipelines裡進行處理的資料，寫好items檔案第二步：建立爬蟲檔案，將所需要的資訊從

機器學習筆記（3）——使用聚類分析演算法對文字分類（分類數k未知）

聚類分析是一種無監督機器學習（訓練樣本的標記資訊是未知的）演算法，它的目標是將相似的物件歸到同一個簇中，將不相似的物件歸到不同的簇中。如果要使用聚類分析演算法對一堆文字分類，關鍵要解決這幾個問題：如何衡量兩個物件是否相似演算法的效能怎麼度量如何確定分類的個數或聚類

大作業之中文文字分類（終稿）

import os import numpy as np import sys from datetime import datetime import gc path = 'H:\大三上大作業\python大作業\date' import jieba with open(r'H:\大三上大作業\py

如何使用BERT實現中文的文字分類（附程式碼）

如何使用BERT模型實現中文的文字分類前言 Pytorch readme 引數表演算法流程 1. 概述 2. 讀取資料 3. 特徵轉換 4. 模型訓練 5. 模型測試

NLP --- 文字分類（基於概率的隱語意分析（PLSA）詳解）

上一節我們詳細的講解了SVD的隱語意分析，一旦提到這個，大家腦海裡應該立刻有如下的矩陣形式：我們通過矩陣的分解對文字資料進行壓縮，壓縮量很可觀，尤其是原始的矩陣的維度很高時壓縮的更可觀，因為k通常要遠遠小於n。如上圖等號左邊的矩陣其實就是我們的文字的詞向量組成的，我們知道一篇文章的詞

NLP --- 文字分類（向量空間模型（Vector Space Model）VSM）

本節主要介紹文字分類中的一種演算法即向量空間模型，這個演算法很經典，包含文字預處理、特徵選擇、特徵權值計算、分類演算法、這是VSM的幾個主要步驟，在宗老師的書裡都有詳細的講解，這裡也會進行深入的講解，淺顯易懂的是目的，深入理解是目標，下面給出這個VSM模型的方框流程圖：其中分詞和詞袋

NLP --- 文字分類（基於SVD的隱語意分析（LSA））

上一節我們詳細的講解了基於SVM的文字分類，這種分類在很早就出現了，雖然是文字分類中有效的分類手段，但是因為建立的向量是很多維的，因此容造成維度災難，同時SVM的沒有能力處理一詞多義和一義多詞問題，例如同義詞也分別被表示成獨立的一維，計算向量的餘弦相似度時會低估使用者期望的相似度；而某個詞項有多

基於的樸素貝葉斯的文字分類（附完整程式碼(spark/java）

本文主要包括以下內容： 1）模型訓練資料生成（demo） 2 ) 模型訓練（spark+java）,資料儲存在hdfs上 3）預測資料生成（demo） 4）使用生成的模型進行文字分類。一、訓練資料生成 spark mllib模型訓練的輸入資料格

【Kaggle筆記】新聞文字分類（樸素貝葉斯）

樸素貝葉斯模型適用場景海量文字分類任務假設資料特徵與目標之間存線上性關係資料集 sklearn 中的 fetch_20newsgroups 程式碼 # -*- c

利用spark做文字分類（樸素貝葉斯模型）

樸素貝葉斯模型樸素貝葉斯法是基於貝葉斯定理與特徵條件獨立假設的分類方法。對於給定的訓練資料集，首先基於特徵條件獨立假設學習輸入/輸出的聯合概率分佈；然後基於此模型，對給定的輸入x，利用貝葉斯定理求出後驗概率最大的輸出y。至於樸素貝葉斯模型的原理部分，這裡就不

中文文字分類（機器學習演算法原理與程式設計實踐筆記）

以文字分類演算法為中心，詳細介紹一箇中文文字分類專案的流程及相關知識，知識點涉及中文分詞、向量空間模型、TF-IDF方法、幾個典型的文字分類演算法；主要有樸素貝葉斯演算法，kNN最近鄰演算法。所用到的外部庫：jieba 分詞、Scikit-Learning

文字分類（0）——scrapy爬新浪滾動新聞

頁面的選擇

Problem 1

Problem 2

附程式碼

相關推薦