1. 程式人生 > >網路輿情分析技術 讀書筆記2

網路輿情分析技術 讀書筆記2

網路輿情的資訊採集

網路輿情分析,廣義上包括從網路輿情的資訊採集開始到最後輿情資訊服務這一系列流程,首先是從網際網路上採集輿情資訊,對採集得到的web頁面進行資訊預處理,在預處理的基礎上進行關鍵資訊的抽取,然後利用關鍵資訊對輿情資訊進行內容上的分析,最後將分析結果提供給使用者。

網路資訊自動採集一般分為資料抓取與資料儲存兩部分。

網路資訊的分類及其抽取

網頁內容的自動分類

文字自動分類,一般是先把一組預先定義類別的文件作為訓練集,然後對訓練集進行分析,並得到分類器。這種分類器通常需要一定的測試過程,再經過不斷的訓練。在實際中,隨著爬取網頁的增多,分類器可以進一步的學習,豐富原有的型別詞彙矢量表。

一般把文字分類方法分為以下三類:

詞匹配法。可以分為簡單詞匹配和同義詞匹配

基於領域專家知識的方法。實施將困難。

統計學習法。基本思路是先收集一些與待分類文件同處於一個領域的文件作為訓練集,這些訓練集由專家進人工分類,保證分類的準確性。然後從中挖掘類別的統計特性,再利用已有指導學習方法將待分類文件分到最可能的類別中去。在分類過程中,定期或不定期的對訓練集更新。此種方法,目前較實用。

文字分類中常用演算法:

簡單向量距離演算法

KNN

資訊抽取即直接從自然語言文字中抽取事實資訊,並以結構化的形式描述資訊,供資訊查詢,文字深層挖掘,自動問答等。Web資訊抽取,處理物件為半結構化的網頁資訊。

Web資訊抽取技術的核心是從無結構化和半結構化的web頁面中抽取使用者感興趣的資訊。

被抽取出的資訊被轉換為結構化,語義更為清晰的格式。

Web資訊抽取技術:

基於自然語言理解的方式。

基於包裝器的歸納的方式,包裝器是一種軟體構件,有一系列的抽取規則以及應用這些規則的程式程式碼組成,負責將資料由一種模式轉換成另一種模式。通常,一個包裝器只能處理一種特定的資訊源。從幾個不同的資訊源中抽取資訊,需要一系列的包裝器程式庫。包裝器一般包括規則庫,規則執行模組,資訊轉換模組。使用包裝器的缺點:可擴充套件性差,可重用性差,缺乏對頁面的主動理解。

基於本體的方式。資訊抽取系統中被分析的文件通常是針對某個特定的領域,該領域的文件典型的包含一些特定的待抽取成分。通過分析這些成分的特殊詞法語義形態,就能相對準確抽取這些成分。

基於HTML結構的方式。該類方法是根據web頁面的結構定位資訊。在資訊抽取之前通過解析器將web文件解析成語法樹,通過自動或半自動的方式產生抽取規則,將資訊抽取轉化為對語法樹的操作實現資訊抽取。

話題檢測與跟蹤技術

是一種檢測輿情新出現的話題並追蹤該話題發展動態的資訊智慧獲取技術,其實質是主題搜尋引擎技術。面向專業主題的搜尋引擎是對網路中某個主題的資訊進行採集,索引並整合,然後抽取出需要的資料進行處理後再以某種滿足使用者個性化需求的形式返回給使用者。

構造主題搜尋引擎的核心是面向主題的爬行技術。主題爬蟲會分析每個頁面的連結,判斷哪些連結指向的頁面可能是和預定主題相關,對這些連結進行優先爬行,和主題無關的連結則選擇放棄。

參考書目:

網路輿情分析技術 王蘭成 著 國防工業出版社


相關推薦

網路輿情分析技術 讀書筆記2

網路輿情的資訊採集 網路輿情分析,廣義上包括從網路輿情的資訊採集開始到最後輿情資訊服務這一系列流程,首先是從網際網路上採集輿情資訊,對採集得到的web頁面進行資訊預處理,在預處理的基礎上進行關鍵資訊

《大型網站技術架構:核心原理與案例分析讀書筆記 - 第2篇 架構

第2篇 架構 4 瞬時響應:網站的高效能架構 34 4.1 網站效能測試 35 效能測試是效能優化的前提和基礎,也是效能優化結果的檢查和度量標準。 4.1.1 不同視角下的網站效能 35 使用者:直觀感受到的快慢 開發:應用程式本身 運維:基礎設施效能和資源利用率 4.1.2 效

《大型網站技術架構:核心原理與案例分析》-- 讀書筆記 (5) :網購秒殺系統

案例 並發 刷新 隨機 url 對策 -- 技術 動態生成 1. 秒殺活動的技術挑戰及應對策略 1.1 對現有網站業務造成沖擊 秒殺活動具有時間短,並發訪問量大的特點,必然會對現有業務造成沖擊。對策:秒殺系統獨立部署 1.2 高並發下的應用、

《大型網站技術架構之核心原理與案例分析讀書筆記

      架構!對於工作經驗尚淺的我是理應遠遠不用考慮的倆字。不過就像這本書所說到的一個好的網站架構體系,不僅僅是架構師個人的架構,而是和參與共同建設的人共同貢獻,讓參與的人覺得自己是架構體系的建設者之一,就越是自動承擔開發過程的責任和共同維護架構和改善軟體。  

《WCDMA空中介面技術讀書筆記2 WCDMA空中介面

    工作在WCDMA RBS系統上很多年了,感覺RBS系統絕對是世界上最複雜的系統之一;除了要基於通訊原理和3GPP協議來實現,還要考慮到:空口資源、硬體資源、功率分配、系統容量、監控管理、系統排程... ...而一本好書《WCDMA空中介面技術》恰恰

軟考-架構師-第四章-計算機網路 第四節 網路儲存技術(讀書筆記)

版權宣告 主要針對希賽出版的架構師考試教程《系統架構設計師教程(第4版)》,作者“希賽教育軟考學院”。完成相關的讀書筆記以便後期自查,僅供個人學習使用,不得用於任何商業用途。 版權宣告 第四節 網路儲存技術 直接附加儲存

《機器學習實戰》讀書筆記2:K-近鄰(kNN)演算法 & 原始碼分析

宣告:文章是讀書筆記,所以必然有大部分內容出自《機器學習實戰》。外加個人的理解,另外修改了部分程式碼,並添加了註釋 1、什麼是K-近鄰演算法? 簡單地說,k-近鄰演算法採用測量不同特徵值之間距離的方法進行分類。不恰當但是形象地可以表述為近朱者赤,近墨者黑

《大型網站技術架構:核心原理與案例分析讀書筆記

第六章伸縮性,網站的演化分離過程可以分為三類, 第一類大的系統級別的分離,例如資料庫系統,快取系統,檔案管理系統(靜態資源),演化過程為:為單一伺服器->資料庫分離->快取分離->靜態資源分離。 第二類業務流程的抽象分離,從下到上的模組為:資料庫->基礎技術服務->可複用業務

資料探勘概念與技術——讀書筆記2

原書第三版 Jiawei Han   Micheline Kamber   Jian Pei 著 第二章 認識資料 在進行資料探勘之前,首先需要準備好資料,熟悉資料。 資料物件與屬性型別 一個數據物件代表一個實體,又稱樣本、例項、資料點或物件。

《大型網站技術架構核心原理與案例分析讀書筆記之RAID技術

        RAID(廉價磁碟冗餘陣列)技術主要是為了改善磁碟的訪問延遲,增強磁碟的可用性和容錯能力。目前伺服器級別的計算機都支援插入多塊磁碟(8塊或者更多),通過使用RAID技術,實現資料在多塊磁碟上的併發讀寫和資料備份。        假設伺服器有N塊磁碟。     

計算機網路組網與配置技術—— 讀書筆記1、組網與配置基礎知識

第一章組網與配置基礎知識 1.1計算機網路中的協議與層次 計算機網路協議是通訊雙方在通訊時彼此理解的規定和約定。有三個要素:語法,語義,時序同步。 計算機網路中實現網路服務的層次和協議構成計算機網路體系結構。 計算機網路的拓撲結構劃分:主要有匯流排型、星型、環型、樹型、全連

計算機網路組網與配置技術—— 讀書筆記4、網路裝置

第四章、網路裝置 1、網路介面卡,也即網絡卡。 網路介面卡的主要引數:實體地址、中斷號、DMA地址、I/O地址。 網絡卡地址也稱為介質訪問控制(Medium Access Control, MAC)。6個位元組,用十六進位制表示。 2、調變解調器 調變解調器即Modem。

數據結構(嚴蔚敏、吳偉民)——讀書筆記-2、 線性表及其基本運算、順序存儲結構

content pri 線性 時間復雜度 length 將他 ron 個數 p s 第二章 線性表 2.1 線性表及其基本運算 2.2 線性表的順序存儲結構 2.3 線性表的鏈式存儲結構 1、線性表:是n個數據元素的有限序列。

《Hadoop金融大數據分析讀書筆記

文本 筆記 分析 velocity 網絡數據 轉換 als 傳統 不同 《Hadoop金融大數據分析》 Hadoop for Finance Essentials使用Hadoop,是因為數據量大數據量如此之多,以至於無法用傳統的數據處理工具和應用來處理的數據稱主大數據3V定

OpenCV3編程入門讀書筆記2-core組件

編程 opencv () -c enc 數組 ont ble 興趣 一、顏色空間縮減 1、概念 如果圖像是3通道,深度為1個字節,則每個像素有256*256*256種可能值,這麽多的可能值會對算法性能造成嚴重影響。利用顏色空間縮減就能解決這個問題,例如將顏色值0~9取為新值

需求工程基礎、原理和技術——讀書筆記01

重要 用戶 mage 滿足 壓力 src .com 什麽是 文檔 當今開發軟件系統面臨如下挑戰:   1.基於軟件的創新性要求逐漸增多;   2.軟件復雜性日益增加;   3.降低成本的壓力;   4.更短的開發時間;   5.更高的質量要求。 只有做好需求工程,才可以更好

《需求工程-軟件建模與分析讀書筆記之六》

想要 gpo 窗口 業務規則 dbm 恢復 dem 數據庫管理系統 困難 設計良好的程序要最大化類的內聚同時要最小化類的耦合;遵循Demeter法則就是在類方法內用於指向對象的消息,那麽耦合和內聚的原理就可以實現;存取程序方法的過度使用會產生不用思考的類;混合實例的內聚

<Spark快速大數據分析>讀書筆記

磁盤 外部 闖關 計算 apache 忽略 分布 ado format <Spark快速大數據分析>主要使用java, scala和python進行講解,因博主暫未對java和scala展開了解,所以後續總結只通過python進行展示。 Part 1 Spark

<Spark快速大數據分析>讀書筆記(二)

body 數據 單詞 spa line lin pairs clas art PART 3 Pair RDD   Spark為包含鍵值對類型的RDD提供了專有操作,這類RDD叫做Pair RDD(意為“對RDD”)   Spark中Pair RDD的創建主要有兩種方式,一種

【python下使用OpenCV實現計算機視覺讀書筆記2】圖像與字節的變換

ng- == color and pytho avi data- imwrite center import cv2 import numpy import os # Make an array of 120,000 ran