1. 程式人生 > 實用技巧 >【學術】計算傳播學:自然語言處理技術的用途和應用潛力

【學術】計算傳播學:自然語言處理技術的用途和應用潛力

目錄

一、社會傳播學研究

二、目前社會傳播學存在的挑戰

(1)如何高效地收集、整合資料,並進行資訊的提取與利用。

(2)如何對清洗後的資料進行深層次分析,以發現同類事件的共性規律和差異化特徵,深入解剖參與者的群體和個體特徵。

三、NLP在社會傳播學中的現有應用

(1)假新聞檢測

(2)常識推理

(3)自動化新聞

(4)攻擊性話語界定

(5)情感分析

四、NLP與傳播學未來可能結合的點

(1)群體決策支援系統中的NLP應用

(2)CMC溝通理論與基於NLP的親密關係判斷問題

(3)社會判斷理論與新型NLP態度分析問題

(4)基於NLP的公眾議程生成分析


一、社會傳播學研究

社會傳播學的研究方法可為實證和闡釋兩大類別:

實證性方法假設事實真相是確定且唯一的,可通過量化分析或測試推匯出因果關係。

闡釋性方法則立足於多重事實與真相的假設,側重於研究語言、文字等互動資訊自身的意義和價值。

想象闡釋性和實證性方法分別處於地球的兩極,七大流派就填充於兩極之間的空白地帶,分別為:社會心理學派、控制論學派、修辭學派、符號學派、社會文化學派、批判學派、現象學派。排序越靠前的流派,越多地採用實證性研究方法,反之則表示闡釋性研究方法在該理論中佔上風。

傾向實證性的學派與NLP的聯絡更加緊密,屬於更深層的資訊加工問題(也是社會學的轉型方向)。

二、目前社會傳播學存在的挑戰

(1)如何高效地收集、整合資料,並進行資訊的提取與利用。

當前的網路資料渠道主要為入口網站的新聞、搜尋引擎的檢索結果、問答社群的討論、微博互動等。平臺的多樣性使得成員構成、交流形式、討論深度等各不相同,資料形式涵蓋文字、圖片、表情、視訊等多種格式。面對海量資料,人工方式很難進行處理,需要藉助自動化工具來實現新聞主題提取、內容理解、體裁歸類等工作。自然語言處理技術能夠實現異構資料的迅速整合、關鍵資訊的提取及熱點追蹤等,輔助研究人員進行高效的文字分析和內容理解。因此,熟悉各種自然語言處理工具正逐漸成為傳播學研究者的必備技能。

(2)如何對清洗後的資料進行深層次分析,以發現同類事件的共性規律和差異化特徵,深入解剖參與者的群體和個體特徵。

社會傳播學研究的根本目的是透過表面的內容看到事件的深層次動機、目的、發展規律,更好地解釋社會生活中的自我、他人及世界的關係。其所涉及的學科門派眾多,不同理論框架對問題的解釋不同,得出的結論也不盡相同。例如,符號互動論強調“行動取決於意義,社會互動產生意義,人的思維修正對社會互動過程的解釋”,因此從資料中找出群體思維演變規律是分析群體行動的間接但極其重要的步驟;關係辯證法強調找出關係內部衝突以及關係外部群體衝突來解釋事件演變規律,因此側重對參與者自身屬性以及參與者關係的研究等。

基於以上原因,雖然自然語言處理技術的發展以及語料庫的豐富程度已經能夠解決本問題的一些子問題,如內容分類、觀點凝練、情感分析等,但其還無法滿足更為系統和深入的智慧化傳播分析的要求。這就對自然語言處理技術與傳播學理論的深度融合提出了要求。

三、NLP在社會傳播學中的現有應用

(1)假新聞檢測

目前的問題:

中文假新聞檢測的研究內容還侷限於“謠言”,而對“半真半假”“標題和內容不一致”“事實錯位”“諷刺性文章”等複雜情況的檢測研究相對較少;

中文研究資料主要來自於微博,且受隱私保護影響,多數不予公開,其他來源(如公眾號文章、時政評論、闢謠平臺文章)的中文資料也相對較少;

中文假新聞檢測的平臺建設尚處於起步階段。雖然果殼網的謠言粉碎機、微信的自動闢謠等功能值得稱讚,但前者的假新聞相對陳舊,無法及時發現並闢謠實時出現的假新聞;後者侷限於微信平臺內部文章的闢謠,無法識別和處理整個網路中出現的假新聞。因此,為實現和諧的網路傳播生態,建立面向多源頭、多渠道的假新聞實時闢謠平臺仍任重道遠。

假新聞檢測,公開資料資源如下:

Dataset

Link

Description

Text label

LIAR

https://www.cs.ucsb.edu/˜william/data/liar_dataset.zip

經典資料集,從PolitiFact提取的1.28萬條帶標籤的短新聞,各標籤下的樣本數量相對平衡

True, Mostly-true, Half-true, Barely-true,False, Pants-fire

Twitter dataset

http://alt.qcri.org/˜wgao/data/rumdect.zip

經典資料集,用於假新聞檢測,涵蓋992個事件、59.24萬條推特及23.37萬用戶

Fake, True

Weibo dataset

http://alt.qcri.org/˜wgao/data/rumdect.zip

經典資料集,用於假新聞檢測,包含4664個事件、380萬條微博及280萬用戶

Fake, True

PHEME

https://figshare.com/articles/
PHEME_dataset_of_rumours_and_non-rumours/4010619

經典資料集,用於謠言檢測,包含5802條執行緒、10.3萬條推特,其中1972條謠言

Rumour,Non-rumour

BuzzFeed

https://github.com/BuzzFeedNews/

假新聞資料集, 子地址如下:
(1) 2016-10-facebook-fact-check
(2) 2017-01-media-platform-and-news-trust- survey
(3) 2016-12-fake-news-survey
(4) 2017-04-fake-news-ad-trackers

(1) Mostly true, Mixture of true and false, No factual content
(2) Trust, NotTrust
(3) Fake, True
(4) Fake

PolitiFact

https://www.politifact.com/

政治新聞核查網站,由坦帕灣時報建立,每條政治新聞都帶有標籤

True, Mostly True, Half-true, Mostly False, False, Pants-on-fire False

Snopes

https://www.snopes.com/

傳聞核查網站,美國一家專門調查新聞真實性、致力於揭穿謠言的網站

Fake, True, Uncertain

Full Fact

https://fullfact.org/

事實核查工具,由谷歌資助,用於自動解析和判定社交媒體新聞的真實性

-

HeroX Fact Check

https://herox.com/factcheck/

假新聞檢測競賽,為“事實”的準確性打分

TRUE, Somewhat TRUE, Somewhat FALSE, FALSE

FakeNews
Challenge

http://www.fakenewschallenge.org/

假新聞檢測競賽,參賽人員通過建立檢測系統來評價標題和內容的一致性打分,也被稱為“立場檢測 (Stance Detection)”

Agrees,Disagrees,Discusses,Unrelated

(2)常識推理

除了由領域專家、WordNet、眾包方式建立的知識庫外,通過NLP自動提取資訊(如事實和關係)及建立知識圖譜正成為常識推理研究的熱門課題。

(3)自動化新聞

自然語言生成技術儘管在過去幾年發展迅速,但仍然不足以實現通用的、智慧化的新聞生成系統。一方面,相對成熟的新聞自動生成系統大多是服務於商業的或為私人公司所有,具體架構和操作並不對外開放,各系統之間存在技術屏障。另一方面,目前公開的自動新聞生成系統高度依賴於規則和模板,並不智慧化。雖然Quill等曾設計出一種使用者自定義的、幾乎不依賴模板的自動新聞生成系統,但是該系統無法生成通用解,或者所得解難以重複利用。此外,Linden等[56]在2017年的研究中指出,多數自然語言生成系統只有在結構化資料充足、領域知識被充分理解的情況下才有效,這對知識資料庫的建立提出了較大的挑戰。針對這些問題,Leppanen等於2017年提出一種資料驅動的自動新聞生成系統,該系統很大程度上獨立於領域知識和語言存在,也較少依賴於現有資料庫,其實際效果在2017年芬蘭市政選舉的相關新聞中得到驗證;同時他們也指出了一些可提升的方面,如多語言和跨領域的系統驗證、多種新聞結構和型別的生成、基於機器學習的自動模板讀取等。

(4)攻擊性話語界定

自然語言處理領域的國際權威競賽——語義評測比賽(International Workshop on Semantic Evaluation, SemEval)在2019年的最新賽程中提出了“攻擊性語言歸類任務(SemEval-2019 Task 6)” [79] 5),其包括3個子任務:A類的攻擊性語言識別、B類的攻擊型別識別、C類的攻擊目標識別。在公平的對比環境下,參賽者提出了一些卓有成效的解決類排名1/103,B類排名4/75)[80],基於神經網方案,如基於遷移學習和適應性學習的方法(A絡的遷移學習方法[81](A類排名14/103),基於線性支援向量機的分類方法(B類)[82],基於LSTM的攻擊語言識別和攻擊型別識別[83](所有子任務),考慮多個分類器的整合模型[84-85] (所有子任務)等。綜上可見,基於遷移學習的方法在實踐中的表現最為出色,整合學習模型和神經網路模型最受歡迎。但是由於比賽形式的限制,多數參賽者止步於方法整合和應用研究,缺少更深入的理論分析來得出嚴謹的結論。

攻擊性話語界定資料集:

1 https://webis.de/data.html
2 http://github.com/zeerakw/hatespeech
3 https://github.com/gpitsilis/hate-speech
4 http://takelab.fer.hr/alfeda
5 http://alt.qcri.org/semeval2019/index.php?id=tasks

(5)情感分析

基於NLP的情感計算已經成為大資料時代新聞傳播學領域的重要研究工具,被廣泛應用於政治、經濟、社會問題的分析。它使得新聞事件中的釋出者、傳播者、評論者的情感能夠得到精細化度量[98],輔助推動新聞傳播學從經驗性分析過渡到實證性分析。未來,探索更為複雜的情感類別,並提升複雜類別下的情感劃分準確度,是具有極大社會學意義的研究課題。

四、NLP與傳播學未來可能結合的點

(1)群體決策支援系統中的NLP應用

群體決策(Group Decision)是社會心理學派和控制論學派的交叉研究課題,主要回答如何組織不同背景、興趣、水平的人開展討論,最終輸出有效決策。群體決策理論為網際網路時代群體決策支援系統的建立提供了理論框架。同時,以計算機為媒介的協同決策制定(Computer-mediated Collaborative Decision Making, CDM)[100]也將促進傳播學中群體決策理論的發展和應用。

(2)CMC溝通理論與基於NLP的親密關係判斷問題

圖1 親密關係判斷問題的特徵框架圖

如圖1所示,借鑑Cambria等[101]的“情感分析行李箱”結構,可建立對應的“親密關係判斷問題”的特徵框架。圖中,第一層是基於溝通文字分析,通過建立親密關係的極性詞典、詞義消歧、語義理解,構建語法語義特徵來評估二人的親密值。第二層在多個文字的親密值評估基礎上,結合溝通時間、頻率等互動因素,以及共同好友等網路因素,推斷出二人的從屬關係。第三層則拋開二人的關係,只針對個體本身進行情感人格、行為特徵分析,建立個體的親密度傾向。在得到三層特徵的基礎上,可採用機器學習方法、神經網路方法或者其他建模推理方法來為二人的親密關係貼上標籤。

(3)社會判斷理論與新型NLP態度分析問題

社會判斷理論為NLP情感/態度分析問題提供了新思路:一方面,社會判斷態度的生成與資訊傳播的先後順序產生聯絡,是一種類似馬爾可夫鏈的生成機制,將此理論融入問題的建模,將豐富問題框架,並生成更多可解釋、有現實意義的結論;另一方面,通過NLP對使用者歷史態度資料進行分析,可判斷使用者接受區域與拒絕區域的分佈情況,從而輔助刻畫使用者的人格特徵,完善使用者畫像。在此基礎上,如果針對性地推送新聞、訊息、觀點評論等,可促成使用者態度或立場的轉變。

(4)基於NLP的公眾議程生成分析

如果收集到足夠的網路傳播資料,基於NLP話題發現技術就可以幫助發現議題的生成、傳播節奏、關鍵節點等,檢測到相對完整的議程生成過程,豐富議程設定猜想的內容。此外,自發的公眾議程生成過程中的傳播結構變革也值得NLP研究者關注。傳統大眾傳媒議題與社交網路碰撞後,出現了傳播權力結構的轉型,一部分媒體主導的權力話語正在被“大V”所替代,即個體取代了組織的話語權力地位,傳播過程的變數迅速增加,無法再以傳統的方法去分析。同時,話語權力結構呈現去中心式的、分散的趨勢,導致議題傳播的網路結構無法被充分地測量。面對上述問題,基於文字內容的NLP分析方法可以幫助發現潛在的傳播結構和主導節點,釐清社會議題和輿論的生產機制,加速新的話語權力結構理論的生成。

參考文獻:自然語言處理技術在社會傳播學中的應用研究和前景展望