1. 程式人生 > >詞頻統計——實訓二(1)

詞頻統計——實訓二(1)

碼雲地址:https://gitee.com/girlchujiu/practical_training_two

隊名:超越隊,團隊宣言:超越夢想,勇攀高峰!

組員(學號):徐小東(9),李雪(8),李鑫(14),張智賢(12:組長)(*^▽^*)

擬作的團隊專案描述:為解決對文章中重要詞彙出現的次數進行統計與分析的問題,進行文字挖掘。

隊員風采

徐小東:負責任務(Java連線資料庫),擅長java語言,專案主力軍,協調團隊內部的工作及開發團隊之間的工作。

李雪:負責任務(頁面跳轉方面),擅長java語言,專案主力軍,資料庫offer,收集所需的需求,建庫,除錯,資料入庫等工作。

李鑫:負責任務(頁面註冊與登入方面),擅長java語言,專案主力軍,充分授權和信任,負責後臺的程式碼。

張智賢:這次主要負責編寫部落格園,編寫部分程式碼,柱狀圖(沒辦法,隊友太強悍,個個都是大腿,我只能打雜度日,痛並快樂著),擅長java語言,推動資訊共享與溝通。各司其職,對專案共同負責。

團隊風采:(我們有圖有真相)

團隊專案選題:

詞頻統計

老五在寢室吹牛他熟讀過《魯濱遜漂流記》,在女生面前吹牛熱愛《呼嘯山莊》《簡愛》和《飄》,在你面前說通讀了《戰爭與和平》。但是,他的四級至今沒過。你們幾個私下商量,這幾本大作的單詞量怎麼可能低於四級,大家聽說你學習《構建之法》,一致推舉你寫個程式名字叫wf,統計英文作品的單詞量並給出每個單詞出現的次數,準備用於打臉老五。

希望實現以下效果:

  • 1.讀取檔案,檔案內包可含英文字元,及常見標點,空格級換行符。
  • 2.統計英文單詞在本檔案的出現次數
  • 3.將統計結果排序
  • 4.顯示排序結果

在實訓一的基礎上,將詞頻統計開發成一個個圖形介面,在區域網內,全班同學可以一起使用的小程式。提供使用者註冊登入功能,與資料庫進行連線,可以檢視所有使用者以往提交的詞頻統計記錄,並能將本機希望進行詞頻統計的檔案提交至伺服器,伺服器提供一個柱狀圖的詞頻統計結果,並給出進行本次詞頻統計所使用的時間和使用者所提交的檔案的單詞總數。

設計思路

我這裡用的開發平臺是Eclipse,這裡我把操作簡單說一下:

1,首先建立java專案,在這個專案在建立一個詞頻統計的檔案,並且根據第一次實訓內容,將程式碼“詞頻統計”寫入;

2,設計註冊,登入頁面,功能選擇頁面,使各頁面之間實現跳轉並與資料庫相連線,而另一端,資料庫與“詞頻統計”相連;

3,確保資料庫正常使用,並且可以將使用者註冊資訊和登入資訊以及詞頻統計結果和自動儲存每次查詢的語句錄入資料庫;

4,修建工作,使登入頁面和詞頻統計頁面,保持整潔,美觀;

準備工作完成後,就可以去操作eclipse了;

設計方案:

N:(Need 需求)
首先,先介紹一下我們的產品,這款小程式是文獻計量學中傳統的和具有代表性的一種內容分析方法,基本原理是通過詞出現頻次多少的變化,來確定熱點及其變化趨勢,該創意解決了使用者查詢與統計重要詞彙出現次數的問題,通常應用在大資料網路查詢整理方面,適
用於大資料交易,適合查詢一些高頻詞,建設一個分類別的知識庫和資料庫。

需求分析:我們充分了解使用者的痛苦,這個軟體很好的解決了使用者以前的手動查詢和整理所浪費的時間,方便大家查閱和檢索,提高使用者對知識獲取的速度,提高了工作效率,和學習的進度,為推動人類知識進步做出貢獻。

A:(Approach 做法)

在實驗過程中,我們將使用eclipse——Java,我們要寫好這個軟體,首先需要方法,其次,還需要大量資料監測,我們將根據所學的內容進一步提煉昇華,盡我們所能,做到最好。

基本模型建立,大體分為三個部分:

第一部分:詞頻統計的完善,詞頻統計查詢頁面和登入頁面的完善;

第二部分,各個部分相互連線,公共點部分為資料庫部分,並確保資料庫在每次查詢過程中都能自動記錄;

第三部分:進一步完善,簡化,美化以及實驗檢測,最後作進一步更新。

在這其中,我們也不可避免的遇到許多的問題,最主要的便是“連線問題”,對於我們來說,常年的練習,加上實訓一的鋪墊,單一的詞頻統計問題,和圖形介面問題我們可以快速地迎難而解,但是問題來了,連線問題該如何解決,在這其中,我們多次上網搜尋,也

多次向老師尋求幫助,最後,在巨大的壓力下,我們成功解決了這個難題。

B:(Benefit好處)

我們這個服務會給使用者帶來具體的好處:這是一個使用人機互動的工具,作為現階段大資料時代,我們的產品非常切合實際,它既能節省時間,也能方便使用者操作。當然,我們的優點就是方便,眾所周知,現在的現實生活越來越接近簡單化,追去的就是簡單方便,我們

很好的發揮了這個強項。另外,成本和消費問題,我們的小程式幾乎接近於“0”,這個不需要擔心。

C:(Competitors 競爭)

就如前面,我們所介紹大家的,我們的這款小程式使用方便,不需成本,介面簡潔。

D:(Delivery 交付,Data 資料)

在練習了多次的 NABC 之後,我們再說說我們團隊的創新,現在網路已經成為絕大多數軟體產品部分。我們也深深地瞭解這一點,我們的小程式,無論登入方面還是查詢方面,我們絕對保持,美觀,簡潔,簡單,這或許在軟體方面,我們佔據一定優勢。在這些條件基礎之上,我們也將進一步創新開發,敬請期待。