GoldData將采集數據融合到兩張關聯關系表
在上一期中,我們抓取了新聞數據,現在我們要通過GoldData融合到兩張數據庫表news_site和news表當中去。如下圖所示:
我們很容易看到這兩張表存在關聯,那是怎樣將數據寫入關聯呢,我們將接上一期在此一一介紹。
定義融合映射
數據集news ==> 表news_site
在“融合管理”中,選擇數據集"news",選擇數據庫表news_site點擊“添加”按扭,然後再點擊“編輯映射”。如下圖所示:
關聯數據方式選擇“關聯字段”,關聯表字段"name",關聯數據集JS為“dataset.source
”,然後選擇“保存”即可。
news_site表有兩個字段:一個是id字段,由於是自增長字段,所以不用關聯;另一個是name字段,選擇映謝方式為“數據集字段”,而內容是來自於數據集news的source字段。
手動作業
我們回到“融合管理”頁面,點擊“融合作業”,然後點擊“手動作業”,打開“手動作業”子頁面,如下圖所示:
在這裏我們可以看到融合是沒問題的。點擊“提交且下一條”,則會將合並結果寫入到數據庫表當中。如下圖所示:
然後回到“融合作業”子頁面,點擊“開始融合”,將會開始自動融合。如下圖所示:
系統就將會將數據集的數據按照指定的規則進行一個個的融合了。
數據集news ==> 表news
在“融合管理”中,選擇數據集"news",選擇數據庫表news點擊“添加”按扭,然後再點擊“編輯映射”。如下圖所示:
關聯數據方式選擇“不關聯,數據追加”,這將意味著數據集裏的新數據將會追加到表news新記錄裏,但當然老數據不會追加為news新記錄裏,也就是多次反復融合也不會在表news裏產生重復數據。
對於字段映射,說明如下:
字段 | 說明 |
---|---|
id | 自增長,不用映射 |
title | 直接映射為數據集字段title |
pub_date | 使用JS 將數據集字段pubdate內容添加:00 即可 |
site_id | 映射表news_site,通過數據集字段source查找得到id |
content | 直接映射為數據集字段content |
date_created | 用JS創建該值即可 |
手動作業
我們回到“融合管理”頁面,點擊“融合作業”,然後點擊“手動作業”,打開“手動作業”子頁面,如下圖所示:
確認正確無誤,點擊“提交且下一條”,數據將會寫入數據庫中。如下圖所示:
然後回到“融合作業”子頁面,點擊“開始融合”,將會開始自動融合。
結語
通過GoldData後,我們很容易將數據及數據之間關系融合到關系數據庫表中。接下來我們還介紹自關聯數據的融合。
GoldData將采集數據融合到兩張關聯關系表