1. 程式人生 > >GoldData將采集數據融合到兩張關聯關系表

GoldData將采集數據融合到兩張關聯關系表

開始 http 提交 pub ont net 得到 ble start

概述

在上一期中,我們抓取了新聞數據,現在我們要通過GoldData融合到兩張數據庫表news_site和news表當中去。如下圖所示:

技術分享圖片

技術分享圖片

技術分享圖片

我們很容易看到這兩張表存在關聯,那是怎樣將數據寫入關聯呢,我們將接上一期在此一一介紹。

定義融合映射

數據集news ==> 表news_site

在“融合管理”中,選擇數據集"news",選擇數據庫表news_site點擊“添加”按扭,然後再點擊“編輯映射”。如下圖所示:

技術分享圖片

關聯數據方式選擇“關聯字段”,關聯表字段"name",關聯數據集JS為“dataset.source”,然後選擇“保存”即可。

news_site表有兩個字段:一個是id字段,由於是自增長字段,所以不用關聯;另一個是name字段,選擇映謝方式為“數據集字段”,而內容是來自於數據集news的source字段。

手動作業

我們回到“融合管理”頁面,點擊“融合作業”,然後點擊“手動作業”,打開“手動作業”子頁面,如下圖所示:

技術分享圖片

在這裏我們可以看到融合是沒問題的。點擊“提交且下一條”,則會將合並結果寫入到數據庫表當中。如下圖所示:

技術分享圖片

然後回到“融合作業”子頁面,點擊“開始融合”,將會開始自動融合。如下圖所示:

技術分享圖片

系統就將會將數據集的數據按照指定的規則進行一個個的融合了。

數據集news ==> 表news

在“融合管理”中,選擇數據集"news",選擇數據庫表news點擊“添加”按扭,然後再點擊“編輯映射”。如下圖所示:

技術分享圖片

關聯數據方式選擇“不關聯,數據追加”,這將意味著數據集裏的新數據將會追加到表news新記錄裏,但當然老數據不會追加為news新記錄裏,也就是多次反復融合也不會在表news裏產生重復數據。

對於字段映射,說明如下:

字段 說明
id 自增長,不用映射
title 直接映射為數據集字段title
pub_date 使用JS 將數據集字段pubdate內容添加:00即可
site_id 映射表news_site,通過數據集字段source查找得到id
content 直接映射為數據集字段content
date_created 用JS創建該值即可

手動作業

我們回到“融合管理”頁面,點擊“融合作業”,然後點擊“手動作業”,打開“手動作業”子頁面,如下圖所示:

技術分享圖片

確認正確無誤,點擊“提交且下一條”,數據將會寫入數據庫中。如下圖所示:

技術分享圖片

然後回到“融合作業”子頁面,點擊“開始融合”,將會開始自動融合。

結語

通過GoldData後,我們很容易將數據及數據之間關系融合到關系數據庫表中。接下來我們還介紹自關聯數據的融合。

GoldData將采集數據融合到兩張關聯關系表