1. 程式人生 > >NLP文字標註工具與平臺(資料標註公司)

NLP文字標註工具與平臺(資料標註公司)

最近在做NLP相關專案,包括句法分析、情感分析等,有大量資料需要標註。我評估了幾個文字標註工具,也接觸了幾家資料標註公司和平臺,總結如下,供各位參考。

文字標註平臺(標註外包公司)

資料標註公司的工作比較多樣,文字資料標註是最基礎的,另外語音、圖片、視訊標註也都可以做。目前這個行業良莠不齊,有的平臺技術實力強,有品牌背景,比如京東眾智、百度眾包,資料保密做得好。有的平臺是專門做代理的,你的資料需求交給他,他轉手就分包給下一層。下面介紹幾個平臺,也綜合了其他博主的一些意見,如下:

京東眾智

標註質量比較高,專案交付準時,資料隔離方案可以不出自己的伺服器完成標註,比較重視客戶的資料安全。也提供私有化部署服務。

百度眾測

標註能力比較廣泛,百度進入標註行業比較久,積累了較多的眾包使用者。不過我個人不看好眾包模式,因為質量比較難把控。

figure-eight

國外知名的資料標註平臺,國外好多大公司都與它有合作。需求方可以自行配置標註工具和相應的label,直接在平臺上發任務,沒有客戶經理溝通…這可能對國內客戶不太友好。

文字標註工具(開源)

1. Prodigy

  Website: https://prodi.gy/docs/ 

  Blog: https://explosion.ai/blog/prodigy-annotation-tool-active-learning

2. DeepDive (Mindtagger):前端比較簡單,使用者介面友好。 

  介紹:http://deepdive.stanford.edu/labeling 

  前端程式碼:https://github.com/HazyResearch/mindbender 

3.  BRAT

  介紹:http://brat.nlplab.org/index.html 

  線上試用:http://weaver.nlplab.org/~brat/demo/latest/#/ 

  程式碼:https://github.com/nlplab/brat

4. IEPY :工程比較完整,有使用者管理系統。前端略重,對使用者不是非常友好

  程式碼:https://github.com/machinalis/iepy 

  說明:http://iepy.readthedocs.io/en/latest/index.html