1. 程式人生 > >sqoop匯出到hive資料增多

sqoop匯出到hive資料增多

其實是因為分割符的問題,

匯入的資料預設的列分隔符是'\001',預設的行分隔符是'\n'。

這樣問題就來了,如果匯入的資料中有'\n',hive會認為一行已經結束,後面的資料被分割成下一行。這種情況下,匯入之後hive中資料的行數就比原先資料庫中的多,而且會出現資料不一致的情況。

簡單的解決辦法就是加上引數--hive-drop-import-delims來把匯入資料中包含的hive預設的分隔符去掉。

但此引數會和--direct互斥