1. 程式人生 > 程式設計 >Java將CSV的資料傳送到kafka的示例

Java將CSV的資料傳送到kafka的示例

為什麼將CSV的資料發到kafka

  • flink做流式計算時,選用kafka訊息作為資料來源是常用手段,因此在學習和開發flink過程中,也會將資料集檔案中的記錄傳送到kafka,來模擬不間斷資料;
  • 整個流程如下:

Java將CSV的資料傳送到kafka的示例

  • 您可能會覺得這樣做多此一舉:flink直接讀取CSV不就行了嗎?這樣做的原因如下:
  • 首先,這是學習和開發時的做法,資料集是CSV檔案,而生產環境的實時資料卻是kafka資料來源;
  • 其次,Java應用中可以加入一些特殊邏輯,例如資料處理,彙總統計(用來和flink結果對比驗證);
  • 另外,如果兩條記錄實際的間隔時間如果是1分鐘,那麼Java應用在傳送訊息時也可以間隔一分鐘再發送,這個邏輯在flink社群的demo中有具體的實現,此demo也是將資料集傳送到kafka,再由flink消費kafka,地址是:https://github.com/ververica/sql-training

如何將CSV的資料傳送到kafka

前面的圖可以看出,讀取CSV再發送訊息到kafka的操作是Java應用所為,因此今天的主要工作就是開發這個Java應用,並驗證;

版本資訊

  • JDK:1.8.0_181
  • 開發工具:IntelliJ IDEA 2019.2.1 (Ultimate Edition)
  • 開發環境:Win10
  • Zookeeper:3.4.13
  • Kafka:2.4.0(scala:2.12)

關於資料集

  1. 本次實戰用到的資料集是CSV檔案,裡面是一百零四萬條淘寶使用者行為資料,該資料來源是阿里雲天池公開資料集,我對此資料做了少量調整;
  2. 此CSV檔案可以在CSDN下載,地址:https://download.csdn.net/download/boling_cavalry/12381698
  3. 也可以在我的Github下載,地址:https://raw.githubusercontent.com/zq2599/blog_demos/master/files/UserBehavior.7z
  4. 該CSV檔案的內容,一共有六列,每列的含義如下表:

列名稱 說明
使用者ID 整數型別,序列化後的使用者ID
商品ID 整數型別,序列化後的商品ID
商品類目ID 整數型別,序列化後的商品所屬類目ID
行為型別 字串,列舉型別,包括('pv','buy','cart','fav')
時間戳 行為發生的時間戳
時間字串 根據時間戳欄位生成的時間字串

  • 關於該資料集的詳情,請參考《準備資料集用於flink學習》

Java應用簡介

編碼前,先把具體內容列出來,然後再挨個實現:

  1. 從CSV讀取記錄的工具類:UserBehaviorCsvFileReader
  2. 每條記錄對應的Bean類:UserBehavior
  3. Java物件序列化成JSON的序列化類:JsonSerializer
  4. 向kafka傳送訊息的工具類:KafkaProducer
  5. 應用類,程式入口:SendMessageApplication

上述五個類即可完成Java應用的工作,接下來開始編碼吧;

直接下載原始碼

如果您不想寫程式碼,您可以直接從GitHub下載這個工程的原始碼,地址和連結資訊如下表所示:

名稱 連結 備註
專案主頁 https://github.com/zq2599/blog_demos 該專案在GitHub上的主頁
git倉庫地址(https) https://github.com/zq2599/blog_demos.git 該專案原始碼的倉庫地址,https協議
git倉庫地址(ssh) [email protected]:zq2599/blog_demos.git 該專案原始碼的倉庫地址,ssh協議

這個git專案中有多個資料夾,本章原始碼在flinksql這個資料夾下,如下圖紅框所示:

Java將CSV的資料傳送到kafka的示例

編碼

建立maven工程,pom.xml如下,比較重要的jackson和javacsv的依賴:

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
   xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
   xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
 <modelVersion>4.0.0</modelVersion>

 <groupId>com.bolingcavalry</groupId>
 <artifactId>flinksql</artifactId>
 <version>1.0-SNAPSHOT</version>

 <properties>
  <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
  <flink.version>1.10.0</flink.version>
  <kafka.version>2.2.0</kafka.version>
  <java.version>1.8</java.version>
  <scala.binary.version>2.11</scala.binary.version>
  <maven.compiler.source>${java.version}</maven.compiler.source>
  <maven.compiler.target>${java.version}</maven.compiler.target>
 </properties>

 <dependencies>
  <dependency>
   <groupId>org.apache.kafka</groupId>
   <artifactId>kafka-clients</artifactId>
   <version>${kafka.version}</version>
  </dependency>

  <dependency>
   <groupId>com.fasterxml.jackson.core</groupId>
   <artifactId>jackson-databind</artifactId>
   <version>2.9.10.1</version>
  </dependency>

  <!-- Logging dependencies -->
  <dependency>
   <groupId>org.slf4j</groupId>
   <artifactId>slf4j-log4j12</artifactId>
   <version>1.7.7</version>
   <scope>runtime</scope>
  </dependency>
  <dependency>
   <groupId>log4j</groupId>
   <artifactId>log4j</artifactId>
   <version>1.2.17</version>
   <scope>runtime</scope>
  </dependency>
  <dependency>
   <groupId>net.sourceforge.javacsv</groupId>
   <artifactId>javacsv</artifactId>
   <version>2.0</version>
  </dependency>

 </dependencies>

 <build>
  <plugins>
   <!-- Java Compiler -->
   <plugin>
    <groupId>org.apache.maven.plugins</groupId>
    <artifactId>maven-compiler-plugin</artifactId>
    <version>3.1</version>
    <configuration>
     <source>${java.version}</source>
     <target>${java.version}</target>
    </configuration>
   </plugin>

   <!-- Shade plugin to include all dependencies -->
   <plugin>
    <groupId>org.apache.maven.plugins</groupId>
    <artifactId>maven-shade-plugin</artifactId>
    <version>3.0.0</version>
    <executions>
     <!-- Run shade goal on package phase -->
     <execution>
      <phase>package</phase>
      <goals>
       <goal>shade</goal>
      </goals>
      <configuration>
       <artifactSet>
        <excludes>
        </excludes>
       </artifactSet>
       <filters>
        <filter>
         <!-- Do not copy the signatures in the META-INF folder.
         Otherwise,this might cause SecurityExceptions when using the JAR. -->
         <artifact>*:*</artifact>
         <excludes>
          <exclude>META-INF/*.SF</exclude>
          <exclude>META-INF/*.DSA</exclude>
          <exclude>META-INF/*.RSA</exclude>
         </excludes>
        </filter>
       </filters>
      </configuration>
     </execution>
    </executions>
   </plugin>
  </plugins>
 </build>
</project>

從CSV讀取記錄的工具類:UserBehaviorCsvFileReader,後面在主程式中會用到java8的Steam API來處理集合,所以UserBehaviorCsvFileReader實現了Supplier介面:

public class UserBehaviorCsvFileReader implements Supplier<UserBehavior> {

 private final String filePath;
 private CsvReader csvReader;

 public UserBehaviorCsvFileReader(String filePath) throws IOException {

  this.filePath = filePath;
  try {
   csvReader = new CsvReader(filePath);
   csvReader.readHeaders();
  } catch (IOException e) {
   throw new IOException("Error reading TaxiRecords from file: " + filePath,e);
  }
 }

 @Override
 public UserBehavior get() {
  UserBehavior userBehavior = null;
  try{
   if(csvReader.readRecord()) {
    csvReader.getRawRecord();
    userBehavior = new UserBehavior(
      Long.valueOf(csvReader.get(0)),Long.valueOf(csvReader.get(1)),Long.valueOf(csvReader.get(2)),csvReader.get(3),new Date(Long.valueOf(csvReader.get(4))*1000L));
   }
  } catch (IOException e) {
   throw new NoSuchElementException("IOException from " + filePath);
  }

  if (null==userBehavior) {
   throw new NoSuchElementException("All records read from " + filePath);
  }

  return userBehavior;
 }
}

每條記錄對應的Bean類:UserBehavior,和CSV記錄格式保持一致即可,表示時間的ts欄位,使用了JsonFormat註解,在序列化的時候以此來控制格式:

public class UserBehavior {

 @JsonFormat
 private long user_id;

 @JsonFormat
 private long item_id;

 @JsonFormat
 private long category_id;

 @JsonFormat
 private String behavior;

 @JsonFormat(shape = JsonFormat.Shape.STRING,pattern = "yyyy-MM-dd'T'HH:mm:ss'Z'")
 private Date ts;

 public UserBehavior() {
 }

 public UserBehavior(long user_id,long item_id,long category_id,String behavior,Date ts) {
  this.user_id = user_id;
  this.item_id = item_id;
  this.category_id = category_id;
  this.behavior = behavior;
  this.ts = ts;
 }
}

Java物件序列化成JSON的序列化類:JsonSerializer

public class JsonSerializer<T> {

 private final ObjectMapper jsonMapper = new ObjectMapper();

 public String toJSONString(T r) {
  try {
   return jsonMapper.writeValueAsString(r);
  } catch (JsonProcessingException e) {
   throw new IllegalArgumentException("Could not serialize record: " + r,e);
  }
 }

 public byte[] toJSONBytes(T r) {
  try {
   return jsonMapper.writeValueAsBytes(r);
  } catch (JsonProcessingException e) {
   throw new IllegalArgumentException("Could not serialize record: " + r,e);
  }
 }
}

向kafka傳送訊息的工具類:KafkaProducer:

public class KafkaProducer implements Consumer<UserBehavior> {

 private final String topic;
 private final org.apache.kafka.clients.producer.KafkaProducer<byte[],byte[]> producer;
 private final JsonSerializer<UserBehavior> serializer;

 public KafkaProducer(String kafkaTopic,String kafkaBrokers) {
  this.topic = kafkaTopic;
  this.producer = new org.apache.kafka.clients.producer.KafkaProducer<>(createKafkaProperties(kafkaBrokers));
  this.serializer = new JsonSerializer<>();
 }

 @Override
 public void accept(UserBehavior record) {
  // 將物件序列化成byte陣列
  byte[] data = serializer.toJSONBytes(record);
  // 封裝
  ProducerRecord<byte[],byte[]> kafkaRecord = new ProducerRecord<>(topic,data);
  // 傳送
  producer.send(kafkaRecord);

  // 通過sleep控制訊息的速度,請依據自身kafka配置以及flink伺服器配置來調整
  try {
   Thread.sleep(500);
  }catch(InterruptedException e){
   e.printStackTrace();
  }
 }

 /**
  * kafka配置
  * @param brokers The brokers to connect to.
  * @return A Kafka producer configuration.
  */
 private static Properties createKafkaProperties(String brokers) {
  Properties kafkaProps = new Properties();
  kafkaProps.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG,brokers);
  kafkaProps.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG,ByteArraySerializer.class.getCanonicalName());
  kafkaProps.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG,ByteArraySerializer.class.getCanonicalName());
  return kafkaProps;
 }
}

最後是應用類SendMessageApplication,CSV檔案路徑、kafka的topic和borker地址都在此設定,另外借助java8的Stream API,只需少量程式碼即可完成所有工作:

public class SendMessageApplication {

 public static void main(String[] args) throws Exception {
  // 檔案地址
  String filePath = "D:\\temp\\202005\\02\\UserBehavior.csv";
  // kafka topic
  String topic = "user_behavior";
  // kafka borker地址
  String broker = "192.168.50.43:9092";

  Stream.generate(new UserBehaviorCsvFileReader(filePath))
    .sequential()
    .forEachOrdered(new KafkaProducer(topic,broker));
 }
}

驗證

  1. 請確保kafka已經就緒,並且名為user_behavior的topic已經建立;
  2. 請將CSV檔案準備好;
  3. 確認SendMessageApplication.java中的檔案地址、kafka topic、kafka broker三個引數準確無誤;
  4. 執行SendMessageApplication.java;
  5. 開啟一個 控制檯訊息kafka訊息,參考命令如下:
./kafka-console-consumer.sh \
--bootstrap-server 127.0.0.1:9092 \
--topic user_behavior \
--consumer-property group.id=old-consumer-test \
--consumer-property consumer.id=old-consumer-cl \
--from-beginning
  • 正常情況下可以立即見到訊息,如下圖:

Java將CSV的資料傳送到kafka的示例

至此,通過Java應用模擬使用者行為訊息流的操作就完成了,接下來的flink實戰就用這個作為資料來源;

以上就是Java將CSV的資料傳送到kafka得示例的詳細內容,更多關於Java CSV的資料傳送到kafka的資料請關注我們其它相關文章!