apachespark在java中具有参数化/泛型类的数据集

wtzytmuj 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(459)

我一直在想，在java中是否可以使用参数化/泛型类的数据集。更清楚地说，我希望实现的目标是：

Dataset<MyClass<Integer>> myClassInteger;
Dataset<MyClass<String>> myClassString;

如果可能的话请告诉我。如果你也能告诉我如何做到这一点，我将非常感激。谢谢！

Java apache-spark Generics parameterized-class

来源：https://stackoverflow.com/questions/63620757/apache-spark-having-dataset-of-a-parameterised-generic-class-in-java

1条答案

按热度按时间

zzlelutf1#

是的，你可以有自己的类的数据集。看起来像 Dataset<MyOwnClass> 在下面的代码中，我尝试读取一个文件内容并将其放入我们创建的类的数据集中。请检查下面的代码段。

import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Encoder;
import org.apache.spark.sql.Encoders;
import org.apache.spark.sql.SparkSession;
import java.io.Serializable;
public class FileDataset {
    public static class Employee implements Serializable {
        public int key;
        public int value;
    }
    public static void main(String[] args) {
        // configure spark
        SparkSession spark = SparkSession
                .builder()
                .appName("Reading JSON File into DataSet")
                .master("local[2]")
                .getOrCreate();
        final Encoder<Employee> employeeEncoder = Encoders.bean(Employee.class);
        final String jsonPath = "/Users/ajaychoudhary/Documents/student.txt";
        // read JSON file to Dataset
        Dataset<Employee> ds = spark.read()
                .json(jsonPath)
                .as(employeeEncoder);
        ds.show();
    }
}

我的工作内容 student.txt 文件是

{ "key": 1, "value": 2 }
{ "key": 3, "value": 4 }
{ "key": 5, "value": 6 }

它在控制台上生成以下输出：

+---+-----+
|key|value|
+---+-----+
|  1|    2|
|  3|    4|
|  5|    6|
+---+-----+

我希望这能让您初步了解如何拥有自己自定义类的数据集。

展开查看全部

赞(0）回复(0）举报 2021-05-27

我来回答

apachespark在java中具有参数化/泛型类的数据集

1条答案

相关问题

热门标签

最新问答