hadoop(文件系统)

dphi5xsq  于 2021-06-03  发布在  Hadoop
关注(0)|答案(2)|浏览(452)

我对bigdata和haddop技术非常陌生。在理解建筑的同时,我有几个问题。请帮助我理解同样的道理。
1) 谁是客户机和hdfs架构?
2) 如果我的文件是128MB,那么理想情况下,它应该分成两个block,每个64mb。但我的问题是,这种文件剪切/拆分会发生在哪里。是在客户端吗。如果是的话,它将如何发生?因为我试图理解当我向hdfs发送128mb文件时,分割将如何发生。请帮我解决同样的问题。
3) 谁是大数据的编辑。
4) 大数据的缺点是什么。
提前谢谢湿婆

5uzkadbs

5uzkadbs1#

1) 谁是客户机和hdfs架构?
我不明白你想知道什么关于hdfs的客户。如果我理解正确的话,客户端可以是任何可视化工具/报告工具(例如:tableau)或任何其他目标,比如oracle/hana。这取决于你想如何使用hdfs数据。没有特定的客户端。
2) 如果我的文件是128MB,那么理想情况下,它应该分成两个块,每个块64mb。但我的问题是,这种文件剪切/拆分会发生在哪里。是在客户端吗。如果是的话,它将如何发生?因为我试图理解当我向hdfs发送128mb文件时,分割将如何发生。请帮我解决同样的问题。
首先,您必须了解块大小和拆分大小之间的区别。两者在理想情况下是不同的。块是数据的物理表示。拆分是块中数据的逻辑表示。当作业启动时,将创建输入拆分。将根据输入拆分重新创建读取器。记录读取器的职责是从i/p分裂中获取引用并创建实际的kv对。所有这些都将由inputformat创建。i/p分割将有助于获得完整的记录。
当用户提交请求时,客户端库将接受该请求,客户端库本身将创建i/p拆分和其他类,并向资源管理器提供完整的详细信息。
更改复制因子打开hdfs-site.xml文件。该文件通常位于hadoop安装目录的conf/文件夹中。将以下属性更改或添加到hdfs-site.xml:

<property> 
<name>dfs.replication<name> 
<value>3<value> 
<description>Block Replication<description> 
<property>

hadoop分布式文件系统是用来保存和管理大量数据的;因此,典型的hdfs块大小明显大于传统文件系统的块大小(例如,我笔记本电脑上的文件系统使用4kb的块大小)。hdfs使用块大小设置将文件分成块,然后将这些块分布到集群中。例如,如果集群使用的块大小为64 mb,并且向hdfs中放入了128 mb的文本文件,则hdfs会将该文件拆分为两个块(128 mb/64 mb),并将这两个块分发给集群中的数据节点。
更改块大小。打开hdfs-site.xml文件。此文件通常位于hadoop安装目录的conf/文件夹中。请在hdfs-site.xml中设置以下属性:

<property> 
    <name>dfs.block.size<name> 
    <value>134217728<value> 
    <description>Block size<description> 
    <property>

hdfs-site.xml用于配置hdfs。更改hdfs-site.xml中的dfs.block.size属性将更改放入hdfs中的所有文件的默认块大小。在本例中,我们将dfs.block.size设置为128 mb。更改此设置不会影响hdfs中当前任何文件的块大小。此设置生效后,它只会影响放入hdfs的文件的块大小。
3) 谁是大数据的编辑。Hadoop是由Apache开源项目基金会维护的开源软件。企业hadoop的主要竞争对手是hortonworks、clouders和mapr
4) 大数据的缺点是什么。不适合很多小文件。不适合实时数据处理。潜在的稳定问题

deyfvvtc

deyfvvtc2#

1) “client”是指在所有bigdata都经过评估后,为客户的业务改进而使用的项目所有者。“hadoop架构”是指形成每个人都需要遵守的核心的一套规则和标准。example:after constructing 零层的四根柱子不能构成下一层的六根柱子。
2) 默认块大小为64,后跟128256。可以在xml文件中显式地提到块大小。一般来说,分区用于在执行读/写操作时减少网络开销。因此,不能期望一次发送1tb的数据。在这里,该体系结构开始发挥作用,我们不必担心完全理解hadoop体系结构如何以及为什么要处理它。正如我们所知道的java抽象,“我们不需要知道实现是如何完成的完整细节”。
3) 目前bigdata还没有竞争对手,bigdatait本身就是用来了解业务的弊端和改进业务的。example:amazon uses 为了了解用户的选择和偏好,twitter、facebook、linkedin、netflix都是使用bigdata的社交网站。
4) 如前所述,大数据没有任何不利之处。更具体地说,hadoop体系结构有一些缺点,即hadoop使用硬盘进行读/写操作,延迟很高。

相关问题