目录
Kafka Broker源码里面你最熟悉的类,以及这个类的主要方法,用的什么设计模式
数仓项目里面从数据采集到最终的数据可视化,每个环节都有可能丢数据,怎么判断数据有没有丢,如果丢了如何定位到在哪一个环节丢的
项目里面为什么要用kafka stream做实时计算,而不是用spark或者flink,kafka sql和spark sql了解过吗
项目里面用到了时序数据库OpenTSDB,为什么要用这个,有没有跟其它的时序数据库对比过
数据接入的时候,怎么往Kafka topic里面发的,用的什么方式,起了几个线程,producer是线程安全的吗
Kafka集群有几台机器,怎么确定你们项目需要用几台机器,有评估过吗,吞吐量测过吗
Spark Streaming是怎么跟Kafka交互的,具体代码怎么写的,程序执行流程是怎样的,这个过程中怎么确保数据不丢
Kafka监控是怎么做的,kafka中能彻底删除数据吗,怎么做的
Kafka如何保证高吞吐的,了不了解kafka零拷贝,具体怎么做的
Flink的JobManager提交Job之后,如何切分Job?
Hive中的distinct会用到几个MR?如果自己写MR的话会写多少个处理
HDFS有哪些组成?当namenode重启的时候,SecondaryNameNode的作用是什么?
SQL题:一张网页浏览信息表,有两列,一列是网页ip,一列是浏览网页的用户(比如a或者b、c、d直到z),求这些网页被a和b或者a和c或者b和c两两组合访问的次数
Hive的数据类型有哪些
Hive 支持多种数据类型,这些类型主要分为基本类型和复合类型。基本类型包括整型、浮点型、字符串型等;而复合类型则包含数组、映射、结构体等。下面是详细的分类:
基本数据类型:
TINYINT
:8位有符号整型。SMALLINT
:16位有符号整型。INT
或INTEGER
:32位有符号整型。BIGINT
:64位有符号整型。FLOAT
:单精度浮点型。DOUBLE
或DOUBLE PRECISION
:双精度浮点型。BOOLEAN
:布尔类型,可以取值为TRUE
或FALSE
。STRING
:可变长度的字符串类型。TIMESTAMP
:时间戳类型,存储的是从 1970 年 1 月 1 日到指定日期/时间的毫秒数。