大厂面经:滴滴大数据面试题及参考答案(3万字长文)

avatar
作者
筋斗云
阅读量:0

目录

Hive的数据类型有哪些

Hive中计算排名前N的函数有哪些

Hive的优化手段你知道哪些

遇到过数据倾斜吗

mapjoin如何开启,参数是什么

数仓分层讲一下

谈谈对UDF的理解,写UDF的目的,代码怎么写的

改造hive表后怎么进行数据一致性校验的,有没有自动化流程

Kafka Broker源码里面你最熟悉的类,以及这个类的主要方法,用的什么设计模式

数仓项目里面从数据采集到最终的数据可视化,每个环节都有可能丢数据,怎么判断数据有没有丢,如果丢了如何定位到在哪一个环节丢的

项目里面为什么要用kafka stream做实时计算,而不是用spark或者flink,kafka sql和spark sql了解过吗

项目里面用到了时序数据库OpenTSDB,为什么要用这个,有没有跟其它的时序数据库对比过

实时计算的程序,你怎么保证计算的结果肯定是对的

数据接入的时候,怎么往Kafka topic里面发的,用的什么方式,起了几个线程,producer是线程安全的吗

Kafka集群有几台机器,怎么确定你们项目需要用几台机器,有评估过吗,吞吐量测过吗

Spark Streaming是怎么跟Kafka交互的,具体代码怎么写的,程序执行流程是怎样的,这个过程中怎么确保数据不丢

交互过程

具体代码

程序执行流程

确保数据不丢失

Kafka监控是怎么做的,kafka中能彻底删除数据吗,怎么做的

Kafka监控

彻底删除数据

项目中有遇到数据倾斜吗,怎么解决的

详细讲JVM内存的划分

详细讲垃圾收集算法

详细讲数据建模,星型模型和雪花模型

星型模型

雪花模型

数仓层级的划分,怎么对接到mysql拿数据

Hive列转行函数了解吗

LATERAL VIEW和EXPLODE

讲一下数据仓库层级的划分,每层的作用

谈谈你对数仓的理解

你们的数仓是怎么分层的,为什么要对数仓进行分层

介绍一下你做的离线数仓的数据全链路

MapReduce的流程及其shuffle

MapReduce与Spark优劣好处

MapReduce

Spark

Kafka如何保证高吞吐的,了不了解kafka零拷贝,具体怎么做的

SQL有几种join,map join了解过没

HBase中row key该怎么设计

HDFS文件上传流程,hdfs的容错机制

怎么解决hive数据倾斜问题

说说数组和链表的区别?

数组

链表

详细说明堆排序算法过程?

说说重载和重写的区别?

重载(Overloading)

重写(Overriding)

分布式数据库是什么?

详细说明分布式数据库事务?

Flink的运行时架构,如何提交任务?

Flink的JobManager提交Job之后,如何切分Job?

Flink的窗口函数用过哪些?

MapReduce的shuffle过程

介绍Kafka的原理,kafka吞吐量大的原因

Hive中的distinct会用到几个MR?如果自己写MR的话会写多少个处理

MR中Map的输出是什么文件?输出文件数量有多少?

HDFS有哪些组成?当namenode重启的时候,SecondaryNameNode的作用是什么?

思路:(开窗函数,lead和lag)

算法题Java代码实现:二维矩阵相乘

算法题Java代码实现:链表中环的入口

MySQL Binlog的数据格式,怎么进行数据清洗

Binlog 数据格式

如何进行数据清洗

写一个正则表达式进行手机号匹配

SQL实现题:学生成绩表,把每科最高分前三名统计出来

用Java代码实现:二维数组中的查找

用SQL实现:写一条SQL删除订单表中重复的记录

SQL题:一张网页浏览信息表,有两列,一列是网页ip,一列是浏览网页的用户(比如a或者b、c、d直到z),求这些网页被a和b或者a和c或者b和c两两组合访问的次数


Hive的数据类型有哪些

Hive 支持多种数据类型,这些类型主要分为基本类型和复合类型。基本类型包括整型、浮点型、字符串型等;而复合类型则包含数组、映射、结构体等。下面是详细的分类:

  • 基本数据类型

    • TINYINT:8位有符号整型。
    • SMALLINT:16位有符号整型。
    • INTINTEGER:32位有符号整型。
    • BIGINT:64位有符号整型。
    • FLOAT:单精度浮点型。
    • DOUBLEDOUBLE PRECISION:双精度浮点型。
    • BOOLEAN:布尔类型,可以取值为TRUEFALSE
    • STRING:可变长度的字符串类型。
    • TIMESTAMP:时间戳类型,存储的是从 1970 年 1 月 1 日到指定日期/时间的毫秒数。

广告一刻

为您即时展示最新活动产品广告消息,让您随时掌握产品活动新动态!