当前位置: 首页 > news >正文

大厂面经:滴滴大数据面试题及参考答案(3万字长文)

目录

Hive的数据类型有哪些

Hive中计算排名前N的函数有哪些

Hive的优化手段你知道哪些

遇到过数据倾斜吗

mapjoin如何开启,参数是什么

数仓分层讲一下

谈谈对UDF的理解,写UDF的目的,代码怎么写的

改造hive表后怎么进行数据一致性校验的,有没有自动化流程

Kafka Broker源码里面你最熟悉的类,以及这个类的主要方法,用的什么设计模式

数仓项目里面从数据采集到最终的数据可视化,每个环节都有可能丢数据,怎么判断数据有没有丢,如果丢了如何定位到在哪一个环节丢的

项目里面为什么要用kafka stream做实时计算,而不是用spark或者flink,kafka sql和spark sql了解过吗

项目里面用到了时序数据库OpenTSDB,为什么要用这个,有没有跟其它的时序数据库对比过

实时计算的程序,你怎么保证计算的结果肯定是对的

数据接入的时候,怎么往Kafka topic里面发的,用的什么方式,起了几个线程,producer是线程安全的吗

Kafka集群有几台机器,怎么确定你们项目需要用几台机器,有评估过吗,吞吐量测过吗

Spark Streaming是怎么跟Kafka交互的,具体代码怎么写的,程序执行流程是怎样的,这个过程中怎么确保数据不丢

交互过程

具体代码

程序执行流程

确保数据不丢失

Kafka监控是怎么做的,kafka中能彻底删除数据吗,怎么做的

Kafka监控

彻底删除数据

项目中有遇到数据倾斜吗,怎么解决的

详细讲JVM内存的划分

详细讲垃圾收集算法

详细讲数据建模,星型模型和雪花模型

星型模型

雪花模型

数仓层级的划分,怎么对接到mysql拿数据

Hive列转行函数了解吗

LATERAL VIEW 和 EXPLODE

讲一下数据仓库层级的划分,每层的作用

谈谈你对数仓的理解

你们的数仓是怎么分层的,为什么要对数仓进行分层

介绍一下你做的离线数仓的数据全链路

MapReduce的流程及其shuffle

MapReduce与Spark优劣好处

MapReduce

Spark

Kafka如何保证高吞吐的,了不了解kafka零拷贝,具体怎么做的

SQL有几种join,map join了解过没

HBase中row key该怎么设计

HDFS文件上传流程,hdfs的容错机制

怎么解决hive数据倾斜问题

说说数组和链表的区别?

数组

链表

详细说明堆排序算法过程?

说说重载和重写的区别?

重载(Overloading)

重写(Overriding)

分布式数据库是什么?

详细说明分布式数据库事务?

Flink的运行时架构,如何提交任务?

Flink的JobManager提交Job之后,如何切分Job?

Flink的窗口函数用过哪些?

MapReduce的shuffle过程

介绍Kafka的原理,kafka吞吐量大的原因

Hive中的distinct会用到几个MR?如果自己写MR的话会写多少个处理

MR中Map的输出是什么文件?输出文件数量有多少?

HDFS有哪些组成?当namenode重启的时候,SecondaryNameNode的作用是什么?

思路:(开窗函数,lead和lag)

算法题Java代码实现:二维矩阵相乘

算法题Java代码实现:链表中环的入口

MySQL Binlog的数据格式,怎么进行数据清洗

Binlog 数据格式

如何进行数据清洗

写一个正则表达式进行手机号匹配

SQL实现题:学生成绩表,把每科最高分前三名统计出来

用Java代码实现:二维数组中的查找

用SQL实现:写一条SQL删除订单表中重复的记录

SQL题:一张网页浏览信息表,有两列,一列是网页ip,一列是浏览网页的用户(比如a或者b、c、d直到z),求这些网页被a和b或者a和c或者b和c两两组合访问的次数


Hive的数据类型有哪些

Hive 支持多种数据类型,这些类型主要分为基本类型和复合类型。基本类型包括整型、浮点型、字符串型等;而复合类型则包含数组、映射、结构体等。下面是详细的分类:

  • 基本数据类型

    • TINYINT:8位有符号整型。
    • SMALLINT:16位有符号整型。
    • INT 或 INTEGER:32位有符号整型。
    • BIGINT:64位有符号整型。
    • FLOAT:单精度浮点型。
    • DOUBLE 或 DOUBLE PRECISION:双精度浮点型。
    • BOOLEAN:布尔类型,可以取值为 TRUE 或 FALSE
    • STRING:可变长度的字符串类型。
    • TIMESTAMP:时间戳类型,存储的是从 1970 年 1 月 1 日到指定日期/时间的毫秒数。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 返回倒数第 k 个节点 - 力扣(LeetCode)C语言
  • 记录|博图中VB脚本和子程序之间的区别?
  • 原生JavaScript系列面试题
  • MyBatis-Plus的基本使用(一)
  • uni-app pinia搭建
  • Vue3开源Tree组件研发:节点勾选支持v-model
  • 防火墙——SNAT和DNAT策略的原理及应用、防火墙规则的备份、还原和抓包
  • python基础---1.变量、运算符和表达式、基本数据结构
  • 基于Orangepi全志H616开发嵌入式数据库——SQLite
  • Android Button设置点击监听器用switch case R.id.xxxx报错:Constant expression required
  • 2679. 矩阵中的和
  • DolphinDB Web 端权限管理:可视化操作指南
  • 钡铼网关实时数据互联,加速IEC104与MQTT云平台对接
  • C++STL简介(二)
  • 面试重点---快速排序
  • Angular js 常用指令ng-if、ng-class、ng-option、ng-value、ng-click是如何使用的?
  • Angular 响应式表单之下拉框
  • canvas绘制圆角头像
  • CSS 三角实现
  • If…else
  • PHP 使用 Swoole - TaskWorker 实现异步操作 Mysql
  • Vue2.x学习三:事件处理生命周期钩子
  • vue学习系列(二)vue-cli
  • webpack4 一点通
  • 漫谈开发设计中的一些“原则”及“设计哲学”
  • 你不可错过的前端面试题(一)
  • 巧用 TypeScript (一)
  • 腾讯优测优分享 | Android碎片化问题小结——关于闪光灯的那些事儿
  • 微服务核心架构梳理
  • 我与Jetbrains的这些年
  • 线上 python http server profile 实践
  • 限制Java线程池运行线程以及等待线程数量的策略
  • 一个完整Java Web项目背后的密码
  • 怎么将电脑中的声音录制成WAV格式
  • linux 淘宝开源监控工具tsar
  • ​ 无限可能性的探索:Amazon Lightsail轻量应用服务器引领数字化时代创新发展
  • # windows 安装 mysql 显示 no packages found 解决方法
  • #pragma once
  • #传输# #传输数据判断#
  • %3cli%3e连接html页面,html+canvas实现屏幕截取
  • (12)目标检测_SSD基于pytorch搭建代码
  • (NO.00004)iOS实现打砖块游戏(十二):伸缩自如,我是如意金箍棒(上)!
  • (PWM呼吸灯)合泰开发板HT66F2390-----点灯大师
  • (安全基本功)磁盘MBR,分区表,活动分区,引导扇区。。。详解与区别
  • (仿QQ聊天消息列表加载)wp7 listbox 列表项逐一加载的一种实现方式,以及加入渐显动画...
  • (回溯) LeetCode 131. 分割回文串
  • (九)c52学习之旅-定时器
  • (利用IDEA+Maven)定制属于自己的jar包
  • (七)Flink Watermark
  • (贪心) LeetCode 45. 跳跃游戏 II
  • (一) storm的集群安装与配置
  • (转)scrum常见工具列表
  • .gitignore文件使用
  • .net core使用ef 6
  • .NET Micro Framework初体验