基础

https://mattturck.com/data2020/

https://mattturck.wpenginepowered.com/wp-content/uploads/2020/09/2020-Data-and-AI-Landscape-Matt-Turck-at-FirstMark-v1.pdf

https://mattturck.wpenginepowered.com/wp-content/uploads/2021/12/2021-MAD-Landscape-v3.pdf

架构选型

https://docherish.com/post/ji-zhu-jia-gou-xuan-xing/

1 数据采集采集框架名称主要功能 Sqoop 大数据平台和关系型数据库的导入导出 datax 大数据平台和关系型数据库的导入导出 flume 擅长日志数据的采集和解析 logstash 擅长日志数据的采集和解析 maxwell 常用作实时解析mysql的binlog数据 canal 常用作实时解析mysql的binlog数据 waterDrop 数据导入导出工具2 消息中间件开源MQ 概述 1.RabbitMQ LShift 用Erlang实现，支持多协议，broker架构，重量级 2.ZeroMQ AMQP最初设计者iMatix公司实现，轻量消息内核，无broker设计。C++实现 3.Jafka/Kafka LinkedIn用Scala语言实现，支持hadoop数据并行加载 4.ActiveMQ Apach的一种JMS具体实现，支持代理和p2p部署。支持多协议。Java实现 5.Redis Key-value NoSQL数据库，有MQ的功能 6.MemcacheQ 国人利用memcache缓冲队列协议开发的消息队列,C/C++实现3 实时流式处理框架名称框架介绍 Storm Twitter公司开源提供，早期的流式计算框架，基本已经退出大数据的舞台 SparkStreaming 当下最火热的流式处理技术之一 Flink 流式计算当下最火热的流式处理技术之一 Blink流式计算阿里二次开发的Flink框架4 数据持久化框架名称主要用途 HDFS 分布式文件存储系统 Hbase Key，value对的nosql数据库 Kudu Cloudera公司开源提供的类似于Hbase的数据存储5 离线计算框架框架名称基本介绍 MapReduce 最早期的分布式文件计算系统 hive 基于MR的数据仓库工具 impala 号称当前大数据领域最快的sql on hadoop框架，内存消耗特别大 SparkSQL 基于spark，一站式解决批流处理问题 FlinkSQL 基于flink，一站式解决批流处理问题 druid 针对时间序列数据提供低延迟的数据写入以及快速交互式查询的分布式OLAP数据库 kylin 基于Hbase实现的预计算 presto 分布式SQL查询引擎，用于查询分布在一个或多个不同数据源中的大数据集 clickHouse 俄罗斯开源提供的一个OLAP分析框架

常用搜索	百度 Google Bing Github 搜代码
技术社区	CSDN 博客园 OSChina 知否掘金 Linux公社 IBM 开发者 StackOverflow
Java相关	面向对象基础语法基础集合框架并发基础并发关键字 JUC并发框架 IO框架 Java8 特性 JVM基础调试排错更多资源
算法相关	数组与线性表树详解图详解内部排序算法思想安全算法大数据处理分布式算法负载均衡算法推荐算法头脑风暴
数据库相关	数据库原理 SQL语言 MySQL相关 MongoDB ElasticSearch
开发基础相关	常用类库单元测试正则表达式网络协议安全相关常见重构技巧
架构相关	架构基础架构视角架构演进架构模式和要素高并发之缓存高并发之限流高并发之降级负载均衡容灾备份架构安全秒杀系统设计架构案例
工具和部署	工具集合 IDE相关 Git Maven Linux Docker
方法论	SOLID CAP BASE 开源协议代码规范设计模式
产品和团队	产品相关团队相关其它分享

# 基础

# 架构选型

基础

架构选型