装机前必看：常用大数据处理框架有哪些？

发布时间：2026-04-01 12:30:43 阅读：4 次

很多人以为装机就是挑CPU、换显卡、装固态，其实现在不少用户装机目标很明确——跑数据、做分析、搭实验环境。比如刚学Hadoop的学生，想本地跑个Spark任务练手的程序员，或者自己搭个小集群做日志分析的运维新手，选对框架直接影响后续体验。

Hadoop：老大哥还在扛活

别被“老”字吓住，Hadoop 的 HDFS + MapReduce 组合仍是很多企业批处理的底层基座。装机时如果打算本地单机伪分布式测试，8GB内存起步，16GB更稳，硬盘建议留出50GB以上空间放数据块和日志。启动命令简单：

start-dfs.sh && start-yarn.sh

跑通后浏览器打开 http://localhost:9870 就能看到NameNode界面。

比起Hadoop，Spark把中间结果存在内存里，跑WordCount这类任务快好几倍。本地模式下不用搭集群，一条命令就能跑：

spark-submit --master local[2] wordcount.py input.txt

注意：4核CPU配16GB内存才不卡顿；如果只给8GB，经常看到“GC overhead limit exceeded”的报错。

想做实时点击流分析、监控告警、订单秒级统计？Flink 是绕不开的。它在本地用 Standalone 模式就能起作业：

./bin/start-cluster.sh
./bin/flink run examples/streaming/SocketWindowWordCount.jar --port 9000

然后用 nc -l 9000 发点文本试试效果。推荐装机时SSD起步，Flink频繁刷状态，机械盘容易拖慢。

不是所有大数据任务都单打独斗。Kafka 常和Flink或Spark Streaming配对，负责收日志、接埋点、传指标。单机跑起来不难：

./bin/zookeeper-server-start.sh config/zookeeper.properties &
./bin/kafka-server-start.sh config/server.properties

但要注意端口别被杀毒软件拦了，Windows用户建议关掉Windows Defender实时防护再试。

不想写MapReduce，又懒得跑Spark SQL？Presto（现多用Trino分支）直接连HDFS、MySQL、甚至本地CSV都能查。装完服务后，用CLI连上：

presto-cli --server localhost:8080 --catalog hive --schema default

输个 SELECT count(*) FROM logs; 看看响应速度，快过传统方式一大截。

装机前心里有数：Hadoop重在稳定、Spark拼内存、Flink靠SSD、Kafka怕端口冲突、Trino赢在轻快。硬件不堆满，框架也跑不欢。