很多人以为装机就是挑CPU、换显卡、装固态,其实现在不少用户装机目标很明确——跑数据、做分析、搭实验环境。比如刚学Hadoop的学生,想本地跑个Spark任务练手的程序员,或者自己搭个小集群做日志分析的运维新手,选对框架直接影响后续体验。
Hadoop:老大哥还在扛活
别被“老”字吓住,Hadoop 的 HDFS + MapReduce 组合仍是很多企业批处理的底层基座。装机时如果打算本地单机伪分布式测试,8GB内存起步,16GB更稳,硬盘建议留出50GB以上空间放数据块和日志。启动命令简单:
start-dfs.sh && start-yarn.sh跑通后浏览器打开 http://localhost:9870 就能看到NameNode界面。Spark:快是真快,但吃内存
比起Hadoop,Spark把中间结果存在内存里,跑WordCount这类任务快好几倍。本地模式下不用搭集群,一条命令就能跑:
spark-submit --master local[2] wordcount.py input.txt注意:4核CPU配16GB内存才不卡顿;如果只给8GB,经常看到“GC overhead limit exceeded”的报错。Flink:实时流处理新主力
想做实时点击流分析、监控告警、订单秒级统计?Flink 是绕不开的。它在本地用 Standalone 模式就能起作业:
./bin/start-cluster.sh
./bin/flink run examples/streaming/SocketWindowWordCount.jar --port 9000然后用 nc -l 9000 发点文本试试效果。推荐装机时SSD起步,Flink频繁刷状态,机械盘容易拖慢。Kafka:消息管道不能少
不是所有大数据任务都单打独斗。Kafka 常和Flink或Spark Streaming配对,负责收日志、接埋点、传指标。单机跑起来不难:
./bin/zookeeper-server-start.sh config/zookeeper.properties &
./bin/kafka-server-start.sh config/server.properties但要注意端口别被杀毒软件拦了,Windows用户建议关掉Windows Defender实时防护再试。Presto / Trino:查数据像查Excel
不想写MapReduce,又懒得跑Spark SQL?Presto(现多用Trino分支)直接连HDFS、MySQL、甚至本地CSV都能查。装完服务后,用CLI连上:
presto-cli --server localhost:8080 --catalog hive --schema default输个 SELECT count(*) FROM logs; 看看响应速度,快过传统方式一大截。装机前心里有数:Hadoop重在稳定、Spark拼内存、Flink靠SSD、Kafka怕端口冲突、Trino赢在轻快。硬件不堆满,框架也跑不欢。