spark basic

分区和cpu核心数目

分区数目一般是cpu核心数目的2到4倍
加入有50GB的数据存放在hdfs上面,除以128MB,差不多是160,但是我们的cpu总核心数目才50,
所以160个分区对应50个cores也是可以的,这样一个core差不多要运行3个task

如果cpu核心有160,那么每个分区对应一个task,这样最快

分区数目不能太多,太多了就太多的task,这样节点压力会很大

每一个分区被一个task执行,如果160个分区也就是160个task,分布在50个cpu核心