很多机器学习库往往都只有python的版本,但是由于都是本地单机版的,所以并不适用于线上大规模的例行离线预测。Spark虽然也有mllib,但是支持度并不够,很多有用的算法并没有集成。所以需要考虑如何整合Spark以及开源python ml库来同时获得分布式执行的优点以及开源库的丰富性。…
在网络中计算节点的重要性有着比较多的应用, 比如找到一些大点进行信息传播或者找到一些异常点进行风险判定等。…
在使用spark sql的时候经常会计算一些汇聚特征,比如一个卖家在一段时间的销售总额,对于这种汇聚后返回单值的需求通过groupBy(“xxx”).agg(“xxx”)即可。…
Graphx中的结点ID只能是Long型的,但是在实际的业务中有时会遇到字符串类型的ID,这时需要建立一个结点ID的映射。…