logo头像
Snippet 博客主题

Spark+Python ML库进行分布式预测

很多机器学习库往往都只有python的版本,但是由于都是本地单机版的,所以并不适用于线上大规模的例行离线预测。Spark虽然也有mllib,但是支持度并不够,很多有用的算法并没有集成。所以需要考虑如何整合Spark以及开源python ml库来同时获得分布式执行的优点以及开源库的丰富性。…

Graphx中的三角计数

在网络中计算节点的重要性有着比较多的应用, 比如找到一些大点进行信息传播或者找到一些异常点进行风险判定等。…

Spark SQL中的Window函数

在使用spark sql的时候经常会计算一些汇聚特征,比如一个卖家在一段时间的销售总额,对于这种汇聚后返回单值的需求通过groupBy(“xxx”).agg(“xxx”)即可。…

Graphx中处理字符串类型的ID

Graphx中的结点ID只能是Long型的,但是在实际的业务中有时会遇到字符串类型的ID,这时需要建立一个结点ID的映射。…