Embedding算法通常都是无监督的,但是也是需要找到合适的模型评估方法,否则没法迭代模型参数,比如word2vec的window size等…
《Factorization machines》是一个可以自动学习特征交叉组合的经典算法,在广告/推荐领域有着广泛的应用。…
摘要一句话总结,SynchroTrap是Facebook提出的基于用户之间相似性的聚类算法。它的基本想法是作弊账号在社交网络中的行为比较同步,即通过行为去捕捉作弊者团伙性。…
sklearn随机森林训练好的模型(RandomForestClassifier)有两个预测函数,predict和predict_proba。…
CopyCatch是Facebook的一个风控算法,它的核心是基于用户行为和时间的双聚类。值的借鉴的是它提出的lockstep behavior的想法。…
总结一下catboost关键的知识点…
阅读算法的原始论文是学习它的最好途径,为什么呢?一是网上的博客资料质量良莠不齐,有时可能是错的;二是论文中一定会重点阐述算法的核心创新点到底是怎么来的,以及这个算法的完整上下文。…
物以类聚人以群分…
生产环境很多时候是需要实时对数据进行预测的,即离线训练好模型后将模型保存为模型文件,然后在线服务将模型加载到内存…
第一个能够发现重叠社区的算法…