机器学习实践¶

June 3, 2025
in 机器学习实践
10 min read

微博大数据实践：Faiss + Spark 实现大规模用户相似度检索

在系列前作中，我们已经探讨了如何利用ALS算法为海量用户及其兴趣标签构建向量表征（Embeddings）（详见《机器学习实践：ALS的矩阵分解》），并进一步研究了如何让这些向量模型具备动态适应线上数据更新的能力。

手握这些用户画像向量，一个新的工程挑战摆在了面前：如何在两亿级别的用户海洋中，为每一位用户精准且高效地“捞”出与其兴趣图谱最为契合的Top-K“知己”？这对于个性化推荐系统（例如“猜你认识”或关联内容推荐）而言，无疑是核心一环。

面对如此庞大的用户基数，传统的“两两握手”式比较方法，在计算资源和时间成本上显然力不从心。本文将聚焦于一种结合Faiss与Spark的分布式解决方案，旨在攻克这一大规模用户相似度计算的难题。

1、漫漫长路：那些年我们踩过的“坑”

在抵达“光明顶”之前，咱们也曾在崎岖小路上摸索过。

March 13, 2025
in 机器学习实践
10 min read

机器学习实践：ALS的矩阵分解-Part II

在之前「机器学习实践：ALS的矩阵分解」中，我们通过ALS矩阵分解，对用户兴趣标签进行向量化，得到了接近word2vec的效果。

但是遗留了一个重要的问题，矩阵分解模型是对user_id和item_id进行建模的，只有把对全量的id的数据都喂给模型，才能获得id向量。这个id向量是静态的，一次性的，但在推荐系统使用时，建模数据每天变化，user_id和item_id集合也是不断变化的，导致ALS直接使用并不方便，两方面的挑战：

如果只关心item的向量，可以对user集合进行了10%的抽样，但如果需要user集合的向量，就需要对全量数据分解，训练时间就会大大增加。
行为数据每天更新，每次训练ALS学出来的向量都会与旧数据完全不同，没有连续性。

这个挑战类似于GNN之于node2vec的改进，也就是 inductive（不使用node_id）和 transductive（使用node_id）的区别。

那么，这篇讨论的问题是，ALS算法能不能改造成inductive的？也就是能否满足下面两点性质，

December 9, 2024
in 机器学习实践
18 min read

机器学习实践：ALS的矩阵分解

交替最小二乘法（Alternating Least Squares, ALS）是一个比较古早的推荐系统算法了，发表在18年之前，本来已经完全可以不管了，因为用神经网络（Neural Network）做物品的embedding的效果已经很好了。

但是，NN开销确实比较大，一来训练速度限制样本不能太多，二来内存限制物品数量不能太多（虽然严格意义上，通过更猛的框架分布式，PS之类可以解决，但也更麻烦）。因此，又把ALS算法给捡起来了，它的效果上虽然只能达到NN的80%左右，但是优势是，

用户和物品数量几乎无上限（只要不超过整型最大21亿，微博月活用户能全量分解）
训练速度非常快（因为没有反向传播/SGD）
可以分布式（Spark MLlib的明星算法）

粗看下来，几乎是弥补了神经网络的劣势，因此有了这篇实践，看看有什么坑，摸摸上限在哪里。

November 23, 2022
in 机器学习实践
8 min read

机器学习实践：Hive使用虚拟环境

之前受限于hive机器上安装的python版本，只能使用py2.7默认环境，也没法安装包，导致很多复杂逻辑没法放到集群上跑。工作中需要用到scipy，redis等工具，也要使用py3.7以上的新功能。

尝试1

曾经将单独的包打包成zip后缀，打包后可以直接import进来，但是发现并不是所有的包都能跑通。一些依赖底层c库或者系统的，就会报错，比如numpy，scipy。成功的案例是redis和pymysql，见曾经的方案。

尝试2

venv打包后的python并没有包含需要的全部库，venv.zip/bin/python无法运行。

尝试3

今天参考了几篇文献后，发现可以借助conda，由conda封装后，依赖的各种库都可以原封不动的使用，打的zip包可以无缝在各个linux系统中使用

1、新方案

创建conda环境

November 7, 2018
in 机器学习实践
5 min read

微博大数据第三期：GPU占用程序试验

@作者: 机器学习算法 @迪吉老农，代码地址： forge_load

1. 背景需求

最近组内的GPU利用率一直被警告，说是利用率过低。其实GPU这件事和CPU还是有区别的。

第一个问题是内存限制。CPU的话，可以平行的跑很多程序，这样利用率就上去了。但GPU很大程度上受限于内存。如果内存只能装2个进程，再想运行更多的程序也没有办法。

第二个问题是，CPU一般可以通过复制进程来提高利用率，每个进程占用一个CPU核，就可以按任意的比例提高总体利用率。但是GPU的训练任务跑起来的时候，经常一个程序就100%占用了。如果用这种方式占用空闲GPU，别的正常的程序就只能等待了。

不过既然上面要求了，我们也得做。就考虑两个方面的要求，

占用尽可能小的内存。
控制单进程的GPU资源占用比例。

May 24, 2017
in 机器学习实践
10 min read

微博大数据第二期：作弊头像识别

一. 问题的定义

热门微博的评论中出现了一批假冒名人头像的用户，在头像右下角仿造了一个V字图形。如图，热门流中的假大V 热门微博的产品希望通过图片识别这些用户。

January 25, 2017
in 机器学习实践
20 min read

微博大数据第一期：标题党识别模型

最近被组里的老大要求，分享一些自己在微博工作中实践的一些机器学习算法。由于自己也是菜鸟，很多实验其实都是简单尝试，希望给大家提供一些启发就好了。

一. 问题的定义

“标题党”作为一个新近才出现的名词，并没有明确的定义。根据华东师范大学雷启立的观点，“标题党”是这样一些信息发布者和转发者的总称，《注意，这些都是“标题党”的套路！》。

他们在各种媒介的传播过程中，尤其是在网络媒体和娱乐报刊上，用夸张、歪曲等手段加工制作*耸人听闻的*、与*实际内容并不相符*甚至截然相反的标题，以吸引受众或阅听人的关注。

根据微博头条运营的要求，标题党是指，

标题中出现主观色彩浓厚的字眼，都视为标题党。关键词：“惊现”、“惊爆”、“竟然”、“竟”、“胆敢”、“史上”等。

由此，我们可以将标题党分为**两个维度**来考察。

耸人听闻（一期解决）
强烈情感（震惊，！）
带情绪和态度（千万别吃，深度好文）
促成传播（赶紧告诉，转疯了……）
污（睡了老板的儿子，竟然被老板逼到墙角…）
文不对题（二期解决）
标题不正经，内容很正经