Feed¶

June 3, 2025
in 机器学习实践
10 min read

微博大数据实践：亿级用户相似度计算

在系列前作中，我们已经探讨了如何利用ALS算法为海量用户及其兴趣标签构建向量表征（Embeddings）（详见《机器学习实践：ALS的矩阵分解》），并进一步研究了如何让这些向量模型具备动态适应线上数据更新的能力。

手握这些用户画像向量，一个新的工程挑战摆在了面前：如何在两亿级别的用户海洋中，为每一位用户精准且高效地“捞”出与其兴趣图谱最为契合的Top-K“知己”？这对于个性化推荐系统（例如“猜你认识”或关联内容推荐）而言，无疑是核心一环。

面对如此庞大的用户基数，传统的“两两握手”式比较方法，在计算资源和时间成本上显然力不从心。本文将聚焦于一种结合Faiss与Spark的分布式解决方案，旨在攻克这一大规模用户相似度计算的难题。

1、漫漫长路：那些年我们踩过的“坑”

在抵达“光明顶”之前，咱们也曾在崎岖小路上摸索过。

March 13, 2025
in 机器学习实践
10 min read

机器学习实践：ALS的矩阵分解-Part II

在之前「机器学习实践：ALS的矩阵分解」中，我们通过ALS矩阵分解，对用户兴趣标签进行向量化，得到了接近word2vec的效果。

但是遗留了一个重要的问题，矩阵分解模型是对user_id和item_id进行建模的，只有把对全量的id的数据都喂给模型，才能获得id向量。这个id向量是静态的，一次性的，但在推荐系统使用时，建模数据每天变化，user_id和item_id集合也是不断变化的，导致ALS直接使用并不方便，两方面的挑战：

如果只关心item的向量，可以对user集合进行了10%的抽样，但如果需要user集合的向量，就需要对全量数据分解，训练时间就会大大增加。
行为数据每天更新，每次训练ALS学出来的向量都会与旧数据完全不同，没有连续性。

这个挑战类似于GNN之于node2vec的改进，也就是 inductive（不使用node_id）和 transductive（使用node_id）的区别。

那么，这篇讨论的问题是，ALS算法能不能改造成inductive的？也就是能否满足下面两点性质，

January 8, 2025
in 前端技术
12 min read

前端技术：粒子动画特效

最近在Observable这个网站上看到一个动态特效，一些原本散乱的随机粒子，随着用户滚动页面，会逐渐组成一个清晰的头像。

我大受震撼，很好奇，于是开始着手复现。

1、粒子效果

1.1、创建

首先要做的，是给定一个图片¹，就能生成它对应的粒子图。

December 9, 2024
in 机器学习实践
18 min read

机器学习实践：ALS的矩阵分解

交替最小二乘法（Alternating Least Squares, ALS）是一个比较古早的推荐系统算法了，发表在18年之前，本来已经完全可以不管了，因为用神经网络（Neural Network）做物品的embedding的效果已经很好了。

但是，NN开销确实比较大，一来训练速度限制样本不能太多，二来内存限制物品数量不能太多（虽然严格意义上，通过更猛的框架分布式，PS之类可以解决，但也更麻烦）。因此，又把ALS算法给捡起来了，它的效果上虽然只能达到NN的80%左右，但是优势是，

用户和物品数量几乎无上限（只要不超过整型最大21亿，微博月活用户能全量分解）
训练速度非常快（因为没有反向传播/SGD）
可以分布式（Spark MLlib的明星算法）

粗看下来，几乎是弥补了神经网络的劣势，因此有了这篇实践，看看有什么坑，摸摸上限在哪里。

August 23, 2024
in 机器学习笔记
13 min read

机器学习笔记：LLM的中文分词

在word2vec时代，基本上就是先jieba.cut，把中文切成token。后面再接w2v或者fasttext。但是第一次接触transformer的工具时，发现并不需要预先进行jieba.cut，因此速度也加快了不少。借此机会想再研究下，到底是为什么能跳过。

1、理论部分

从早期NLP时代过来的人知道，英文一般是word based，词表会很大，动辄几十万都未必够，需要限制vocab的大小；但这么做就会损失长尾信息¹，就像用户画像中的id类标签或者app编码遇到的问题一样。中文理论上可以直接character based切分成单字，这样词表大小就是有限的汉字数了，但模型需要在内部学习词组的含义，对模型要求更高。