机器学习笔记¶

August 23, 2024
in 机器学习笔记
13 min read

机器学习笔记：LLM的中文分词

在word2vec时代，基本上就是先jieba.cut，把中文切成token。后面再接w2v或者fasttext。但是第一次接触transformer的工具时，发现并不需要预先进行jieba.cut，因此速度也加快了不少。借此机会想再研究下，到底是为什么能跳过。

1、理论部分

从早期NLP时代过来的人知道，英文一般是word based，词表会很大，动辄几十万都未必够，需要限制vocab的大小；但这么做就会损失长尾信息¹，就像用户画像中的id类标签或者app编码遇到的问题一样。中文理论上可以直接character based切分成单字，这样词表大小就是有限的汉字数了，但模型需要在内部学习词组的含义，对模型要求更高。

June 22, 2021
in 机器学习笔记
8 min read

机器学习笔记：GBDT的并行化训练

@作者: 机器学习算法 @迪吉老农

最近使用 GBDT 时，想通过分布式进行训练，尝试了一些框架，但原理不太了解。有些东西与同事讨论后，也还不甚明了，于是专心看了一下文档，在此记录一下。

1、分布式原理

常用分布式训练方式，应该是参数服务器。worker把sample的统计结果推送到单台参数服务器机器上，参数服务器汇总后，再推送到worker端。有点类似于单reducer的方式。

相比于参数服务器的中心化方案，这里提到的都是 去中心化 方案。

April 16, 2019
in 机器学习笔记
10 min read

机器学习笔记：重拾AUC的计算

AUC 这个指标在排序问题里经常用到，之前也有个模糊的印象，就是一个排序正确的比例。

这个模糊印象是，

分母是选两个例子的的方式数
分子是这两个例子的预测顺序正确的次数

但是今天看了一个python的实现，发现不是很能理解里面的公式，于是查了一下维基百科的定义，