机器学习实践：Hive使用虚拟环境¶

之前受限于hive机器上安装的python版本，只能使用py2.7默认环境，也没法安装包，导致很多复杂逻辑没法放到集群上跑。工作中需要用到scipy，redis等工具，也要使用py3.7以上的新功能。

尝试1¶

曾经将单独的包打包成zip后缀，打包后可以直接import进来，但是发现并不是所有的包都能跑通。一些依赖底层c库或者系统的，就会报错，比如numpy，scipy。成功的案例是redis和pymysql，见曾经的方案。

尝试2¶

venv打包后的python并没有包含需要的全部库，venv.zip/bin/python无法运行。

尝试3¶

今天参考了几篇文献后，发现可以借助conda，由conda封装后，依赖的各种库都可以原封不动的使用，打的zip包可以无缝在各个linux系统中使用

1、新方案¶

创建conda环境¶

# 依赖
$ sudo yum install -y bzip2 
# 安装
$ pyenv install miniconda3-4.6.14
$ pyenv shell miniconda3-4.6.14
$ conda create -n 3.7.2 python=3.7.2
$ conda init bash
# 退出后重新登录
$ conda activate 3.7.2
$ conda config --add channels https://mirrors.ustc.edu.cn/anaconda/pkgs/main/
$ conda config --set show_channel_urls yes
$ conda clean -i
$ conda install pip

pip安装需要的任何包¶

$ pip install scipy -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

打包python环境¶

进入虚拟环境所在目录

$ conda env list
# conda environments:
#
base                  *  /usr/home/yandi/.pyenv/versions/miniconda3-4.6.14
3.7.2                    /usr/home/yandi/.pyenv/versions/miniconda3-4.6.14/envs/3.7.2

$ conda deactivate
$ cd /usr/home/yandi/.pyenv/versions/miniconda3-4.6.14/envs/3.7.2

打包

$ zip -r Python-3.7.2.zip *

打包后，zip文件里面的结构应该类似

├── bin
├── compiler_compat
├── conda-meta
├── include
├── lib
├── share
├── ssl
└── x86_64-conda_cos6-linux-gnu

测试zip包是否可用

$ mv Python-3.7.2.zip /data0/users/yandi/modules/
$ cd /data0/users/yandi/modules/
# 解压为指定的名称
$ unzip Python-3.7.2.zip -d Python-3.7.2
$ ./Python-3.7.2/bin/python --version
Python 3.7.2
$ ./Python-3.7.2/bin/python -c "import scipy; print(scipy.__version__)"
1.7.3

把pyhton环境的压缩包上传到HDFS上

$ hadoop fs -put Python-3.7.2.zip ${hfds_path}/udf/

在hive中调用¶

a.py

import sys
import scipy

for line in sys.stdin:
  print(line.strip() + "\t" + scipy.__version__)

在hive中，add archive类似于add file，帮助我们解压成一个XXX.zip/的目录，不像pyspark那里可以加一个#Python来重命名解压后的目录

hive -e "
  add archive ${hdfs_path}/udf/Python-3.7.2.zip;
  add file a.py;
  select 
    transform(*) 
    using 'Python-3.7.2.zip/bin/python a.py'
  from short_interest_rd_info
"

输出

李XX 1088393930  机器学习算法  1.7.3
赵XX 1071650555  机器学习算法  1.7.3
吴XX 1074691870  机器学习算法  1.7.3

2、拓展问题：打包项目的方法¶

拓展上面的方法，在预测阶段也可以不限于只使用一个a.py脚本，我们可以把整个python项目加载到hive上运行。举例来说，一个项目类似下面的结构，不同代码之间有存在相互引用，

.
├── app2vec
│   ├── feature.py
│   ├── inference.py
│   ├── loss.py
│   ├── model.py
│   └── train.py
└── utils
    ├── dataset.py
    ├── model.py
    └── tokenizer.py

如果直接使用add file XX.py，类似下面这样，

add archive ${hdfs}/udf/Python-torch-1.13.1.zip;
add file app2vec/inference.py;
add file app2vec/dataset.py;
add file app2vec/model.py;
add file app2vec/tokenizer.py;
add archive codebooks.zip;
add archive checkpoints.zip;

会存在两个问题，

加载很麻烦，对于hive来说，python代码失去了封装，需要写很多无用代码
多层目录结构就行不通了，这个写法会把所有的文件都加载到同一个目录下；相当于失去了现有的目录结构，变成平层结构

feature.py inference.py ...

解决方案¶

首先，对整个python项目代码打包，

zip -r app2vec.zip app2vec

然后，在hive中add archive

add archive ${hdfs}/udf/Python-torch-1.13.1.zip;
add archive app2vec.zip;
add archive codebooks.zip;
add archive checkpoints.zip;

transform的语句为

select 
  transform(uid, feature) 
  using 'Python-torch-1.13.1.zip/bin/python app2vec.zip/app2vec/app2vec/inference.py\
    --batch_size=32 \
    --model_path=checkpoints.zip/checkpoints/ \
    --token_path=codebooks.zip/codebooks/'
  as (
    uid, cat, tag, obj
  )
from yandi_tmp_1

最后，python入口文件需要修改启动位置（相当于从很高的父节点处用绝对路径启动，而不是本地目录，因此需要修改path）

import sys
sys.path.insert(0, os.path.dirname(os.path.dirname(os.path.abspath(__file__)))) 
sys.path.insert(0, os.path.dirname(os.path.abspath(__file__)))
sys.path.insert(0, '')

线上实践就可以跑通了，感觉稳定性和本地启动差不多，整套python代码不用做任何适配修改，就可以运行了，还是比较满意的

3、曾经的方案¶

$ cd .venv/lib/python3.6/site-packages/pymysql
$ zip -r pymysql.zip *

$ hadoop fs -get ${hdfs_path}/udf/pymysql.zip

try:
  import pymysql
except ImportError:
  import zipimport 
  importer = zipimport.zipimporter('pymysql.zip')
  pymysql=importer.load_module("pymysql")