ML-Feature-Platform
前言
大概从去年十二月份,领导们想做这样一件事情,重构一下算法组fetch feature的方法,当时是用的codis,用pb encode了一个大的结构体,结构体里包含了很多feature。当小组成员越来越多,模型越来越多,数据越来越多的时候,结构体里面的feature也越来越多,导致不管是添加新的feature还是删除不用的feature都非常麻烦,甚至都不知道哪些feature在用,哪些不用。渐渐的就变成了一座山。
然后我半路加入了讨论,一开始也是非常懵逼,都不知道他们在说什么,直到等听过一遍代码之后才有了大概的了解,开始着手设计新的方案。
大概花了一周的时间去设计:
- 数据还是存在Redis里面,从Codis换成了Cache Cloud;
- 通过一个Config Server来
- 配置模型的feature,统一管理
- 配置Redis的地址,分国家,分feature类别
- 配置生成feature数据的job,包括数据源,写入地址等等
- 重构了生成日志的方式,这里的日志是“请求”和“返回的数据”,用来训练模型
- 重构了数据的存储方式,将大的pb结构拆成一个一个的hset,方便增删
设计上个人觉得没什么问题,领导也表示由我主导,但实际上我的话语权并不高,事情的发展也不在我的掌控之中,最终的效果就会有一些出入。更不用说不在我负责范围内的事情了,撇开不谈。
上周终于把全部国家的Redis资源申请到了,所以个人认为这件事情也有了一个阶段性成果(五个月?),所以记录一下这个项目和中间遇到的一些问题,希望能给以后的自己有所启发,或者反思。
思路
名词定义
Category - 表示一类的feature,比如Item Category,Shop Category,同一个Category中的QueryKey是相同的
QueryKey - 如何从Redis中读取feature,以及如何写入,其实就是Redis的Key。可以分为 ItemID,ShopID,UserID,QueryHash等等,以及他们之间的互相组合。
Config Server - 存储和管理Redis的地址,不同的Category不同的国家用哪个Redis,因为写入和读取都需要用到,但是写入和读取又不在同一个项目里,所以不能配置文件的方式保存。这个Server还会管理每个模型用到的feature set,跑map job的时候的配置,还有一些乱七八糟的东西。其实就是一个配置中心,字如其名。解耦用的。
Feature Set - 包含了要获取哪一些feature,这些feature分别在哪些category里。
问题 & 优化
1. 序列化
核心重构就是把存储的数据结构给换了,从pb structure转换成redis的kv,还是hset。因为client还是想拿到一个结构体,所以首先要面临的就是如何读取redis中的数据,并转换成相应的结构体的问题。
旧方案用 pb.Unmarshal
就可以了,但为了让数据读取更灵活(有些模型只需要pb结构里的某几个feature,但因为是整存整取的,所以只能全部取出,再挑出自己模型需要的数据,相应的就给redis带来了压力,不仅是带宽压力,更是Redis的IO压力,以及反序列化的CPU压力),我们就得转换从redis中读取到的KV。
说来也巧,一年前写过一个从环境变量转换成golang structure的一个lib,曾经给ES client用过,拿到这里来刚刚好,无非是数据源从env变成了redis kv,核心方法还是一样的,而且feature的格式是golang的基础类型,以及基础类型的array,完全支持。
kv -> struct 就算解决了。而且比json还要快。
2. Redis Key
因为我们的feature全是用redis key组织的,所以redis中就有非常多的key,此时key的大小就非常重要,能省一个字节,就省一个字节。
一开始是用 SET item:123456:name iPhone
, SET item:123456:price 1000000
这种方式组织的,但Redis在实现key的时候,会额外占用一些空间,所以key越少越好,越紧凑越好,然后就演化成了 HSET item:12345 name iPhone
, HSET item:12345 price 1000000
, 但还是很大,我连这个 item
, name
, price
都不想要。于是又演化了一版,将这些定义存放到了Config Server里面,给每个category编了号,对应的,给每个category中的feature也编了号,这里唯一的缺陷是编号只能累加(或者删除旧的编号,人工赋值新的也行,但最后还是用autoincrease
了事儿)。
通过编号的方式,给Redis省下了不少空间,因为数据非常紧凑,几乎没有任何冗余信息。
3. Latency
延时问题是永远也优化不完的。
基本思想是从Redis中取Key,但具体怎么实现,就八仙过海了。初版的性能非常差,因为假设每个请求中有200个item,每一个item要获取5个category中的10个feature,最终要获取的key的数量就是 200×5×10=1w。从redis中获取1w个key,保证在10ms一下,非常大的挑战,即使用了pipeline,分区分块,工程实现上也是不小的挑战。
过程很闹心,直到有一天晚饭前想到一个方法,嗯,说实话我现在不看代码已经忘记是怎么实现的了,只能记得核心思想是整理归并所有的key,把相同Category的key合在一起,整合成N个redis pipeline请求,并发,得到之后再分别赋值给对应的item。罗里罗嗦的,但竟然bug free就过了。看来还是晚上效率高,尤其是刚吃饱之后。最终达到的效果是,p99 20ms, p90 10ms, p50 3ms. (嗯,数字是我编的,测试效果比这好,线上效果比这个差。)
还有一个Latency问题是,借鉴别人的经验,这个feature server是一个gRPC的server,里面还集成了memory cache(后面证明这个memory cache性能很差),然后gRPC的返回结果里面,数据量实在太大了,如果再加上网络的延时以及不稳定因素,直接无法上线。然后我就各种测试,各种优化,gRPC就是不行。
最后,我把这个gRPC server去掉了,直接换成了一个library,由scoring server直接调用,省去了多余的gRPC call,从Redis中直接获取feature。果真最简单的最有效,微服务要慎重。
4. OOM
还是因为数据量太大,调用我library的scoring server经常OOM,只能不厌其烦的pprof,一点一点抠,一点一点优化。
经验如下:
fmt.Sprintf
性能很差,不如直接concast string- alloc太多相同的结构,一定要用sync pool,别嫌麻烦
- gc百分比也很重要,请求量太多了,一般都得调一调
- 如果有一个已知结果的switch case,最好用map去优化
strconv.ParseXXX
要比fmt.Sprint
要好- etc.
枯燥乏味,锱铢必较。
5. 记录请求和返回结果
这次重构,还有一个重要的功能就是记录请求以及结果,作为训练模型的输入数据。但是我们有太多请求了,每一条请求的数据量都很大。旧方案只保留了20%的请求,但Kafka仍然压力很大。
为了优化这一点,在feature写入和获取的时候,我们引入了version
的概念,其实就是写入这批feature的时间戳,同一个Category的写入时间是一致的,是由同一个spark job写的。所以在记录这个feature的时候,只需要记录这个version
,就能知道在这个query key下面所有feature的数值。
如果log中某一条记录的item是123,version是456,那么我们就可以从hadoop中拿到对应的原始数据,然后再补全log就好了。这样就减轻了Kafka的压力。(request log是通过Kafka传送的)
至于后面数据join,生成训练数据的过程,对我而言已然超纲。我也不想去干涉别人的工作以及实现方法,一个外行,没资格提意见。
6. Redis high latency
这个问题其实所有人都有,只不过我们的数据量太大了,所以反映到p99上就很明显,当然也有可能是别人不在乎p99。其实我也不想在乎,又不影响CTR或者Revenue,超时几个请求有什么关系呢,哪怕花1年的时间,将p99优化了10ms,能带来多大的收益呢。
其中有Cache Cloud团队的问题,也有内核的问题,也有infra的问题,总之比较复杂。对于我来说,无能为力的事情,顶多顶多吐槽一句,然后该干嘛干嘛。
反思
就这个项目而言,很新奇,是我之前没接触过的领域,全新,fresh new。当中解决的乱七八糟的问题,不能说有趣,当然可能在当时觉得有趣,只是现在都过了好久好久了,也没什么激情了。能全神贯注的写代码是一种享受,也是一种奢侈。
有些事情总要有人做,你不做,我不做,就永远不会实现。而且很多人都是只说不做,对,你说的没错,所以呢,怎么做?我也很讨厌喊口号的人。所以,自己把事儿做了,让老板知道,年终的时候给自己个A。别一天到晚老说说说。
项目的规划很重要,说几天做完,就要几天做完,一旦有人不遵守,那么就会陷入集体沼泽,互相牵制,到项目后期我连代码都忘了,有的部分还没完成。
一定要想清楚,想清楚要做什么,想清楚要怎么做,想清楚影响和后果是什么,想清楚可能会遇到哪些问题,如何解决,想清楚目标是什么。我很讨厌半路忽然有需求变更,就像四合院都盖了一半了,说:“诶,你看我们如果换成大别墅怎么样”。简直想杀人的心都有了。但还有些没想清楚的问题时有发生,又不能骂人,只能自己憋着。心态非常重要了。
跨组协作的时候,隔三岔五催一下是好的,会哭的孩子有奶喝。在你这里,项目是P1, 可是在别人眼里只是P2,或者P4, 而且在很忙的情况下,很有可能顾不上你的需求,所以,催,使劲催。为达目的不择手段地催。
再就是盘子问题,这个项目而言,其实职责划分不是很清晰,既没有名义上,也没有实质上的PIC,领域四分五裂,盘子也四分五裂,导致没人愿意干的杂活都丢给我,但任劳任怨也不是坏事儿,慢慢来就好了。只是我还是很在意职责划分,所谓边界。如果我是领导的话,我就把每个人的任务分清楚,而不是让下面人自己协调。哪有什么平级,人可是社会动物啊。
无能为力的任务,就交给时间。自己能做的都做了,不能做的也都做了,把基本情况阐述到ticket里面,然后转战下一战场。
最后,严于律己,宽以待人。