申请
推理优化工程师(t6)
姓名: D先生 顾问面试: 擅长领域: 领域 职位: 推理优化工程师(t6) 最高学历: 沟通情况: 新鲜出炉
面议 目前住址:   求职区域: 考虑公司类型: 不限 考虑公司行业: 不限 接受工作强度: 不限
个人情况: 0出生   男   未婚 候选人优势:
工作经验
百度 在职时间: 2021-9 至今 职位: 推理优化工程师(t6) 工作职责: 主要负责百度内外模型在昆仑芯片上的适配优化工作。 主要内容包括:框架适配,精度对齐,算子开发,模型图优化,跟踪支持业务上线。 场内客户大模型项目(主要负责人) 项目背景:该项目属于场内大模型业务,主要工作是用自研框架优化大模型。使用类fast transformer自研框架,完成大模型大算子的模型搭建,内存优化以及图优化。 工作内容:设计并实现fused mt kernel融合大算子,设计pd融合方案,有效增加了吞吐。在昆仑芯上首次实现动态插入,设计并实现了qkv_attention dvsl版本,以及相关缺失变长算子,优化topp,reshape等重要算子,在优化瓶颈后开辟新思路。针对cache fp16下需要频繁更新max值的问题,设计并实现了findmax cache方案。支持8k,32k,128k长文本功能实现和性能优化,gqa,ptq,int8wo,int4等不同精度的性能优化。支持paged attention/flash attention在昆仑芯上实现。prefill 工作内容:负责conformer,bert等bert变种在昆仑硬件上的优化。完成图优化,算子开发,量化,框架层级优化,内存排布设计并实现fused mt kernel融合大算子,设计pd融合方案,有效增加了吞吐。在昆仑芯上首次实现动态插入,设计并实现了qkv_attention dvsl版本,以及相关缺失变长算子,优化topp,reshape等重要算子,在优化瓶颈后开辟新思路。针对cache fp16下需要频繁更新max值的问题,设计并实现了findmax cache方案。支持8k,32k,128k长文本功能实现和性能优化,gqa,ptq,int8wo,int4等不同精度的性能优化。支持paged attention/flash attention在昆仑芯上实现。prefill负责conformer,bert等bert变种在昆仑硬件上的优化。完成图优化,算子开发,量化,框架层级优化,内存排布 本项目使用torch.jit做pytorch端口,通过场内开发的pytorch转ir框架,自研中间件,底层接内部tvm,使得cache,moe等重要feature。维护相关框架。 项目业绩:是大模型在昆仑芯首次落地,比华为晟腾芯片的适配提前一个季度,相关模型性能对比a800受益持平甚至超过,获得过两次公司年度攻坚克难奖。 场外客户支持搜索推荐模型(核心开发) 项目背景:外部客户搜索和推荐业务,客户提供onnx模型,在tvm上做性能优化。 优化。完成l3内存复用分配方案设计与研发。完成算子如:conv1d,conv_knrm,roi_align等算子的优化与实现。多线程多 stream优化。结合业务模型开发融合大算子、设计并实现模型变长组网方案,实现相关算子,sequence pad, insert, slice, 变长conv等,使得模型耗时大幅降低。开发tvmplugin大算子库,构建依赖tvm的图优化pass,量化pass,大算子compute的代码库,简化开发步骤。 项目业绩:搜索业务支持7个业务模型,均经历了小流量压测,吞吐达到a10的1.2x-2x(平均1.7x)。 pytorch模型对接昆仑硬件(主要负责人) 项目背景:pytorch模型能搞通过torch.jit在昆仑硬件跑通。 pytorch模型能够在自研芯片上跑通,完成中间件基本的搭建工作,开发近50+中间件转换子,完成tvm模型序列化。 项目业绩:在kl1代上,resnet50 上bs8的情况下能够达到近两倍的t4比。优化后的efficient能够打平t4。
杭州海康威视数字技术股份有限公司 在职时间: 2020-5 至 2021-9 职位: ai算法工程师(正式)校招sp 工作职责: 针对车位检测模块的角点定位精度进行了深入的预研工作,通过应用检测方法、关键点检测以及分割思路,对车位点进行有效检测。同时,对最新的车位检测算法进行了深入调研,并将其整合到实时跟踪系统中。 成功完成了车位入库模块的设计,自主研发了入库方案。利用分割图像和关键点检测技术,在入库阶段实现了实时矫正。同时,完成了感知后处理、车位跟踪以及车位稳定性工作,与实际项目进行了对接,并成功发布了泊车产品,转正优秀员工。 针对入库模块进行了版本迭代更新,以满足不断变化的市场需求和技术发展。
杭州海康威视数字技术股份有限公司 在职时间: 2018-12 至 2019-6 职位: 图像算法 工作职责: 车位检测复现检测论文,使用yolo角点检测,分类车位 基于文本检测的车位标号提取,方向判定 基于逻辑的导轨线处理模块,俯视图和鱼眼图检测结果的融合 基于caffe的模型训练和压缩,python和c语言的逻辑代码转换 工作产出 独立完成俯视图下车位检测模块,协助完成大部分俯视图和鱼眼图的结果融合模块,对接实际产品
教育/培训经历
华东师范大学 时间: 2017-0 至 2020-0
烟台大学 时间: 2013-0 至 2017-0 本科
申请安排面试
X