大模型研发工程师
1.5-1.9万元/月
投递简历
湖北-武汉
5-10年
Golang · Java · Python
2025-12-13 09:03:19 更新
被浏览:484 次
浩鲸云计算科技股份有限公司
最近在线时间:2025-12-13 09:03:19
电话:132********
地址:南京市雨花台区安德门大街50号B座6楼
职位描述
岗位职责
1、搭建AI运维平台核心架构,支持大模型训练与推理任务的资源调度及性能监控能力
2、基于Genkit框架开发AI工作流引擎,融合RAG增强机制与多模态数据处理功能
3、设计并实现可观测性数据采集方案,通过OpenTelemetry对接完成LLM推理过程的多维度指标追踪
4、优化分布式任务间的通信流程,保障千卡规模集群环境下加速比不低于90%
5、开发智能故障预判模块,利用时序数据分析技术实现硬件异常提前预警
6、构建与向量数据库(如Pinecone)高效交互的中间层,满足知识库实时检索需求
岗位要求
1、具备3年以上Go或Python开发经验,掌握Beego/Gin等框架的底层扩展机制
2、精通微服务架构治理,拥有生产环境中Kubernetes集群的实际运维经验
3、熟悉Genkit/Firebase类AI框架的集成开发,了解Dotprompt模板设计标准
4、有AI系统可观测性建设实践,熟练运用Prometheus与AlertManager构建监控告警体系
5、理解主流大模型训练技术栈(如PyTorch分布式训练),具备通信同步性能调优能力
6、掌握向量数据库工作原理,具有RAG场景下的工程落地经验
优先条件
1、参与过LLM训练集群运维系统的开发工作,如实现故障自愈、资源弹性伸缩等功能
2、熟悉GPU监控关键指标,包括显存使用率、SM利用率等性能参数
3、具备AI工作流可视化编排工具的研发背景
4、了解LangChain等大模型应用框架的监控集成方式
求职提醒:求职过程请勿缴纳费用,谨防诈骗!若信息不实请举报。
该公司的其他职位
您可能感兴趣的职位
搜索更多相似职位 >
推荐企业
职位专题
微信求职找工作
手机扫一扫
随时随地找工作