[英伟达 NVIDIA] [上海/北京/深圳] [CUDA 相关岗位]

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

› NVIDIA CUDA

› PyCUDA

› Caffe

这是一个创建于 944 天前的主题，其中的信息可能已经有所发展或是发生改变。

[ 地点 ] ：Shanghai/Beijing/Shenzhen

[ 发送简历到 ] :[email protected]

[ WeChat 可加微信 ] ：18867144803

代码能力〉工作年限

Deep Learning Performance Architect-Compiler/LLM-TensorRT

主要做的是围绕深度学习端到端的 AI 软件全栈，包括但不限于训练框架、核心计算库、推理优化工具（比如 TensorRT ），AI 编译器，模型压缩等全栈软件栈。以及可以在 AI 软件全栈基础上影响到下一代甚至下两代硬件架构的特性设计。

Required skills: 良好 C++编程，熟悉 AI 软件栈底层或者计算机体系结构，熟悉上层算法与 Python 是加分项。

地点：北京与上海

Deep Learning Performance Architect-TensorRT

负责 NVIDIA 深度学习推理引擎 TensorRT 的设计、开发和维护工作(e.g. TensorRT 模型导入的流程和相关工具，图优化，算子的 CUDA 实现及代码生成，算子性能优化等)，以及对当前主流的深度学习模型使用 TensorRT 进行推理的性能进行分析和优化。同时，还将与 NVIDIA GPU 体系结构设计团队合作来推动 NVIDIA 深度学习解决方案的软硬件协同设计和研发。

岗位基本要求: 熟练掌握 C++编程

其它密切相关的技能 /经验: 深度学习框架 /深度学习编译器开发，性能分析 /建模 /优化相关的方法论 /工具，计算机体系结构相关知识，CUDA kernel 开发 /优化

地点：北京与上海

Deep Learning Performance Architect-Operator

主要做的是针对不同 GPU 架构为 TensorRT, cuDNN, cuBLAS, cuSPARSE 等深度学习算子库提供高性能基础算子以及算子融合实现，包含在线代码生成，代码融合等相关开发工作，以及根据当代 GPU 优化瓶颈影响后续硬件架构特征设计和验证工作。

Required skills: 良好 C++编程，熟悉计算机体系结构，有 TVM, MLIR 相关开发经验是加分项。

地点：上海与北京

Deep Learning Performance Architect

主要做的是围绕运算架构的全栈优化，包括但不限于深度学习模型分析与预测，架构的性能分析，编译器性能分析以及对主流运算架构，软件生态的分析。使 NVIDIA 软件生态与计算架构更好的支持主流应用。

Required skills: 良好 C++/Python ，熟悉 AI 软件或者计算机体系结构。

地点：北京与上海

Developer Technology Engineer-AI

客户的深度学习和高能性计算应用在 NVIDIA 生态上的移植和优化。这些应用包括大语言模型，CV ，Speech,推荐系统和分子动力学，计算力学，计算量子化学等。通过算法和工程优化，提供系统级的优化方案。深度与内部架构和产品团队合作，构建和完善 NVIDIA 软硬件加速生态。

Required skills: Required Skills: 良好 C/C++编程能力，分析能力和沟通能力，熟悉深度学习或 GPU 加速计算软件栈，扎实的深度学习理论基础或精通 GPU 架构和优化。

地点：北京，上海与深圳

目前尚无回复

深度学习优化全栈算子