上海算法创新研究院：推理大模型算法实习生招聘(强化方向)

【简介】我们是上海算法创新研究院的大模型团队，成员来自于普林斯顿大学、卡内基梅隆大学、北京大学、上海交通大学、浙江大学、中科院等国内外知名高校和阿里、华为、美团等知名企业，具有丰富的研究和实践经验。我们致力于探索创建行业领先的大模型，为行业共性需求提供解决方案。

推理大模型算法实习工程师（强化方向）

工作地点：上海

职位描述：

1. 参与大语言模型强化学习算法的研发，提升模型在强化学习阶段的训练效率，并增强其在数学、代码等自然科学领域的推理能力；

2. 参与复现Deepseek R1等推理大模型的工作；

3. 参与思维链生成技术的理论验证与开发；

4. 撰写技术文档和论文，记录研究成果并促进知识共享。

职位要求：

1.硕士及以上学历，计算机相关专业，熟练掌握计算机学科的专业知识；

2.熟悉强化学习算法且有相关实验经验，熟练掌握prompt工程，对思维链生成有相关研究经验者优先；

3.有ACL、NeurIPS、CVPR、ICML、ICLR、EMNLP、AAAI等顶会/刊论文发表经验者优先；

4.熟悉REINFORCE、GRPO等算法优先；

本次实习你可以获得什么：

1.提供丰富的算力，欢迎你来实验任何你觉得有价值的想法，给一个证明自己的机会。

2.提供有挑战的工作机会，参与前沿方向的研究，有机会发表对行业有价值的高水平论文，在过去2年，团队保持每年10篇以上的CCF A论文产出。

请将简历发送至邮箱

tangb@iaar.ac.cn，或者微信tangbo4909

Document