当前位置:首页 >军事 >95后AI“天才少女”刷屏 !雷军千万年薪挖角  !|AI

95后AI“天才少女”刷屏 !雷军千万年薪挖角  !|AI

2025-08-23 20:24:19 [军事] 来源:花龙网

与DeepSeek一起进入大家视野的天才少女,是屏雷95后AI“天才少女”罗福莉。她曾在DeepSeek参与了DeepSeek-V2的军千角研发,是薪挖这款模型的关键开发者之一。在DeepSeek-V3发布前几天,天才少女媒体报道称小米创始人雷军已开出千万年薪,屏雷将罗福莉招至麾下,军千角罗福莉将就职于小米AI实验室,薪挖领导大模型团队。天才少女

“AI界拼多多”刷屏海外

据最新发布的屏雷技术报告,DeepSeek-V3参数量为671B,军千角激活参数为37B,薪挖使用的天才少女预训练token量为14.8万亿。其多项评测成绩超越了阿里的屏雷Qwen2.5-72B和MetadeLlama-3.1-405B等其他开源模型,并在性能上和世界顶尖的军千角闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

“中国AI公司Deepseek发布并开源了一个前沿的大语言模型,而其训练的预算却非常低。”前OpenAI联创、知名AI科学家AndrejKarpathy在其个人社交平台上表示,DeepSeek-V3整个训练过程仅用了不到280万GPU小时,相比之下,Meta旗下顶尖的开源模型Llama-3405B的训练时长是3080万GPU小时。如果DeepSeekV3的优良表现能够得到广泛验证,那么这将是资源有限情况下对研究和工程的一次出色展示。

若从成本上进行更直观的对比,假设H800的租金为每GPU小时2美元,DeepSeek-V3的总训练成本仅为600万美元不到,是Llama-3405B超6000万美元训练成本的十分之一不到。

极高的性价比让DeepSeek-V3一经发布便引发国内外广泛关注。Meta的AI研究科学家田渊栋称“在非常有限的预算下实现强劲表现”,“这是一项了不起的工作”。知名AI数据公司ScaleAI创始人兼CEOAlexandrWang也表示,DeepSeek-V3“训练所需计算量减少了10倍”,“在美国休息的时候,他们努力工作,以更低的成本、更快的速度和更强的实力迎头赶上。”

这一圈粉无数的大模型,由被称为“AI界拼多多”的DeepSeek研发。公开资料显示,DeepSeek专注于开发先进的大语言模型和相关技术,由国内知名量化资管巨头幻方量化于2023年创立,也被美国硅谷誉为“来自东方的神秘力量”。

事实上,DeepSeek并非第一次“出圈”。早在半年前,其发布的DeepSeek-V2就因性能达GPT-4级别,但开源、可免费商用、且API价格仅为GPT-4-Turbo的百分之一而引发业内关注。对于为何能做到如此高的性价比,DeepSeek官方解释称,DeepSeek-V2采用了创新的架构,例如注意力机制方面的MLA和前馈网络方面的DeepSeekMoE架构等,以实现具有更高经济性的训练效果和更高效的推理。

正因为在训练效率和成本方面的优势,DeepSeek也是国内最早开启大模型降价的厂商,也是大模型价格战的源头和推动者。在其发布DeepSeek-V2之后,字节、阿里、百度等厂商纷纷跟进降价。同时,DeepSeek也是中国互联网大厂以外,唯一一家储备了万张A100芯片的公司,这为其早期的技术研发提供了坚实的算力基础。

“我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼。”在回应当初为何打响大模型价格战第一枪时,DeepSeek创始人梁文锋表示。这位毕业于浙江大学电子工程系的80后,一直潜心研究技术。据媒体报道,梁文锋在工作中始终保持着低调的作风,和所有研究员一样,每天“看论文,写代码,参与小组讨论”。

一名人工智能行业资深业内人士向证券时报记者分析称,DeepSeek以200人左右的小团队,且不依靠外部融资,做出了一个有性价比并被全球主流AI界人士所认可的大模型。“一是他们在早期就买了很多算力卡,投入了很多资源做研究;二是他们是做量化的,不像大厂有其他各种各样的盈利需求,也跟他们不构成竞争关系,能更专注于模型开发。”该业内人士表示。

背后的AI“天才少女”引发关注

在DeepSeek-V3爆火之后,背后的AI“天才少女”罗福莉也进入了人们的视野。据媒体报道,小米创始人雷军以千万年薪招揽DeepSeek开源大模型DeepSeek-V2的关键开发者之一罗福莉,领导小米AI大模型团队。

公开资料显示,罗福莉本科就读于北京师范大学计算机专业,硕士毕业于北京大学计算语言学专业。2019年,还在北大读硕士的她在人工智能领域顶级国际会议ACL上发表8篇论文,登上了知乎热搜。罗福莉用本人知乎账号回应称,“这次投稿ACL是我近一年的产出,所以我认为自己是付出了足够的努力的,当然也可能也有运气成分加持。”

硕士毕业后,罗福莉先是进入阿里达摩院做人工智能研究,从事预训练语言模型相关的工作,负责阿里达摩院AliceMind开源项目,主导开发了多语言预训练模型VECO。2022年,罗福莉加入幻方量化从事深度学习相关策略建模和算法研究,后又跳槽到DeepSeek担任深度学习研究员,参与研发MoE大模型DeepSeek-V2。

今年5月,在DeepSeek-V2发布以后,罗福莉在知乎上撰文,发表了对于DeepSeek-V2的看法。她表示,“单论DeepSeek-V2模型的中文水平,是真实处在国内外闭源模型的第一梯队”,“外加1元/百万输入Tokens的价格,只有GPT4价格的1/100,性价比之王”。

事实上,罗福莉被重金招入小米,是小米全面发力AI大模型的其中一个动作。2023年4月,小米正式组建了AI实验室大模型团队,并表示将不断挖掘AI相关的用户场景,发挥自身技术优势,并以开放的态度与合作伙伴开拓更多机会。今年11月,小米成立了专门的AI平台部,小米的元老级技术大牛张铎为负责人。张铎本硕毕业于清华计算机系,曾被雷军公开称赞是“小米的大神”,送以“铎神”的称号。

兵马未动,粮草先行。除了招募人才以外,最近,媒体报道称小米正着手搭建自己的GPU万卡集群,并在过去几个月里持续提升算力储备,为大模型研发提供更充分的算力供给。雷军在公开演讲时曾表示,小米做大模型的思路和很多公司不太一样,选择主力突破的是轻量化和本地部署。对于小米这样无论在手机还是造车上都讲究“性价比”的公司而言,如何在烧钱的大模型业务中平衡成本,无疑是雷军考虑的核心问题。而这,或许也是拥有DeepSeek-V2研发背景的罗福莉被雷军看中的原因。

(责任编辑:军事)

    推荐文章
    • 珠海湾仔口岸去年出入境人员突破145万大关

      珠海湾仔口岸去年出入境人员突破145万大关2024年1月2日,珠海边检总站湾仔边检站发布了一则重要消息 。在刚刚过去的2024年度里 ,该站所辖的湾仔口岸、洪湾国际货柜码头、西域码头以及洪湾中心渔港执勤点均呈现出蓬勃的发展态势。据统计 ,全年累计查 ...[详细]
    • 深夜大跌 !全球资产跳水,多只中概股深调

      深夜大跌!全球资产跳水,多只中概股深调正文深夜大跌!全球资产跳水 ,多只中概股深调全线下跌晚间  ,美股开盘再度全线下跌。三大股指均跌超1%。个股方面,特斯拉延续跌势,跌超2% ,而波音更是下跌超4%,消息面上,因济州航空坠机事件,韩国交通部考虑 ...[详细]
    • 深夜大跌 !全球资产跳水,多只中概股深调

      深夜大跌

!全球资产跳水,多只中概股深调正文深夜大跌 !全球资产跳水,多只中概股深调全线下跌晚间 ,美股开盘再度全线下跌。三大股指均跌超1% 。个股方面,特斯拉延续跌势,跌超2%,而波音更是下跌超4%,消息面上,因济州航空坠机事件  ,韩国交通部考虑 ...[详细]
    • 能不能禁止东北人搞笑 ?

      能不能禁止东北人搞笑
?正文能不能禁止东北人搞笑?最近刷到了一个很火的话题 :禁止东北人当字幕组。我眉头一皱,好好的怎么搞上地域歧视了呢 ?仔细看了一下 ,觉得东北翻译不冤 。因为我再也不想看到“邓布利多靠着墙往下出溜”或者“这吴珍 ...[详细]
    • 劳动者权益保护指南 :及时主张新旧经营主体更替中的权利

      劳动者权益保护指南:及时主张新旧经营主体更替中的权利2024年4月,乙工厂由于经营亏损 ,停止为小郭缴纳社保 ,并拖欠其工资共计21,219元 。小郭多次催促无果后,乙工厂却以小郭不是其正式员工为由,建议他向甲工厂主张赔偿 。小郭找到甲工厂时,对方则表示双方已 ...[详细]
    • 利好不断 数据产业规模有望迎高增长!一览数据要素概念股表现|意见

      利好不断 数据产业规模有望迎高增长!一览数据要素概念股表现|意见12月30日下午 ,国家发展改革委等六部门发布《关于促进数据产业高质量发展的指导意见》 。其中提出,到2029年,数据产业规模年均复合增长率超过15%,数据产业结构明显优化,数据技术创新能力跻身世界先进行 ...[详细]
    • 银行外汇展业改革提质扩面

      银行外汇展业改革提质扩面《办法》首次以立法形式明确银行外汇业务“尽职免责”原则 。国家外汇管理局先后在广东、上海组织相关工作机制试运行,取得较好成效 。随着更多银行参与,银行外汇展业改革已进入提质扩面阶段 。此次出台的3项配套法规 ...[详细]
    • 锁定退市,近1.4万股东踩雷 !六部门发文  ,数据产业利好不断

      锁定退市,近1.4万股东踩雷	�!六部门发文
,数据产业利好不断正文锁定退市 ,近1.4万股东踩雷!六部门发文 ,数据产业利好不断六部门发文要求,到2029年,数据产业规模年均复合增长率超过15%。*ST美讯锁定退市12月30日 ,*ST美讯再度跌停。截至最新 ,该股已连 ...[详细]
    • 浙江广厦男篮迎战强力内线外援博班 加固球队防守体系

      浙江广厦男篮迎战强力内线外援博班 加固球队防守体系2025年1月2日 ,浙江广厦篮球俱乐部宣布正式与塞尔维亚籍内线球员博班·马扬诺维奇签约 。目前,这位NBA征战9个赛季的“高塔”已经抵达杭州  ,并即将完成相关手续后代表广厦男篮出战 。博班·马扬诺维奇于19 ...[详细]
    • 2024乒超联赛总决赛开赛 孙颖莎两度出场率队晋级

      2024乒超联赛总决赛开赛 孙颖莎两度出场率队晋级孙颖莎赛后接受采访时表示 ,今天的每一场比赛对抗都很激烈 ,非常开心能够进入决赛,“近期这段时间,我都在调整恢复中,今天上场比赛时 ,我感觉非常兴奋。其实我们跟上海龙腾队非常熟悉,平时也一起训练 ,大家一直是 ...[详细]
    热点阅读