DeepSeek梁文峰：一个理想主义者的深度求索

2024年12月25号，一个名不见经传的中国小公司，向美国的OpenAI、谷歌、Facebook、Anthropic等顶尖AI公司送上了一份圣诞大礼。

他们发布了一款名为DeepSeek-V3的AI模型平台，比肩的就是上面几家公司的AI大模型。

比如声名显赫的Chat GPT，以及Gemini，LlaMa，和Claud等。

来自美国的人工智能模型评测的行家们，将它与上述顶尖公司的大模型一起作了一个专业评测。

结果是：

在知识类任务上，与当前表现最好的Claude-3.5-Sonnet-1022相比，DeepSeek-V3 性能和它相当；

在代码能力上，也要稍好于它；

而在数学能力上，V3已明显领先其他开闭源模型，包括Qwen2.5 72B-Inst，LIaMa3.1 405B-Inst，GPT-4o 0513。

单单与Chat GPT相比较，其在实时信息、多模态支持、定制场景、领域适配、隐私保护以及最关键的计算效率等几个方面全面领先。

这是一个令中国同行惊讶、美国同行紧张的结果。

要知道，这是一个2023年才注册的小公司，就像一个毫无征兆从地里冒出来的竹笋一样，突然就冒了尖。

不仅性能如此优越，更令他们不安的是，这个团队的训练成本低到了他们想不到的地步。

据DeepSeek在自己的论文里披露：

“DeepSeek-V3的完整训练成本仅为2.788M GPU小时，假设H800 GPU的租金为每GPU小时2美元，我们的总训练成本仅为557万美元”。

与之相比较的是，根据海外调研机构SemiAnalysis的数据，OpenAI GPT-4训练成本高达6300万美元；

Meta旗下的开源模型Llama-3.1（模型参数量与训练数据大致相当），则动用了超过16000张英伟达H100GPU，业内估计训练成本高达数亿美元。

相比于微软、Meta、特斯拉等科技巨头，动辄购入10万张英伟达显卡搭建算力中心来训练AI模型的一掷千金的豪气，DeepSeek-V3训练只使用了2048张英伟达H800 GPU。

需要特别说明的是，美国大公司用的都是性能最先进的英伟达的H100，而我们的小公司用的是阉割版的H800，其性能大约是H100的一半。

为什么我们只能用阉割版呢？地球人都知道的，就是美国下达禁令，不许英伟达卖给我们性能最先进的显卡。

就像两个人在赛跑时，一方害怕被另一方追赶上，就将对方的跑鞋给禁了。

于是，中国有句古话又显了神威，那就是：光脚的不怕穿鞋的，穿草鞋的不怕穿皮鞋的。

哪怕我光着脚，哪怕我只能穿双草鞋，我也要跟你比。一时的落后，不代表永远落后。

这是勇气，也是心气，是一个民族能够永远屹立于世界之林所根植于内心的底气与信念。

DeepSeek用的是H800，是在H100被禁之后英伟达专门面对中国大陆所做的特供版。

这特供版的意思是，虽然H800的性能大约只能有H100的一半，但价钱嘛，还要比H100更贵。

也就是说，中国大陆要用比水晶鞋还要贵的价钱来买草鞋。

不能不买吗，为什么要当这个傻子？

还真不能，为了始终保持在第一梯队，不错过第四次工业化的浪潮，就得忍着痛先跟着。

这就是代价，是我们为了赶上这个时代所必须付出的代价。谁让我们自己没有呢。

纵观我们改革开放40多年以来的历史，不知当了多少次这样的傻子，才建成了今天世界上最完整的全工业化产业链。

我们也因此完成了从无到有，从有到精，然后再朝着从精到领先的目标一步步迈进。

也正是敢于付出这样的代价，才终于可以全方位地与世界上的顶尖高手站在同一个赛场，成为他们合格的对手。

这个圣诞礼物多少有点影响美国同行以及资本大佬们的心情。

横空出世的DeepSeek-V3，用性能被阉割且数量如此少的芯片，居然能够达到并部分超过目前最牛的大模型水平。

也就是说，它的算力很强很高效，但同时它对算力资源的依赖又很小。

这不科学啊。怎么能既要又要呢？

既要马儿快快跑，又要马儿少吃草。

过分的是，他们居然还做到了。

这匹AI模型界的中国黑马，突然就赶上了那些武装到牙齿的重装行者，轻装简从地站在了世界之巅。

像一名深藏不露的大内高手，轻功卓越；又像一名默默无闻的扫地僧人，内功深厚。

这个令国人惊喜的公司名为：杭州深度求索人工智能基础技术研究有限公司，英文就是deep seek。

瞬间感受到一股来自“路漫漫其修远兮，吾将上下而求索”的精神追求与力量。

创始人梁文峰，出生于上个世纪80年代，来自广东省一个所谓的五线城市，父亲是一位小学老师。

本科与硕士均毕业于浙江大学，对数学与计算机技术非常感兴趣，主修软件工程与人工智能方向。

行事十分低调，网络上甚至找不到一张他的照片，更没有他的婚姻家庭等个人信息。

而他所组建的初创团队，还有一个令人惊讶的事实，那就是：他们全部来自本土，没有任何留学经历。

这个团队真是处处出人意料，让人吃了一惊又一惊啊。

梁文峰认为，中国的大厂喜欢去美国挖AI人才，耗费大量的精力与成本不说，效果还不一定有本土团队好。

事实也证明了他说的这一点。

让DeepSeek声名大噪的MLA架构，就是由团队中一位非常年轻的本土员工提出的。

所以，他说，致力于创新型组织的建立，就可以形成自己的护城河。

梁文峰组建团队的条件，除了要求扎实的基础功底之外，最重要的条件是筛选出价值观相同的小伙伴。

他对价值观的要求就是：对技术怀揣无比热爱与好奇的狂热梦想，对金钱利益不那么执着追求的淡薄态度，为全人类做出有益贡献的真挚情怀。

从这个意义上讲，他的站位很高，在用中国的哲学思想来看待和解决问题。

比如，他们的模型始终保持开源，让全球的开发者和技术爱好者都可以免费使用并测试，被技术发烧友称为最强全球开源，被硅谷同行称为“来自东方的神秘力量”。

他们关于DeepSeek-V3模型的论文只有短短53页，被同行们认为全是黄金干货，没有一句废话。

梁文峰并不在意将自己的做法分享给大家。

他说，开源，发论文，其实并没有失去什么。对于技术人员来说，被follow是很有成就感的事。其实，开源更像一个文化行为，而非商业行为。公司这么做也会有文化吸引力。

他在高端芯片禁售算力资源严重受限的情况下，或主动或被动地放弃了美国公司拼命加机器加显卡的烧钱路径。

当美国财大气粗地在“智能”上做文章，拼命提高运算能力与速度时，

梁文峰团队就是在“人工”这两个字上去独辟蹊径补齐短板，用人的思维方式去搭建新的架构。

一个是基于物，一个更侧重人。这是不是也能表现出中西方文化的差异呢。

如果世界的主导权掌握在德与位配、厚德载物的人手里，世界大同的理想与未来，还是值得期待的。

他说了，他面临的问题从来不是钱，而是高端芯片被禁运。

但是，无论怎样禁运，已经形成了合力与趋势的潮流，拦是拦不住的。

拦住了这里，它就会冲向那里，总是会杀出一条路来。因为能量已经积蓄良久，终要突破。

美国对我国的科技发展各种围追堵截，客观上倒逼了我们的产业升级与自主技术更新，摆脱了对于美国技术的路径依赖。

这也是川建国、乔振华之所以被叫响的原因。

美国有deep state，中国有deep seek，哈哈，都有美好的前途。

这里摘录几个梁文峰的观点吧。

1、我们的出发点，就不是趁机赚一笔，而是走到技术的前沿，去推动整个生态发展。

2、我们觉得现在最重要的是参与到全球创新的浪潮里去。随着经济的发展，中国也要逐步成为贡献者，而不是一直搭便车。

3、在颠覆性的技术面前，闭源形成的护城河是短暂的。即使OpenAI闭源，也无法阻止被别人赶超。所以我们把价值沉淀在团队上，形成可以创新的组织和文化，就是我们的护城河。

4、我们不会闭源，我们认为建立生态更重要。就是业界直接使用我们的技术和产出，我们只负责基础模型和前沿的创新，然后其它公司在DeepSeek的基础上构建toB、toC的业务，形成完整的产业上下游。

5、中国AI不可能永远处在跟随的位置。我们经常说中国AI和美国相差一两年，其实是原创和模仿的差距。如果这个不改变，中国永远只能是追随者，所以有些探索也是逃不掉的。

很多国产芯片发展不起来，也是因为缺乏配套的技术社区，只有第二手消息，所以中国必然需要有人站到技术的前沿。

6、AGI（通用人工智能）作为AI的终极目标，有可能是2年、5年或者10年后实现，总之会在我们有生之年实现。虽然没有确定的路线图，但我们押注了三个方向。一是数学和代码，二是多模态，三是自然语言本身。

7、大模型终局的样态应该是，有专门公司提供基础模型和基础服务，在很长链条之上有专业的分工去满足整个社会多样化的需求。

8、中国产业结构的调整，会更依赖硬核技术的创新。当很多人发现过去赚快钱很可能来自时代运气后，就会更愿意俯身去做真正的创新。

9、务必要疯狂地怀抱雄心，且还要疯狂地真诚。

敢于亮剑，敢于进入技术前沿作纯粹的研究探索，并且致力于普惠全人类，不得不赞叹，这样的理想主义者是多么难得。

期待这样的年轻人越多越好。

就在12月，还有一则95后天才少女千万年薪入职小米的轰动新闻，她就是就是来自DeepSeek公司的大模型关键开发者之一，罗福莉。

我觉得，大厂本来就有更多的资源更大的盘子去培养开发符合自己要求的人才，小公司好不容易搞出成果，最好是不要轻易去挖人家墙角。

相信将有更多更多的梁文峰出现，也因此对我们的未来有这样的年轻人而满怀信心。

参考资料来源：DeepSeek创始人梁文峰在36氪的采访

原创文章，作者：Ai联盟，如若转载，请注明出处：https://www.hangzai.com/264.html

DeepSeek梁文峰：一个理想主义者的深度求索

相关推荐

发表回复