从来挑投资方的杨植麟,这次开始拿互联网公司的钱了。
月之暗面,拿到了中国大模型初创公司自ChatGPT出现至今的最大一笔单轮融资,10亿美元。
据36氪获悉,这轮新的融资动作在近日完成,投资方包括从天使轮就已进场的红杉中国,以及首次露面的小红书、美团和阿里巴巴。
从去年年初攥着5000万美金入局,到去年10月拿到老股东红衫中国领投的近3亿美元的新一轮融资,再到这笔10亿美元融资完成,月之暗面估值已接近25亿美金。
进入2024年,中国大模型创业的独角兽又多了一只。
月之暗面身上有三个鲜明的标签:长文本、ToC和小团队。
月之暗面第一次亮相,没有写诗,没有写代码,而是用一个支持20万汉字的超长文本输入的AI产品完整吃下了一本《三体》。这在当时已经是市面上可使用的大模型中文本输入长度最长的一个。与月之暗面亮相同期,文本长度方面最引人关注的Claude-100k换算成汉字也只有8万字左右。
拉长文本输入长度的价值显而易见,输入语料越长,需求就有被描述得越准确的潜力,大模型的幻觉会得到抑制,并且只有当大模型能够阅读的体量足够大,它才能从悬空的思想实验真正转入实际应用。
对上下文长度的Scaling Law的探索已经迅速成为一种趋势。GPT-4从一开始的4k、8k拓展到了GPT-4-turbo的128k,Anthropic将Claude2迭代到了200k的长度,国内的百川智能、零一万物也陆续开始逼近200k的文本长度。
图源:WEEL
被OpenAI抢了风头的Gemini 1.5 Pro近日一次性将文本输入长度拉到10m,考虑到Gemini的最初定位,拓展文本的输入长度上线是在为模型的多模态能力铺路。巧合的是,有媒体透露月之暗面当前已经在秘密研发通用多模态模型,预计今年内将推出。或许不是巧合,月之暗面创始人杨植麟本人在创业前的职业生涯中,曾短暂停留Google Brain。另一位同期也在Google Brain的研究员曾告诉硅星人,从2022甚至更早,Google Brain内部就已经明确了文本长度对大模型能力的价值。
将重心放在ToC上,是月之暗面身上另一个鲜明的标签。
杨植麟曾表示,ToC就是一个自然而言的选择,他看到的是一个成为AI时代Super App的机会。
月之暗面在第一次亮相时拿出来的,完整吃下了一本《三体》的产品是Kimi Chat,一个完全ToC的产品。一位月之暗面的研发团队成员曾向硅星人透露过一些技术研发上的细节。技术团队对于模型在训练上的方向选择,很大程度上基于Kimi Chat在端到端层面的表现。也就是说这首先是一家做产品的公司,大模型能力是实现路径。
也因此,这家不缺钱的初创公司目前并不需要为了ToB组建一个巨大的交付团队。去年年末,硅星人从月之暗面内部得到的信息是团队人数在70人左右,这其中有公司主动维持一个小团队的因素在。
不妨将目前国内身价相近的几家大模型初创公司的团队规模放在一起做个对比:
MiniMax目前估值超过12亿美元,在去年年初的团队规模达到了100人,现在到了200人;
目前累计融资金额达3.5亿美元,估值超过10亿美元的百川智能,团队人数在成立8个月后已经超过200人;
在2023年累计完成25亿人民币融资,目前估值逼近20亿美元的智谱AI,现在人数超过500人;
零一万物成立最晚,但借着李开复在AI领域巨大的号召力,估值已迅速到达10亿美元,团队规模方面则未有太多透露。
加上月之暗面,这五家是目前中国大模型领域所有的独角兽公司。
这笔10亿美元融资的另一个值得玩味的地方是,阿里巴巴、美团和小红书第一次站在背后。大模型创业热潮在前,背后是几家互联网巨头之间的激烈卡位,其中又以阿里巴巴和腾讯最为活跃。
这五家初创公司中,阿里巴巴目前已经投资了MiniMax之外的其余四家;腾讯投资了包括智谱AI、百川智能以及MiniMax在内的三家;美团则参与了智谱AI和月之暗面两笔融资。
毫无疑问,由三位在Google Scholar上引用次数过万的联创所建立,又吸纳了大量参与过Google Gemini、Google Bard等重要大模型研发人才的月之暗面有着极高的人才密度,这让它成为目前最有投资价值的大模型初创公司之一。在杨植麟刚开始大模型创业时,大量VC曾试图能够在项目早期联系上他,但他对投资方的选择十分谨慎。现在杨植麟和身边这群专心做ToC产品的极客第一次和互联网公司强势的对外投资产生交集,后者作为产业投资往往不只是追求纯粹的财务回报,而另有自己在企业战略上的出发点。这笔融资这对于月之暗面来说,是放开手脚的机会,也是考验。
本文来自微信公众号“硅星人Pro”(ID:Si-Planet),作者:油醋