3月21日,从通用人工智能(AGI)创业公司月之暗面(MoonshotAI)获悉,该公司推出的Kimi智能助手已支持200万字超长无损上下文,预计今年将开启商业化模式。
Kimi智能助手又称KimiChat,是月之暗面基于自研千亿参数大模型打造的对话式AI助手产品。月之暗面表示,Kimi智能助手长上下文处理能力,帮助用户解锁了很多新的使用场景,包括专业学术论文的翻译和理解、辅助分析法律问题、一次性整理几十张发票、快速理解API开发文档等。
“过去要10000小时才能成为专家的领域,现在只需要10分钟,Kimi就能接近任何一个新领域的初级专家水平。用户可以跟Kimi探讨专业领域的问题,让Kimi帮助自己练习专业技能,或者启发新的想法。”月之暗面方面称,用户可以上传一份完整的近百万字中医诊疗手册,让Kimi针对用户问题给出诊疗建议。
据月之暗面联合创始人周昕宇透露,目前团队正在持续探索优化产品的方案,会结合长文本等能力做出更好的设计,今年公司在自研的多模态大模型上会有新动向。
Kimi爆火,网站一度宕机
OpenAI官方去年11月发布的GPT-4Turbo支持128k上下文,大约相当于10万汉字。而Kimi智能助手在去年10月首次亮相时,就可支持20万汉字的无损上下文长度,是大模型产品里这一单项能力的冠军。
仅仅5个月后,月之暗面公司就宣布把Kimi的这一能力提升到了全新的数量级200万汉字。
根据SimilarWeb数据显示,去年12月Kimi的周访问量还在10万次上下,到了今年1月下旬才突破40万,但是从春节开始访问量疾速攀升,到现在周访问量已经超过160万次,2月访问量增长107.6%,仅次于百度文心一言与阿里通义千问(访问量均下降超30%)。
另据AI产品榜统计,在2月份的AI产品榜-全球增速榜中,月之暗面的Kimi的上榜访问量的增速为107.6%,增速位列全球第一。
3月21日,因流量突然剧增,有不少用户在社交平台上表示,kimi智能助手的APP和小程序无法正常使用。当天,月之暗面发布情况说明。月之暗面称,作为一家以技术为导向的公司,我们非常理解一个API的稳定性是能否投入实际生产的最关键因素之一,已经有多项应急措施正在实施,包括不限于:从3月20日观测到流量异常增高后,已经进行了5次扩容工作。推理资源会持续配合流量进行扩容,以尽量承载持续增长的用户量;设计了一套更有效的SaaS流量优先级策略,以保障付费用户的调用稳定,预计3月25日之前完成并上线。
KimiChat:开启AI“长文本时代”
公开资料显示,月之暗面成立于2023年4月,法定代表人杨植麟毕业于清华大学交叉信息学院。截至目前,月之暗面公司已完成三笔融资,获红杉中国、真格基金等机构投资,最新一轮融资超10亿美元,投资方包括阿里、红杉中国、小红书、美团等,估值达25亿美元(约合人民币180亿元),是国内最主要的大模型独角兽之一。
去年10月9日,成立仅半年的MoonshotAI就推出了全球首个支持输入20万汉字的智能助手产品——KimiChat,宣布开启人工智能“长文本时代”。
此前接受媒体采访时,月之暗面创始人杨植麟表示,如果说参数量决定了大模型支持多复杂的“计算”,而能够接收多少文本输入(即长文本技术)决定了大模型有多大的“内存”,两者共同决定模型的应用效果。无损上下文将是通往AGI(通用人工智能)的关键基础技术。从Word2vec到RNN、LSTM,再到Transformer,历史上所有的模型架构演进,本质上都是在提升有效的、无损的上下文长度。
月之暗面将长文本技术称之为大模型“登月计划”的第一步。对于长文本技术的开发,市场上出现了不同的技术路线。但在杨植麟看来,这些路线几乎都是在牺牲一部分性能前提下的“捷径”。杨植麟将其总结为三类:
“金鱼”模型,容易“健忘”。通过滑动窗口等方式主动抛弃上文,只保留对最新输入的注意力机制。模型无法对全文进行完整理解,无法处理跨文档的比较和长文本的综合理解。例如,无法从一篇10万字的用户访谈录音转写中提取最有价值的10个观点。
“蜜蜂”模型,只关注局部,忽略整体。通过对上下文的降采样或者RAG(检索增强的生成),只保留对部分输入的注意力机制。模型同样无法对全文进行完整理解。例如,无法从50个简历中对候选人的画像进行归纳和总结。
“蝌蚪”模型,模型能力尚未发育完整。通过减少参数量(例如减少到百亿参数)来提升上下文长度,这种方法会降低模型本身的能力,虽然能支持更长上下文,但是大量任务无法胜任。
杨植麟认为,简单的捷径无法达到理想的产品化效果。因此,月之暗面的技术路线,就是不走捷径,踏实地解决算法与工程的双重挑战,在算力、存储、带宽等技术层面做了极致的优化。
“Kimi文字能力达到GPT-4水平”
申万宏源表示,根据其内部测评,Kimi的文字能力全面达到GPT-4水平。Kimi中英文生成能力已经接近GPT-4水平,尽管逻辑推理能力仍有差距,且主打文字生成、目前无多模态能力;Cluade3中英文生成、理解、推理,多模态图片理解能力均与GPT-4接近,效果好于Gemini,且实际使用中生成速度快于GPT-4和Gemini。
银河证券认为,2024年AI应用元年有两个条件:1.大模型达到可使用状态:这点从Kimi用户好评如潮中可以看出;2.大模型公众可触达:目前Kimi已经面向全社会开放使用。Kimi智能助手是AGI进程中的又一“里程碑”,宣布大模型正式进入“长文本时代”。
华西证券研报指出,如果把上下文长度理解成大模型的“精力”,那么现在Kimi能够一口气精读500个甚至更多数量的文件,帮助用户快速分析所有文件的内容,并且支持通过自然语言进行信息查询和筛选。在Kimi还是20万字输入长度的时候,它的能力界限还在50个文件左右。
国信证券表示,Kimi凭借其在处理长文本方面的卓越能力,能够处理高达200万字的输入,显示出其在无损阅读方面的巨大潜力。这一突破不仅提升了内容创作和整理的效率,还为小说、剧本创作等领域带来了深化和创新,同时在游戏互动、AI陪伴和专业领域任务执行等方面开辟了新的应用场景。
国泰君安表示,Kimi此次更新后支持的200万字的上下文意味着模型的文本理解容量有了本质变化,应用落地场景也有望扩大。
中国银河证券认为,Kimi智能助手迭代速度超预期,Kimi智能助手是AGI进程中的又一“里程碑”,宣布大模型正式进入“长文本时代”,继续坚定2024年是AI应用元年,应用端商业化进程持续加速。
阿里、360、百度紧急“出手”
随着月之暗面Kimi的热度高涨,大模型领域竞争又重新激烈起来,互联网大厂们进入了“卷”长文本的阶段。
3月22日,阿里的通义千问官宣升级,向所有人免费开放1000万字的长文档处理功能。用户可通过通义千问网站和APP快速读研报、分析财报、读科研论文、研判案情、读医疗报告、解读法律条文、分析考试成绩、总结深度文章。
3月23日,360智脑宣布正式内测500万字长文本处理功能,该功能即将入驻360AI浏览器。目前360AI浏览器已向用户免费开放100万字长文本阅读功能,可一分钟读完《三体》,并就文本外的“超纲”问题进行问答和延展学习。
另据媒体报道,百度在下个月将对文心一言进行升级,届时也将开放长文本能力,文本范围在200万-500万。目前,文心一言的文本最高上限在3.2万。
此前2月,由李开复带队创办的AI2.0公司零一万物发布Yi大模型API,同时启动邀测。零一万物为这次邀测提供了两种模型:Yi-34B-Chat(0205)和Yi-34B-Chat-200K。其中,前者支持聊天、问答、对话、写作、翻译等功能,后者则可以完成处理200K上下文、多文档阅读理解,以及超长知识库构建等任务。零一万物表示,本次重磅出台Yi-34B-Chat-200KAPI,将加速大模型应用进入“长文本时代”。
此外,OpenAI也在进行相关布局,经过三次升级,GPT-3.5上下文输入长度从4000增长至1.6万token(模型输入和输出的基本单位),GPT-4从8000增长至3.2万token。另外,Anthropic也将上下文长度扩至10万token。
大模型公司铆足劲攻克长文本技术,上下文本长度扩大100倍意味着什么?表面上看是可输入的文本长度越来越长,阅读能力越来越强。
若将抽象的token值量化,GPT-3.5的4000token最多只能输入3000个英文单词或者2000个汉字,连一篇公众号文章都难以读完;3.2万token的GPT-4达到了阅读一篇短篇小说的程度;10万token的Claude可输入约7.5万个单词,仅22秒就可以阅读完一本《了不起的盖茨比》;40万token的KimiChat支持输入20万汉字,阅读一本长篇巨著。
另一方面,长文本技术也在推动大模型更深层次的产业落地,金融、司法、科研等精艰深的领域里,长文档摘要总结、阅读理解、问答等能力是其基本,也是亟待智能化升级的练兵场。
参考上一轮大模型厂商“卷”参数,大模型参数不是越大就越好,各家都在通过尽可能地扩大参数找到大模型性能最优的“临界点”。同理,作为共同决定模型效果的另一项指标——文本长度,也不是越长,模型效果就越好。
斯坦福大学联合加州伯克利大学以及Samaya的研究员,在一篇题为“中途迷失:语言模型的长·上下文利用之道”中提出:在多文档问题回答和键值检索,这两种都需要从输入的上下文中识别相关信息的任务中,大语言模型会随着输入上下文的长度增加,性能会显著下降。
作者指出,当相关信息出现在输入上下文的开头或结尾时,性能通常最好,但当模型需要在长篇上下文的中间获取相关信息时,性能明显降低。
换句话说:当带有答案的文字,被放在文章的中间时候,大语言模型可能无法准确识别、理解该答案。因此,大模型目前越来越卷的上下文窗口长度,可能并不能增加模型的理解能力。
据目前的用户体验来看,Kimi也不是全能选手。有用户反馈表示,对于一些较为困难的任务,包括结构化信息处理和图像中潦草文字的识别以及对话连续性,Kimi仍显示出一些短板。在生成能力和语音能力上,目前Kimi还未加入这些模态。
尽管如此,长文本能力的重要性仍不言而喻。
一家AI上市公司大模型架构业务人士表示,由于模型训练结构的限制,以往大模型的文本范围都不算长,但复杂任务和行业知识通常是长篇巨制,这种情况下,只能拆分输入提问,但这可能会导致输出的结果上下不连贯逻辑不通顺。长文本可以全篇连贯地去理解上下文,满足理解和问答的需求,长文本能力在此时是具备优势的。