3月29日,由北京市发展和改革委员会、北京市经济和信息化局、北京市科学技术委员会等共同主办的2024北京AI原生产业创新大会暨北京数据基础制度先行区成果发布会在京召开。会上,人工智能大模型语料库首批100个高质量数据集正式发布,拓尔思以优质的高质量数据成功入选,成为共建单位。
本次人工智能大模型高质量数据集由北京国际大数据交易所与北京人工智能产业联盟牵头并联合企事业单位共同发布,汇聚了36家机构及企业提供的100余个语料数据,数据总量逾150PB,涉及科技创新、金融服务、医疗健康等20多个应用场景,涵盖了专业知识问答、互联网舆情资讯、多语种音视频等多领域、多模态的数据语料,为大模型训练提供更加精准可靠的数据服务。
拓尔思作为业界领先的人工智能、大数据及数据安全产品及服务提供商,此次参与共建的数据以互联网主流新闻网站数据为主,包括网站及客户端数据和电子报数据,充分证明了其在数据积累与处理方面的专业能力。
自2010年建设大数据中心以来,拓尔思积累了高商业价值的可运营大数据资源,拥有了规模及质量均位列业界前茅的数据资产。目前数据中心总数据量超2000亿,具有信源覆盖全、采集梳理精、更新时效快、数据质量高的特点,有效提升了大模型语料库的规模和数据集的质量。
未来,拓尔思将协同产学研各界,为人工智能大模型训练提供高质量数据支撑,支持北京人工智能训练场示范基地建设。同时也将深入挖掘高质量数据的潜力与价值,探索以高质量数据优势推动北京数字经济发展的新路径。
转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/118723.html