01 研究范围定义
研究范围:
在中央及地方政府的信创政策推动下,我国信创部分领域正在从“试点验证”迈向“规模推广”阶段。随着信创替换的深化,爱分析观察到,在需求侧,企业对信创产品的需求逐渐融合更丰富的业务诉求以及未来数智规划,正从“同类替换”转向“迭代升级”;而在供给侧,信创产品已经跨过“要用”、“能用”,正进入实力比拼的“好用”阶段。企业对信创产品迭代升级的具体需求表现为:
1、软件基础设施
数据库是基础软件的替换重点,企业对数据库的替换需求具体为,在功能和性能上可同等替换IOE数据库外,还要满足企业上云、资源弹性伸缩、混合事务分析、多模数据管理和查询等需求,因此企业对数据库的替换也开始考虑云原生、存算分离、HTAP、超融合等功能特点。
与此同时,在数据架构方面,企业需要解决异构数据源架构下的数据开发及运维难度,湖仓一体架构正成为大数据平台架构替换新方向。
2、应用端
OA是企业最核心的办公软件,也位列全面替换软件的首位。以OA系统的文档管理为例,企业在进行国产替换时,新增知识体系构建、员工办公效率提升以及办公流程自动化等业务场景需求,因此融合AI大模型、知识图谱等技术的文档管理中台成为企业选型偏好。
在客户信息管理方面,企业传统的客户信息管理主要通过Oracle、SAP等系统进行管理,但在本次国产化替换中,在实现客户信息管理功能的基础上,企业会考虑业务的成长性以及未来数智化对业务系统互联互通的需求,因此具有平台化特点的CDP引发关注。
本次报告中,爱分析按照IT架构,自下而上将信创市场划分为:基础硬件、基础软件、技术支撑层、数据层、上层应用软件等五个层级。其中基础硬件包含芯片、服务器、PC、打印机、存储等;基础软件包含操作系统、数据库与中间件;技术支撑层包含低代码/无代码平台、数据科学与机器学习平台、隐私计算、信创云、云原生、安全等;数据层包含数据中台、大数据平台、数仓、湖仓一体等;上层应用分为通用应用软件与工业软件,涉及办公、管理及应用、研发设计、生产制造等多个细分场景。
本报告面向公司决策层及数字化部门负责人、信息技术部门负责人、业务负责人,通过对各特定市场的需求定义和代表厂商能力解读,为企业国产化适配规划与选型提供参考。
本评估报告聚焦基础软件中的数据库市场,爱分析重点选取了搜索型数据库厂商拓尔思进行能力评估。
02 搜索型数据库市场分析
市场定义:
搜索型数据库是基于分词、索引等技术对结构化、半结构化、非结构化等数据类型进行全文搜索或信息检索的数据库,其搜索结果可按算法排序。
甲方终端用户:
企业数据部门、IT部门
甲方核心需求:
搜索型数据库能对数据全文进行搜索,实现对非结构化数据的高效处理分析,是企业复用知识经验、提高经营效率的有效方式。由于国内搜索型数据库起步较晚,国内企业多采用开源软件Elasticsearch完成全文搜索。但使用Elasticsearch也为企业带来挑战和风险,如Elasticsearch开源无法保障数据安全,且对本地化中文支持能力弱、维护成本高等。信创背景下,国内搜索型数据库厂商正在崛起,使企业替换Elasticsearch成为可能。企业对国产搜索型数据库的需求具体如下:
适应企业一到多个内容检索场景。企业不同场景下对搜索型数据库的功能需求不同,如员工查询公司规定流程或是对专业知识进行检索的场景,需要搜索型数据库具备全文检索功能;电商平台对销售额、用户行为、热门商品进行分析场景下,需要搜索型数据库具备聚合分析来计算总销售额、各类商品销售额、用户平均销售额等,协助电商平台优化商品推荐策略;社交媒体中或跨国媒体生成场景下,需要搜索型数据库支持多语种的全文检索和内容推荐等。
满足企业海量数据场景下的实时、高并发访问需求,并提供高质量的搜索结果。与结构化数据不同,企业非结构化数据类型丰富且增长迅速,搜索型数据库需要适应企业持续丰富的数据类型和持续增长的数据体量。一方面,搜索型数据库需要满足用户对快速响应的需求,提高用户体验,如股票交易、外汇交易等场景下,需要搜索型数据库的高时效性支持实时交易决策以及监控市场波动;如用户在社交媒体中对新闻的实时检索、电商平台中消费者对商品价格、促销信息和库存的实时检索等,都需要搜索型数据库具备高时效性。另一方面,企业面向C端的内容搜索场景需要满足上千、上万甚至更多人同时在线使用,需要搜索型数据库具备高并发性。而在搜索结果上,搜索型数据库的搜索结果应适应业务场景需求,可靠可用。
满足企业信创需求。由于非结构化数据涉及到企业经营方方面面,信创背景下,政府、国央企和金融等行业需要将既有的开源搜索型数据库更新为国产自主研发的搜索型数据库,保障数据库安全可控。同时,国产应支持对既有数据库的平滑迁移,使企业可低成本低影响的完成替换过程。
厂商能力要求:
厂商应具备分词、数据索引、排序等技术,提高数据检索效率。用户业务场景不同,对分词算法要求不同,如中文环境下,分词算法应支持对中文文本切分,而在多语种搜索场景下,分词算法还应支持中日韩、英法德等多语种切分。针对数据索引,厂商应提供不同场景的索引类型,如针对文本全文搜索提供全文索引,支持用户进行关键词搜索、短语搜索等,针对地理位置查询提供地理空间索引。针对排序,厂商应具备单一字段排序、多字段组合排序、相关性排序、地理位置排序等多种排序算法,适应用户诸如价格排序、销售额和价格排序、文档搜索、地理搜索等不同场景。
厂商应同时兼具软、硬件专业性,可灵活满足客户性能、数据体量等需求。如针对OA系统与大数据搜索系统数据量级不同的情形,厂商应能提供虚拟机或云服务等不同的资源配置;而针对如政府数据库要求高并发、金融数据库要求实时响应等不同的性能需求,厂商应能从系统扩展性、索引优化、缓存机制、负载均衡等多方面进行优化,满足客户需求。
支持分布式数据架构。厂商应具备分布式存储技术,支持海量数据存储并随着企业业务增长而弹性扩展,通过多副本机制实现数据服务高可用,支持高并发,在大量用户请求下仍能保持毫秒级查询速度。同时,厂商也应支持自动故障恢复、多租户与冷热数据分层存储等功能。此外,在数据安全保护方面,厂商应提供权限管理、加密存储等机制保障数据访问和数据存储的机密性。
自主研发,满足企业安全可控需求。一方面,厂商搜索型数据库应基于自主研发,并能支持对多种国产芯片、操作系统和中间件的兼容适配。另一方面,厂商应提供多种数据安全机制,如访问控制、权限管理、日志审计以及数据加密等,保障搜索型数据库的安全访问。
入选标准说明:
1. 符合数据中台全部厂商能力要求;
2. 2023Q1至2023Q4该市场付费客户数量≥10个;
3. 2023Q1至2023Q4该市场合同收入≥500万元。
03 厂商评估:拓尔思
厂商介绍:
拓尔思信息技术股份有限公司(简称“拓尔思”)成立于1993年,是中文全文检索技术的始创者,领先的人工智能、大数据和数据安全产品及服务提供商。拓尔思TRS系列产品已被海内外10000家以上的政府和企业客户广泛使用,在数字政府、金融科技、媒体融合、舆情监测分析、开源情报和边界安全等领域具有领先的市场占有率。
产品服务介绍:
拓尔思在信息检索和NLP领域沉淀多年,其海贝搜索数据库在性能、体验、运维等方面具有明显优势,并能满足企业自主可控、国产适配以及数据安全等需求。此外,拓尔思可集成海贝搜索数据库和多种工具,为政务、融媒体、金融等领域提供数据服务解决方案。
海贝数据库具有高性能的特点,可为用户提供灵活、高效的数据查询和分析体验。
拓尔思对海贝数据库性能进行全面优化。在编程语言上,海贝数据库底层引擎使用C语言开发,相对ElasticSearch能对数据库的存储、索引、查询等操作进行更细粒度的控制,如避免Java语言的GC机制,提高内存使用效率。在系统架构上,海贝数据库支持分布式架构,并对分布式架构的网络传输、数据格式、元数据存储、并发访问等因素进行优化,有效提升系统性能。在数据库的存储和索引方面,海贝引入了内存索引、列存储、索引分片等技术,进一步提高了数据存储、检索和分析效率。基于以上优化,海贝数据库单机可支持TB级数据毫秒级查询,以及日访问量达10亿次的并行访问。
除高性能外,在业务分析场景上,海贝数据库能灵活适应企业复杂数据分析场景。如海贝数据库支持全字段索引、任意维度组合查询,也能适应诸如时空数据分析、跨模态搜索等复杂数据分析场景。
海贝数据库简单易运维,能有效降低企业运维成本。如针对文本处理,海贝自带的TRS分词器,能以单一分词器处理全部语种,包括不限于中日韩等方块文字、英法德等拉丁语、藏文蒙文等少数民族语言,保证系统在不同语言环境下的兼容性和一致性,避免针对不同语言集成不同分词器的情形。硬件适配上,海贝数据库可自动检测各类硬件环境,对内存使用、线程数量等参数进行最优配置。此外,海贝数据库提供的多个企业级功能,也能大幅简化运维工作,如分时归档视图可以实现冷热数据自动分区,支持多种存储混合使用;镜像数据库支持用户通过简单配置实现读写分离、大小库以及访问隔离等。
拓尔思以海贝数据库为底座,在安全、政务、融媒体、金融等领域提供成熟综合的数据服务解决方案,大幅缩短建设周期。拓尔思可集成海贝数据库与多种工具,为数据能力构建和业务应用场景提供完善工具链和平台。如针对底层数据基础设施,拓尔思可集成数据采集、数据整合、数据治理、智能标注等系列工具,帮企业构建完善的数据能力。在业务应用层面,拓尔思可集成TRS水晶球分析师平台、TRS网察大数据分析平台、TRS数家媒体大数据平台和TRS数星产业大脑平台,分别为公安、政务、融媒体以及金融等领域提供行业应用解决方案。
在搜索领域积淀多年,备受市场认可。拓尔思自1993年成立起即专注于中文全文检索技术,在信息检索和NLP领域积累深厚,可灵活适应客户业务场景,提供方案咨询设计、个性化定制等服务,同时拓尔思在全国设有30余家子公司,可为各地客户提供敏捷的本地化支持。目前,拓尔思已经服务了一批国家级信息化项目,为政府基础设施提供数据管理和检索引擎服务,如国家企业信用信息公示系统、信用中国检索系统、知识产权大数据与智慧服务系统、商标局商标检索系统等。
满足企业自主可控、安全合规的信创需求。一方面,拓尔思坚持自主可控,海贝搜索引擎数据库从底层分词算法到核心引擎以及上层系统均为拓尔思自研,且已完成与龙芯、海光、飞腾、鲲鹏等国产芯片以及中标麒麟、统信UOS等国产操作系统的兼容适配工作,并通过了信通院的搜索型数据库标准测评以及向量数据库标准测评。另一方面,在数据安全方面,拓尔思采用国产加密算法实现数据和索引的完全加密,并提供黑白名单、用户隔离、删除保护等安全机制对用户行为和权限进行管理。
典型客户:
公安部、市场监督管理总局、新华社、邮储银行、中国医学科学院
04 入选证书