方正智搜全文检索技术解读

技术摘要
方正智搜全文检索系统是方正阿帕比技术有限公司推出的一种基于计算机系统的全文检索系统,能够快速的从千万级以上的结构化数据中检索出用户需要的数据。该系统具有使用简单,部署方便,数据更新快,检索语法强大,安全性强,可扩展性强等特点,可以广泛应用于数字报纸、电子书籍、企业信息管理等领域,能够解决数据库系统检索慢等缺点,是数据库系统的良好补充。
1. 结构化的全文检索引擎
互联网上的搜索的数据一般都是网页形式的,搜索内容简单,很少对搜索字段进行定义。而企业行业级搜索引擎需要处理复杂的数据结构,并且企业数据更多存在于数据库系统中,因此要求搜索系统能够和数据系统一样,支持不同的数据字段和各种数据类型,并且能够自定义数据字段。
方正智搜全文检索系统支持字段定义,支持字段类型、分词属性、存储属性等特点,可以满足企业级数据的多分类的需要。
通过索引数据压缩技术,减少索引数据量,提高数据读取速度。
2. 段式索引结构
企业级数据要求更新及时,检索准确。而全文检索面对的数据都是百G千G以上的数据,数据更新影响到全文检索的实时性。方正智搜系统采用段式索引结构,每次更新数据时生成小的同构索引库,在小的索引库达到一定级别以后再合并到更大一级索引库。
段式索引结构既保证了更新的速度,又减少对物理存储的损伤,能够满足企业级数据更新的需要。
3. 快速的安全检索
企业行业数据对安全性要求很高,在企业行业内部信息并不是人人平等的,这就要求检索系统能够处理安全问题,能够根据用户身份进行检索,防止未授权的数据被用户检索到。
方正智搜全文检索系统基于预定义过滤器的方法对用户进行权限限制,过滤器预先生成,在检索的时候直接使用,对检索性能影响很小,并且安全性很高,可以随意定制,保证了检索的高效性和安全性
4. XML化的检索接口
检索系统的能力强弱很大程度通过其检索接口反映出来,方正智搜系统基于XML化的检索接口,除了支持常规的短语、布尔、通配符、模糊、范围、权重检索外,还支持排序、分组、统计、过滤器等功能,能够满足企业级检索需要。
智搜系统的检索结果也是以XML化方式输出,方便二次开发的使用。
XML化的检索接口使用简单,扩展性强,能够描述复杂的业务逻辑。XML易于理解和解析,能够跨越开发语言的限制。
5. 支持检索结果分布统计
企业级检索更多时候需要知道检索结果的分类分布信息,依据分布情况进行企业决策。方正智搜全文检索系统支持检索结果的分类统计和分布统计。方正智搜全文检索系统支持多种输出结果,除了输出检索结果外,还能够输出分类信息和统计信息。
6. 多CPU多核支持
近年来计算机硬件技术得到长足发展,多CPU多核的主机已经成为主流。方正智搜全文系统支持多CPU多核,支持并行运算,支持64位操作系统、支持优化的内存管理,以提高性能,节省用户成本。
7. 分布式索引与集群检索技术
企业行业级索引库管理的数据都比较庞大,特别是在业务发生改变的时候,需要进行海量数据的入库。方正智搜全文检索系统采用分布式索引和集群检索技术,保证海量数据的入库与检索要求。方正智搜全文检索系统自动管理分布式索引服务器,并能够将索引库同步到其他的服务器上,通过集群技术实现超并发检索功能,提高数据更新和检索性能。
8. 通过数据网关实现与数据库紧密连接
方正智搜全文检索系统通过数据网关能够和目前各种常规数据库进行无缝连接,可以直接从数据库抓取数据入库,动态监视数据的改变,做到索引库与数据库同步,简化数据转换的流程。

以下内容需要付费方可阅读
¥50.00付费后查看