360ITO技术社区
  • 首页
  • 文章
  • 快讯
  • 讨论
  • 问答
  • 小贴士
  • 代码块
  • 开源
  • 老论坛
登录 | 注册

360ITO技术社区  > 讨论

订阅讨论
ljrj123

灵玖软件:NLPIR全文精准检索文本数据

By ljrj123 at 4月前 , 761 次点击  

  互联网作为“第四媒体”已成为人们生活或工作中不可或缺的信息获取的手段。在针对大数据的搜索中,普通的检索技术能在一定程度上满足对大数据的搜索需求,但结果可能会包含大量无关、冗余的信息,信息粒度偏大。用户需要提炼自己的需求,并以适当的关键词表达出来,但这对没有检索经验的普通用户来说有一定难度。

  在检索系统中,结果合并要占用很多时间。如果切分的粒度过小,在结果合并的时候就要花费更多的时间。对于基于字切分的检索系统来说,在查询表达式比较长且二字词较少的情况下,检索效率要比基于词切分的检索系统低很多。

  信息检索涉及信息检索、信息过滤、文本分类、自动文摘等相关技术,它是在信息检索基础上的细化;新信息检测具有时序性,即对于内容相同或相近的句子,最新出现的应被检出(先前出现的相似内容属过时信息)。

  信息检测是一个复杂的问题,它涵盖了浅层语言分析、文档检索、句子检索、新信息检测等四个过程,且每个环节都存在着多种变化因素。各种各样的因素都会直接或者间接地影响着新信息检测的最终性能,甚至说某个技术环节的小技巧都很可能提高或者降低最终性能。

  语言模型是一种基于概率的检索模型,它认为每个文档对应一个统计语言模型(称为文档语言模型),描述了该文档中各个单词的统计分布特征,而每个文档看作是由其语言模型抽样产生的一个样本。语言模型对文本检索的准确率有至关重要的作用。

  NLPIR文本搜索与挖掘系统针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。

  NLPIR全文精准检索系统内核是经过精心设计,具有高扩展性和高通用性。可支持文本、数字、日期、字符串等各种数据类型的高效索引,支持丰富的查询语言和查询类型,支持少数民族语言的搜索。

  同时,全文精准检索可以无缝地与现有数据库系统融合,实现全文搜索与相关的数据库管理应用系统。

  其主要特色在于:

 1、可以按照任意指定字段的排序,支持指定字段的搜索,也可以搜索多个字段,以及复杂表达式的综合搜索;

 2、支持精确匹配以及模糊匹配,默认为精确匹配,忽略字母大小写进行模糊匹配;

 3、实现的是多线程搜索服务;

 4、每秒可索引3000条记录(主要瓶颈为数据库或文件记录的读取效率);搜索速度在毫秒级别。

 5、兼容当前所有厂商的数据库系统,其中SQL Server, Oracle, MySQL,DB2等。

  目前常用的互联网搜索引擎系统,考虑到应用的需求,没有对数据库的内容有效管理和储存。而许多网站的页面,很多是通过程序动态生成的,或者是存储在后台数据库中的,格式多样。NLPIR全文精准检索系统考虑到实际应用需要,除了具备搜索引擎系统具备的采集功能外,还实现信息数据分类精准,极大的提高了数据挖掘的效率。

软件服务 网络安全 移动互联网 数据库

0个回复

按时间排 按有用数排

网友回复/评论仅代表其个人看法,并不表明本社区同意其观点或证实其描述。

请尽量让自己的回复能够对别人有帮助

热门标签

  • 软件服务 12
  • 网络安全 8
  • 阿里巴巴 6
  • 互联网 4
  • 数据库 4
  • 计算机 3
  • Flash 2
  • 阿里 2
  • 解决方案 2
  • 非关系数据库 1
  • 文件操作 1
  • delphi 1
  • 安全 1
  • 计算机技术 1
  • meinheld 1
  • Flask 1
  • 无线网卡 1
  • Web Server 1
  • C/C++ 1
  • 亚马逊 1

周热点

月热点

  • 2周前NLPIR大数据智能平台新算法提高语义识别 (120)
  • 3周前NLPIR语义智能平台大数据技术的重新整合 (73)
  • 1周前灵玖软件:NLPIR大数据智能平台集合挖掘新技术 (50)

最近回复

qa_public 可以的
qa_public 可以的
qa_public 可以的
qa_public 可以的
jieyun 1367b97eb0aae4d1b7c7400d00595081帮顶哦!
qa_public 帮顶~
不曾回想过去 在工程的Build.gradle中加入配置 android { dexOptions
谷啸メ雷 应该是忘记标出拉伸和显示范围了。
smallghost 谢谢!
忆桃园 在build.gradle中加入下面的配置: sourceSets { main
忆桃园 gradle默认的assets目录是assets,如果是改的话需要手动在gradle脚本中
smallghost 暂时没有时间解决了,下面给另外一个处理方法: 1、现在把资源移到 asset目录下
smallghost 在Settings里配置Gradle,在Gradle VM options中输入: -
比钱还重 在模块没有被引用的情况下是不会生成release.aar这个文件的,你可以试着看看引用一下
淡蓝色 方法重载:Ctrl + O 方法实现:Ctrl + I
剑魔生 首先通过clone命令将项目克隆到本地,例如: $git clone git://ex
经不起传说
咕嘟猪 试试这个样 String strs = str.split("\\|");
谷啸メ雷 给你一段python代码,再大的json文件也能搞定: import json,sys
咕嘟猪 教你一招用VIM格式化的方法: :%!python -m json.tool
Copyright ©2011-2012 360ITO技术社区 All Rights Reserved. | 关于 | 联系我们 | 杭州精创信息技术有限公司 浙ICP备09019653号-26|
▲