收藏 分销(赏)

企业级搜索引擎产品-深度搜技术介绍.pdf

上传人:xrp****65 文档编号:5696369 上传时间:2024-11-15 格式:PDF 页数:29 大小:1.61MB
下载 相关 举报
企业级搜索引擎产品-深度搜技术介绍.pdf_第1页
第1页 / 共29页
企业级搜索引擎产品-深度搜技术介绍.pdf_第2页
第2页 / 共29页
企业级搜索引擎产品-深度搜技术介绍.pdf_第3页
第3页 / 共29页
企业级搜索引擎产品-深度搜技术介绍.pdf_第4页
第4页 / 共29页
企业级搜索引擎产品-深度搜技术介绍.pdf_第5页
第5页 / 共29页
点击查看更多>>
资源描述

1、1上海深度网络(2013-06)信息膨胀与搜索技术目前全文搜索可选择方案以及问题深度搜索技术的特点和优势深度搜索典型使用案例公司介绍2我有100年以来出版内容的电子数据我有50年以来所有报道的新闻电子稿我有20年来所有发帖内容,而且每天以数万条增长馆藏数百万的书都已经可以在线阅读了我有全世界所有工业设备的详细资料我有十年来的阅读材料,样卷,教材我的笔记本,可以存放一个小型图书馆数据34搜索搜索海量数据有用信息存储不是问题,但只有搜索,才能将从数据中找到有用的信息只要是提供信息服务,就注定需要有提供对信息检索的方法5传统的数据库:开源搜索引擎:商业搜索引擎:6传统数据库具有众多优点:产品数量众多

2、,可选择余地很大。成熟,可靠,稳定。具有大量相关的开发人员,易于开发。具有丰富的相关资料。但尽管可以达到功能上要求,关系数据库并不是为了全文搜索准备的。约多的数据量和少量并发就可以耗尽系统资源,这样做无异于南辕北撤南辕北撤。以 LUCENE 为代表的全文搜索引擎Apache 基金会项目为全文搜索目的设计的倒排的索引格式多种方式的接口开源7真正全文搜索的系统,现在生活很幸福?我有大的并发请求。我有海量的数据。我需要良好的可伸缩性。我需要可定制高质量的结果排序。我不断的有数据要更新。坏了一个硬件不能终止服务。和LUCENE的日子还幸福幸福吗?8上周就更新了,怎么还不能找到?这篇文章一点都不相关怎么

3、排最前面?昨天有的,今天怎么被删除了?我的数据并不在网站上,该如何搜索?什么也不用做,但什么也不知道。910信息存储信息存储信息匹配信息匹配实时更新实时更新搜索搜索自动主题词自动主题词分类分类相似关联相似关联应用程序接口应用程序接口用户界面接口用户界面接口各行业应用各行业应用教育教育企业应用企业应用政府部门政府部门 多语言处理多语言处理多文档格式处理多文档格式处理实时自动重复检测理实时自动重复检测理基于基因组学:从信息到知识基因组作图(genome mapping)测序(sequencing)基因识别(gene identification)模式生物(model organism)深度搜实现的

4、重要理论创新将香农理论(SHANNON THEORY)和向量空间(VECTOR SPACE MODEL)提升到了新的高度多维索引信息单元搜索片段搜索细粒度信息识别1112多种模式的数据存储方式精心设计的内存模型可插件话的积分排序算法可搜索单词,长句,段落,布尔逻辑多重分词,交叉索引,多维检索。快速更新高并发能力,高速度。可快速扩充的搜索集群高可用性,多点热备。支持多种语言搜索基于基因组学开发的深度系统真正地不受语言的约束。任何语言,无论英语、日语、中文或者阿拉伯语、数学符号、化学方程式、音符或者其他重复的、逻辑符号集,都无需语法或者词典的帮助下被搜寻到支持主流各种文档的存储与搜索MSOffic

5、e 所有类型 word,excel,PDF 各种版本,邮件,xml,甚至图片等主流文件格式。13最新的新闻需要排最前面,论文就不要这样。论坛回复和主贴的长度差好多,长度因子要调整。这是付费的广告,我要将其置顶。搜索的三个词中,我觉得第二个词特别重要。从人民日报返回的新闻重要性最高。需要排前面。你可以按你想要的方式进行排序你可以按你想要的方式进行排序14搜索压力特别大,高峰期每秒上百个。库很大(1亿文档),但搜索压力很小。库很大(1亿文档),而且搜索压力有时也很大(100请求/秒)。我的库不大,搜素压力也不大。深度搜的简单配置可满足不同深度搜的简单配置可满足不同要求并在最大程度的节省硬件资源。要

6、求并在最大程度的节省硬件资源。15对于搜索中华人民共和国,包含中华人民,人民共和国的内容也挺相似的。硫酸的结果里面要有硫酸铜但要排序到后面才好。计算机的结果里面匹配电脑也必须出现,但不要排前面。这么大一段话,要能根据主要意思搜索。这篇文章我想找找与其相似的文章。简体和繁体在意义上其实没啥差别。16深度搜包含了更多的中文优化。我们出版社每月才会出版一份刊物,每月新增我们报社每天都会出版一份报纸,每天新增论坛中新发的贴需要在几分钟内就能被搜索,几分钟内新增。微博?几秒钟吧17深度搜适用各种更新需求深度搜适用各种更新需求基于云平台的设计,可以弹性的增加和减少服务器。访问量大了,需要加机器平衡负载了。

7、数据量大了,需要加机器增加容量了。为了高可用性,关键节点需要做了备份。硬件坏了,再找个机器替换。增加和减少机器,服务不能停。支持大规模数据,不再需要昂贵的大型机器,而使用廉价的普通服务器。深度搜完备的集群管理功能深度搜完备的集群管理功能18自定义分词基于的通用接口输入的文章排除重复,即使个别字有改动。存储的信息均有备份,孤立硬件的问题不会终止系统服务和丢失信息。通过KEY,快速获取内容自动生成文章主题词能按时间,来源,作者 等排序 大量可选功能19GFT上海寰融信息技术有限公司设计规模 1 亿文档设计性能 无cache情况下200请求/秒部署规模 18台服务器集群实际每日新增数量3万文件/天文

8、档更新速度 3分典型搜索速度 0.3秒上线时间 2011年9月20http:/实际全部文档数量1亿6千万实际部署服务器 20台实际性能80请求/秒(无缓存)典型搜索速度 1秒平均每日新增文档10万篇学术论文全文100万篇Google PageRank=7上线时间2009年21世界上几乎全部的中英文权威性学术期刊,包括自然科学,医药卫生,工程技术,人文及社会科学等领域八千多万篇文献。美国专利,欧洲专利,世界专利,以及中国专利。中英文百科全书,医疗/健康,教育。22主动抓取该网站数据,并给该网站提供搜索服务实施客户:生物谷、海图网、科技网23特点:普通网站建设基础设施按容量和次数付费购买使用搜索服

9、务。类似通用数据库的使用,简单快捷的数据输入输入和检索接口。24深度是由美国硅谷留学生创立的信息技术公司,致力于为中国网民开发出一个崭新的知识信息搜索平台。与目前搜索引擎普遍使用的关键词/字符串匹配不同,我们的核心技术(深度搜深度搜)从信息学角度出发,采用全信息匹配的方式,在不同层次,用不同组合,从浩瀚的高质量数据源中为用户寻找更完整,准确的信息。25深度是由美国硅谷留学生创立的以新一代搜索引擎技术为主体的高科技有限公司。成立时间:2009年4月注册地:上海市浦东新区,张江高科业务联系人:王伟地址:郭守敬路498号13502室电话:1360138232826基于大数据量,高性能的搜索引擎集群基

10、于小数据量快速更新的搜索平台基于微博语义分析系统电子商务信息系统27胡前进胡前进博士 董事长兼总经理1982年毕业于上海复旦大学生物系,获学士学位;1985年赴美国纽约州立大学石溪分校及冷泉港实验室学习并获博士学位,后在美国加州大学旧金山分校(UCSF)从事博士后研究,曾在科学等权威杂志以第一作者发表论文数篇,并拥有三项美国发明专利。胡博士曾是美国Chiron公司基因发现部门的研究骨干。1997年创立了美国大洋生物技术公司(Pacron,Inc.)并出任总经理;1999年在美国Mergen Ltd.公司任CEO。2006年初在美国硅谷创立了基于生物信息学的新一代信息搜索技术公司,Infovel

11、l Inc.(现改名DeepDyve),先后任董事长,总经理等职位。2009年4月创立上海深度网络信息科技有限公司。曾伟曾伟 软件工程/产品副总经理毕业于中国科技大学软件工程专业,获硕士学位。2006至2009年4月先后任英坊信息技术(上海)有限公司高级软件工程师,中国区技术主管。具有扎实全面的计算机编程技术基础,同时具有很强的大型项目设计以及管理的综合能力。张鹏张鹏 市场营销主管毕业于安徽大学计算机科学与技术。2007年任职于中国人寿,在上海直属部期间,负责组员的销售业绩并进行管理(含电话销售),帮助组员提高业务技能。维持3次高级寿险规划师,期间任经理职务,带领团队在3次竞赛中均获得第一,所带团队成员业绩均排在部门前列。2009年创立上海魅讯信息技术有限公司并主管市场营销。创立真人网购交流社区品魅馆,期间和100多家知名B2C商城达成合作意向,探索出购物交流分享帮助用户有选择性、针对性网购的商业模式,并成功实现项目初期盈利。2829谢谢!

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
搜索标签

当前位置:首页 > 环境建筑 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服