搜索引擎的大数据时代将到来

发表时间：2013-03-01 10:55 | 分类：生活八卦 | 浏览：1,787 次

近日百度和药监局达成战略合作，百度将使用药监局的的药品数据为人们提供用药相关的查询。百度为这批数据付出的代价并未提及。天下没有免费的午餐，药监局虽然是要造福于民，但是这批数据显然不会白给。这意味着搜索引擎为数据买单的时代已经到来。笔者今天想谈谈关于搜索和数据关系的一些看法。

360与即刻此前已达成战略合作，共同运营食品安全和曝光栏栏目外，且360将与即刻共享药监局的数据。再前，360搜索引擎通过云云搜索接入了微博搜索结果，再之前，Google购买Twitter数据以提供Twitter搜索结果。

谷歌不作恶，干的事情是“整合全球信息，使人人皆可访问并从中受益”和“加速信息流动”。百度简单可依赖，干的事情是“让人们最便捷地获取信息，找到所求”。不同的表示，搜索引擎本质却是一致的：帮助人们找到想要的信息。伴随着社会化和移动互联网的浪潮，网络上的数据爆炸式的增长。如何应对这些爆炸的数据，既是搜索引擎面临的挑战，也是搜索引擎们的机遇。

具体分析如下：

一、比暗网更暗的大数据网

聚合所有网络上的信息，一直是有抱负的搜索引擎的梦想，但这是不可能完成的任务。

94年Dr.Jill Ellsworth便提出”暗网“的概念。指存储在网络数据库里、不能通过超链接访问，不属于那些可以被标准搜索引擎索引的表面网络。暗网的规模也远超我们的想象，据科学家研究，人类信息只有不到1%的实现了WEB化，而WEB化的网页中，搜索引擎能抓取的大概为1%500。

不能抓取的既有网站本身非主观的问题(不符合网页规范，对搜素引擎不友好等)，也有网站本身的主观屏蔽的问题，如淘宝、优酷等网站屏蔽百度的爬虫既是这类。搜索引擎在解决这两类问题上已经做过很多努力。包括爬虫爬取技术的优化、合法SEO的推动以及类似百度阿拉丁计划。

百度的阿拉丁计划通过提供接口的方式，第三方网站主动接入自己的结构化数据，用户在搜索时即可在结果前面看到这些信息。百度期望阿拉丁灯神可以“照亮”暗网。与此类似的计划还有Google的OneBox，360的oneBox(360这名字取的)。但在暗网的问题还未解决之际，一个更暗的网已经到来。

1、越来越多的私有化的WEB化数据。

电商网站、BBS、知乎问答、互动百科、豆瓣电影等内容便是属于此类。垂直网站在达到一定规模后，拥有与搜索引擎博弈的能力时，便可屏蔽搜索引擎的爬虫，将自己的数据“私有化“。垂直网站提供的搜索功能，可以用个性化的搜索功能和独有的挖掘能力，提供更好的搜索体验。甚至上升为垂直搜索引擎，如知乎搜索。另外一种垂直搜索引擎即是综合其他垂直的结构化数据，提供搜索服务，如去哪儿、一淘。

笔者相信随着WEB的发展，垂直搜索是未来搜索引擎细分的一个方向，且将对传统搜索引擎构成威胁。类似手机上浏览器和原生APP之间的关系：浏览器和APP流量对半分。我们把传统搜索引擎如百度看成这一个浏览器，那么垂直搜索引擎便是APP。垂直搜索引擎也如APP一样正在滋长壮大。且他们具有的核心优势都是：个性化VS统一的优势。

如果说WEB数据私有化使前面提到的“WEB化的信息，能抓取：不能抓取的约为1:500”这个比率发生变化。下面要谈的将影响“不到1%的信息WEB化”的1%。

2、巨量增长的没有WEB化的数据。

随着10多年的发展，PC互联网已积累大量的数据;而在移动互联网的浪潮下，APP、云应用、社交和物联网让数据爆炸式增长。对搜索引擎来说，这些数据几乎都是不可见的。

人工整理的数据：

药监局的数据就是例子。这类数据集中存在于政府部门、机构组织和一些企业手里。他们手里即掌握着民众关心的权威民生数据，又暂时没有将这些数据通过网站开放出来。与此类似的拥有数据的还有交通部门、环保部门、旅游局、卫生局、教育局等民众关注的各个领域。经过十多年的信息化建设，这些数据想必已经达到可观的量级。

另外，“我查查”的条形码数据也可归为此类。我查查团队创业初期，数百人团队在全国商场收集商品条形码数据。我查查有一定规模后，用户才主动为其添加条形码数据。

社交产生的数据：

这里的社交网络不仅仅指微博或人人网。QQ聊天也是一种社交。邮件也是一种社交。虎嗅网也是一种社交。甚至短信通信也是一种社交。我们不妨将这称为“暗社交”。这些社交过程又产生了大量的信息，尤其是分享行为。一定程度上部分社交网站的数据是WEB化的，但是它们是封闭的。这部分数据正在巨量增长，而搜索引擎对他们无能为力。Facebook可以通过Graph Search搜索自己的数据，微博有微博搜索，人人的，以及“暗社交”的数据，谁来搜索?

APP产生的数据：

搜狗王小川曾经抛出过“WEB已死”的说法。移动互联网已经不再是由WEB通过超链接互相连接的网络。APP之间通过接口互相链接，APP上的不同用户通过QQ好友关系、微信圈、微博关注关系、手机号码等方式互相链接。而传统搜索引擎正是基于超链接的。带来的问题实际问题就是，搜素引擎如何搜索啪啪等APP的数据?

个人云应用产生的数据：

个人云应用主要是解决多屏同步的问题。这让更多用户选择将数据保存在云端。在不同设备上账号认证后下载并使用这些数据。这类应用除了同步通讯录、收藏夹这类私密性强的数据外，还有印象笔记、网易云阅读等类型的大文本数据。个人云应用将越来越多。若干年后，笔者认为OFFICE提供云同步功能也不是没可能。这些数据，搜索引擎无能为力。

物联网产生的数据：

车联网、监控录像、电子抄表、水文监测等物联网应用每时每刻也在产生大量的数据。这个行业还没爆发。爆发的时候，应用也不会局限与此。互联网链接网页，移动互联网链接天下芸芸众生，而物联网，链接天下万物。现在中国的手机用户数突破11亿。芸芸众生基本已连起来。不过相比11亿，物联网用户数则是一个惊人的量级。这些“用户”也将产生大量的数据。这些数据将来是否要被人类搜索，以什么形式搜索，搜索的结果是什么?

二、大数据如何流动

百度的阿拉丁计划曾经一度拥有吸收结构化数据的魔力，众多结构化数据如天气预报、图书信息等都主动去接入百度框计算。以便从百度获取流量和用户。垂直网站们也一度通过SEO提升百度排名。而这个形势正在逆转。结构化数据不再主动流到百度。垂直网站们趋于将这些数据私有化，或者有限地开放给部分搜索引擎。

云云搜索由雄心勃勃的Google工程师出来创立，最初立意于做社交搜索。此时FACEBOOK的GraphSearch还不为大家所知。但是云云搜索现在走向了为新浪、即刻等公司提供搜索技术服务的方向。云云搜索之所以在自己的社交搜索上没有起色，归根结底就是从搜索切入社交是痴人说梦，因为没有用户，就没有社交，也就没有社交搜素依赖的数据。云云需要的社交数据在微博。所以，云云投奔微博而去。

百度搜索做了10多年，在如何吸引用户登录上做出很多努力，但仍然没有形成自己的账号体系。Google煞费苦心的GooglePlus也无法撼动Facebook在社交网络的地位。同类的例子还有BING。2012年10月沈向阳接受采访时说BING战略是社交搜索、实体搜索(移动搜索)和地图。而现在，BING中国主要方向已变为英文搜索。

1、远离搜索引擎的数据

搜索需要的大数据掌握在谁手里呢?垂直网站正将其数据私有化，社交网站天生私有化，云应用提供商替保存着用户的私有数据，APP的数据因为没有WEB化也是私有化的，当然还有一部分数据掌握在政府、组织、普通企业手里。

数据一度主动流向搜素引擎，而现在结构化的数据，尤其是有价值的结构化数据正在慢慢远离搜索引擎，流向一个私有的领地。这将产生数据的滚雪球效应：有数据的地方，数据会越来越多;没有数据的地方，必须为获得数据付出比蜘蛛爬取更多的代价。

2、搜索引擎将退化，或者改变位置?

传统综合搜索引擎接下来要解决的不是“加速信息流动”，因为很多信息都够不着。这也更加突出Google+以及gmail等可以收集数据的应用对Google未来的意义。或许未来的搜素引擎，百度这种传统的网页搜索引擎将退化为“垂直网页搜索引擎”。因为网页数据只是网络数据的一部分，一小部分。这里再次借用王小川的话“WEB已死”。

当然，还有一种可能是搜索引擎仍然可以够着这些数据，有偿获取。其在生态圈中的位置的变化。搜索吃了免费数据10多年，接下来，搜索引擎要更多地为数据买单。药监局只是一个开始。

三、大数据对搜索的价值

人类已经到了离开信息不能活的地步。数据大爆炸，按照达尔文生物进化论，人类的信息吸收、筛选和处理的能力应该也会进化。人们对信息的需求并不会退化，反而会更加饥渴。而搜索引擎需要解决的问题，不再是帮助人们从海量信息里面找到结果。而是，在海量结果里面找到唯一。快速找到准确的答案比找到更多的答案更重要。

1、结构化数据对搜索的价值。

结构化数据和网页数据相比，更能满足第一点：找准唯一答案。网页分析是靠文本匹配。结构化数据的分析即支持内容提供者的主动接入，也支持搜索引擎的个性化精准分析。这两种方式都会增加内容提供者或者搜索引擎的成本，但是付出带来的回报是用户快速得到准确的唯一的答案。

2、大数据挖掘是搜索引擎的机会。

不再仅仅是加速信息流动，如果只做第一点提的结构化数据接入和展示又太简单。搜素引擎要做什么呢?帮助人类做人脑不能做的事情：数据挖掘。即从海量数据中挖掘价值。人们都说大数据是一座金矿。但是如何从这座金矿中淘金，人们即没找到方法，也没找到工具。

搜索引擎经过十多年的发展，在文本分析、关系发掘、图谱构造、用户语义理解等方面已有丰富的积累。这些技术是大数据挖掘依赖的基本技术。咱们会叫它挖掘引擎。而将挖掘和传统搜索结合起来，通过挖掘响应用户主动的或者被动的搜索需求，或许咱们可以叫其“推荐引擎”。

豆瓣和一些电商网站早已进行这方面的探索。豆瓣因为最初便将“推荐”作为其核心功能之一，已有一些成型的成果。或许，我们撇开豆瓣的UGC模式，其搜索+推荐的模式值得关注：豆瓣专注文化产品，其早已悄然上线“发现喜欢的东西”，可以点评、分享和推荐任何“东西”，任何“物”。现在属于低调的实验性产品，但我认为这可能是豆瓣将来的爆发点，这个将来很远，因为豆瓣很“慢”。

如果说大数据是金矿，拥有大数据的垂直网站、社交网站、APP、云应用提供商、物联网拥有者、政府组织和企业既是金矿矿山的老板。他们可以自己从金矿里面掘金。也可以将金矿卖给搜索引擎或者大数据挖掘公司来挖掘。搜索引擎为金矿买单的同时，必须将自己从加速信息流动的管道，转变为会淘金的人。

(本文来自SuperSofter博客)

本文标签：Google, 搜索, 百度

本文链接：https://www.sijitao.net/1297.html

欢迎您在本博客中留下评论，如需转载原创文章请注明出处，谢谢！

下一篇：谷歌宣布7月1日关停Google Reader服务
上一篇：Ubuntu下路径设置的几个方法

标签
360 apache CentOS chrome Fail2ban find Firefox GAE Gmail Google htaccess Life linux MongoDB MSN Mysql nagios Nginx PHP Postfix PostgresQL Python QQ Redis SEO Shell SQL ssl tomcat ubuntu virtualbox VPS windows Wordpress XML Zabbix 主机代理发牢骚域名小百科搜索热门百度邮箱

一	二	三	四	五	六	日
« 十
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

搜索引擎的大数据时代将到来

日历

最新发表