科技时代新浪首页 > 科技时代 > 互联网 > 正文

搜数网:从海量数据中搜索未来


http://www.sina.com.cn 2006年11月20日 01:04 第一财经日报

    作者:汪小意

 在数据行业,有些名词听起来很有意思:通过统计或计算得出一个数字,叫“造数”;使用数据叫“用数”。

 在大多数人脑海中,“数”是枯燥的,而在专业的数据使用者眼中,数字是一切事物
背后“无形的手”,“用数”,就像吃饭那么寻常。

 政府、教育和企业用户对数据有着强大的需求。而这几个领域,正是北京精讯云顿数据软件有限公司十年来主攻的市场。最近,精讯云顿的员工陆续在更换名片,新名片印上“搜数网(SOSHOO.COM)”——这是这家公司今年推出的新业务,通过互联网为客户提供垂直数据搜索服务。

 这家公司说,全公司现在要主推互联网品牌。人还是那帮人,不过,全公司要做华丽转身。

 数据使用进化史

 精讯云顿公司不“造数”。所谓不造数,就是说,他们不通过调查、统计的方式得到数据,而只是搜集已有数据并予以整理。

 整理之后的数据,根据客户不同的需求被提取出来,卖给客户。

 严小寒是精讯云顿总经理和创业元老。严小寒说,一开始,他们为客户提供数据服务的方式是传真。“晚上传数据,早晨客户办公室满地都是传真纸。经常把传真纸全部用完。”后来采用电脑点对点传输数据,但是安装维护很麻烦。“现在互联网普及了,这个问题才彻底解决。”

 即便是一整卷传真纸,也只能承载庞大数据库中的九牛一毛。通过十年的积累,精讯云顿录入了2000多本年鉴,积累了从1949年到2006年的一亿多条数据。每天,这个数据库还在以超过3万条的速度在增加。

 通过GOOGLE等搜索引擎,也能在互联网上搜到浩如烟海的数据资料。不过,这些资料是未经整理的。搜数网则能通过技术手段,自动生成和搜索关键字匹配的EXCEL表格,提供给客户。

 在搜数网上,普通用户只能搜到5年前的数据。付费用户才能得到近五年的数据。这正是搜数网和大众搜索引擎的一个重要区别:大众搜索引擎主要靠广告赢利,而垂直搜索引擎则主要靠用户付费取得收入。

 “数据矿工”

 在这家披上互联网华丽外衣的公司,有一个30多人的部门最为“奇特”。

 “他们平均年龄20多岁。一部分是有经验的、从新闻系统退下的编辑、校对,一部分是从专科学校招聘来的应届生。他们一致的特点是,内向、细致,和其他部门的同事接触并不很多。”精讯云顿市场部郭经理说。

 这个部门,就是精讯云顿负责“生产数据”的部门。虽然不造数,但数据就像矿石一样分布在各个地方,这就需要一批人不断对数据进行挖掘。

 在一个名叫SDPP的数据处理平台上,30多人的产量被统计下来。现在每天大概产量在几万。严小寒称,假如SDPP系统成熟了,日数据生产量能以百万计。

 数据生产是件枯燥的工作。SDPP的界面分成上下两部分,上面是各种年鉴的原文,下面是EXCEL表格。数据用半手工的方式输入到数据库中。每一项数据的“生产”都有两个人分头进行,然后核对。

 马骥是黑龙江大学经济与工商管理学院教授。2006年8月,马教授因课题需要,需要录入一本年鉴中大约30万个数据。起初,马教授从课题经费中抽出5万元,请了30名学生手工录入,但发现所需时间太长,无法满足课题研究要求。他联系了“中经网”和“国研网”(精讯云顿目前最大的竞争对手),发现要么数据不全,要么年鉴未被收录。最后找到搜数网,搜数网接到用户需求后,用了1个月时间将数据整理完毕。此后,马教授又交给搜数网另外10本年鉴的整理工作。

 马教授的经历是众多搜数网用户的缩影。IT技术并不能解决所有问题,仍有许多工作,需要附加专业严谨的人工劳动。而搜数网提供的有些“不伦不类”的搜索服务,虽然不够飘逸、神速,却是一种新的互联网应用思路:打造内容“深井”,然后利用“深井”来扩散价值。

 “我们向互联网转身,虽然还不能有大的改变,但我们相信互联网能给我们的客户带来价值。”严小寒认为,搜数网还有很多的不可确定的因素,所以要依靠长期在数据领域的积累来应对。“十年来,不少作数据服务的同行都倒下了,没有政府背景的就剩我们,在跟有政府背景的中经网和国研网竞争。”

发表评论 _COUNT_条

爱问(iAsk.com)评论】【论坛】【收藏此页】【 】【多种方式看新闻】【下载点点通】【打印】【关闭
科技时代意见反馈留言板 电话:010-82628888-5595  欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

Copyright © 1996 - 2006 SINA Inc. All Rights Reserved

新浪公司 版权所有