工业数据库里往往隐藏着沉没的宝藏。这里有一条引领制药公司和其它人通向宝藏的捷径。
人们的工作往往被淹没在大量的数据资料中,但是他们又的确需要数据。如今,计算机使得制药,生产电脑芯片,乃至石油勘探这些行业汇集大量信息变得更加容易。对于决定在哪里开凿油井、在芯片制造过程中怎样纠正一个代价高昂的小错误,或者在数不胜数的化合物中决定将哪一种作为重量级新药,这些数据将是至关重要的。但是,回报却只属于那些在如海浪般潮涌而来的原始数据资料中撒网捕捉到机遇之鱼的人。
让我们来看看以下叁家公司所面临的数据筛选的挑战吧:
位于印第安纳波利斯的礼来公司(Eli Lilly & Co.)用一种叫作组合化学的自动化程序在几天时间内对少量但又确实有用的化合物进行几千次的合成。然后这些化合物被注入到下一个叫作高容筛选的程序中,这是一个观察它们如何与生物“目标”物质发生反应的程序。而隐匿于大量反应结果中的则很有可能是新药种的候选成份。
阿纳达科石油公司(Anadarko Petroleum)是休斯顿一家石油勘探及生产商。公司的地球化学家和工程师们根据大量的地震及其它方面的数据来预测储量可观的石油和天然气的地下位置。那麽他们应该怎样指点耗资巨大的钻井队伍呢?答案就在那些数据中。
位于达拉斯的德州仪器公司(Texas Instruments)科比芯片加工厂开发芯片制造工艺及生产微处理器,仅仅是其中装配硅晶片一环就要耗时数周并通过至少 400 余道精密生产工序。大量的传感器监控着生产仪器,并且随着每一片晶片的生产同时要收集至少 14 万条相关信息。这些大量的数据中有些能对生产过程中将要出现的错误发出警告。而对一个错误的提前预警,通常就能使其在生产出不合格的芯片前及时进行补救。
一种新的软件构思正开始帮助这些公司在寻找隐藏于数据海洋中的模式和内涵上减少时间和金钱的投入。互联网专家埃斯特8226;戴森(Esther Dyson)将这种方式比作是“戴上不同颜色的眼镜或者是滤光器来观察事物。”这种方法最早是克里斯多佛8226;阿尔伯格(Christopher Ahlberg)在一篇博士论文中提出来的,这位 32 岁的瑞士人是马萨诸塞州萨默维尔市星火软件公司(Spotfire)的创始人。而他创造的对不同数据进行探测分析的部分灵感则和在网上用浏览器冲浪极为相似。他还有一个目标,就是要用醒目的视觉显示器通过仅仅是普通人就能很快直观掌握的方法来演示数据结果。“数据库是图表法将要攻克的最后领域,”阿尔伯格说。
大多数公司所依赖的数据库并不是依据使用简便的原则建立的。它们大多数都使用一种称作结构化询问语言的接入方式,简称 SQL,这种语言非常难掌握,以致于许多机构都要用高薪聘请专业人士来与他们的数据库进行对话。而面对毫无想象力的 SQL,你随便问一个问题就会轻易得到几百万条答案──大量毫无意义的结果。更糟糕的是,这些数据库根本就不是为那些通常想一探究竟的使用者而建的。
星火公司的软件首次将“数据视图”和功能强大的灵活查询结合在一起。如着名的 DecisionSite 软件,其价格不菲──安装这一软件起价 10 万美元。但这并未使许多不同行业的客户望而却步,并且其销量已突破 1.6 万件。产品面市四年来,这家私营软件公司的年销售额据估计已达 3,000 万美元(阿尔伯格说,虽然这项业务还没有开始赢利,但是已经非常“接近”了)。最近,IBM 的生命科学部将其营销触角伸向了这项产品:针对那些希望加速研发工作的制药公司,这位蓝色巨人正在试图将数据管理软件与星火公司的工具融为一体。
星火公司软件的神奇之处就在于它使用户在对来源不同的数据进行假定分析比较时只需用鼠标在电脑屏幕上滑动。实际上,它为数据捕捞者提供了可随意调整的渔网。换句话说,他们能在不超过叁英寸的距离内搜寻到藏在水底的鱼,然后,稍加判断,就能将凤尾鱼和沙丁鱼区别开来。而结果就会呈现出醒目的色彩,并以条状、扇形、发散形示意图,甚至是地图的形式显示出来。
星火公司四年前开始批量生产软件时,起初主要是针对制药业,在这一行业中数据的规模激增。其中一位较早的采用者是礼来公司生产及供应服务部的信息官谢尔登8226;奥特(Sheldon Ort)。目前,奥特的公司在世界各地有 1,500 名科学家离不开这个软件。“我们主要用它来帮助决策,”奥特说。“因为它具有表达不同来源的信息的能力并且能够用互动的方式改变你的视野,所以它能帮助我们寻找到特殊的分子并帮我们决定是否还要对其进行进一步的测试。”
药品开发这一行有句话叫做“失败应赶早。”那是因为一种典型的新药从通过联邦食品及药物管理局(FDA)的批准并上市大约要花费五亿美元。这样高的费用迫使礼来这样的公司尽可能早地发现那些可能使病人中毒或是引起其它不良副作用的化合物,从而在对其投入更多的研究资金之前将其排除。
而当他们研究新的化合物时,制剂师也许想了解一些问题,例如,这些物质是否能穿越人体的脑血栓?存在的毒性是什麽?它们的化学结构是什麽?人体多快才能吸收它们以及它们在血液里能持续多长时间?当它们遇到其它成份的药剂时会如何反应?像这种关键性因素的问题可能会有 20 条或者更多。而如果像过去那样将这些信息存贮在不同的数据库里,那麽将它们进行对比则是一项耗时巨大的工程。
使用星火公司的软件,研究人员可以不用建立多个完整的查询序列。只要来回拖动一下鼠标,用户实际上就可以连续登陆一系列的查询数据库,而结果也会通过图形显现在屏幕上。礼来公司用这种软件来对那些在不同站点通过计算机网络连接在一起的研究人员之间的会议工作进行管理。当发言人在他或她的屏幕上移动鼠标的时候,每个人都能看到其种类、集散区域、外露层、空隙处、 常现象,以及数据库用户寻找的其它贵重金属的统计数据。同时大家可以立刻共同探讨并做出决策。奥特现在正试着以此对礼来公司的供应链进行更有效率的管理。
阿尔伯格说直到阿纳达科石油公司打电话给他们时,他才想到将软件应用到能源领域。“我过去并没有意识到药品开发和石油及天然气行业有什麽相似之处。这时我意识到这和化学结构库一样,石油及天然气行业需要的则是地图──地理学地图。星火公司和加利福尼亚州瑞得兰市的着名地理信息系统供应商 ESRI 结成了合作联盟。而最后的结果现在已经转化为供阿纳达科石油公司员工用于策划油田开采的 DecisionSite 软件,并配以可视地图。
阿纳达科石油公司的国际勘探部经理罗恩8226;贝恩(Ron Bain)告诉我们:“我们的地理学家和工程师需要将大量的数据库信息以 Excel 电子表格的方式读出,可以想象,在若干个 Excel 电子表格上对 1,000 个数据点进行比较是一件非常困难的事情。而采用星火公司的软件就好像用 Excel 表格分析类固醇,它能同时完成所有交叉测绘工作,以寻找石油的储藏地点。”
随着原油价格上涨,阿纳达科石油公司每五个小时就要在世界上某个地方开采一口新井。为了决定这些油井的位置,公司的地理学家需要查阅许多数据库,包括磁场数据、重力数据、现有油井中的传感器传输来的信息,以及对地表岩石结构进行地震勘测的结果。做这项工作,磁盘驱动器需要很大空间。例如,对墨西哥海湾一块九平方英里的海底的勘测结果就包括 5 到 6 GB(千兆字节)的数据资料;而在阿纳达科石油公司多达 20,000 GB 的存档资料库里却有成千上万这样的数据。
而星火公司的承诺是“简化决策程序,”贝恩说。“如果没有它,我可能要处理大量的信息,而它则能使我变得非常聪明或者说是非常成功。它的理念是要以经济的方法找到和生产石油。我们喜欢说我们在有石油的地方开采,而不是在可能有石油的地方。这些 DecisionSite 软件能帮助我们更快地找到答案。”
芯片产业耗资巨大──每一个新厂的投资至少需要 10 亿美元──而且当产品进入复杂并且高度敏感的制造过程中时还要追加大量的投入。而对于将工厂的合格芯片产量保持在一个赢利水平而言,在那些细小错误铸成大错前发现它们是至关重要的。芯片制造者依靠程序监控传感器、功能强大的检测装置、统计分析和专业软件来发现错误在哪里及如何检测并将其避免。
典型的问题包括破坏芯片成型及晶片蚀刻的污染物,以及光刻程序自身的错误。德州仪器公司芯片上的某些部件只有 0.13 微米那麽大,因此即使是最微小范围内的变化都有可能招致灾难性的事故。至少能叠加 25 层的连续电路模式排列也很重要;精度不够很有可能就意味着糟糕的线路联通。
为了避免用这种困难的方法发现错误──待数周后发现它们时再想挽救芯片却为时已晚──德州仪器公司收集了大量正在生产的晶片的数据资料。而诀窍就是要迅速弄懂信息的含义。“我们可以定时收到所有晶片进入到每一个生产环节时的数据资料,”生产及产品技术主管乔8226;勒博维茨(Joe Lebowitz)说,“但是它却不能清楚直观地显示出 14 万个或者更多的参数中哪一个可能是重要的。”
星火软件供应商提供了许多统计数据分析程序,可以有助于满足半导体行业筛选信息的需求。德州仪器公司使用了他们的许多软件,而且仍在寻觅找到隐藏在所有噪音里的信号的捷径。而在一年中,公司有大半年在评估并参与到星火公司针对芯片制造商的需求而专门设计的 DecisionSite 软件的开发中去。勒博维茨对此印象极其深刻。“我喜欢把它比作一个魔方,你需要从不同的侧面观察从而找到解决方案,”他说。“星火软件可以使我的工程师们从根本上将数据资料掌握在自己手里,轻松快捷地将其颠来倒去从不同方面进行研究。这是一个巨大的进步。”
勒博维茨在他的工作领域与制药研究人员的工作之间看到了一种非常接近的相似性。“我对晶片最想做的事和制剂师对潜在的化合物想做的事情一样,”他解释道。“我想在再投入成千上万的美元之前尽早找出错误的因素并将其清除出去。”难道有哪家公司不是这麽想吗?