BI厂商日渐巨无霸化,与全球范围内各行业的数据增长不无关系,也显示出如今企业级数据仓库规模、强大功能和复杂性。
本刊记者 孙泠
经过2007年野蛮瓜分式并购,BI(Business intelligence,商业智能)市场上的前三名突然全部消失—Hyperion被甲骨文以33亿美元收购,BO以70亿美元被SAP收归麾下,IBM用50亿美元并购Cognos。 如今,四大综合性BI提供商—IBM、SAP、微软、甲骨文正在成为市场主流,他们更愿意提供端到端的综合解决方案,甚至提供整合BI功能的业务软件或者管理软件,使得BI市场看来更像是这四大巨头的天下。环顾四周,专业化BI市场好像环境剧变后的白垩纪,仅存数据仓库厂商Teradata及以前端数据挖掘分析见长的SAS软件。 因此,今年在拉斯维加斯召开的Teradata合作伙伴大会上,硕果仅存的两大专业厂商宣布结成战略合作伙伴,并推出创新合作计划也就不足为奇了。今年早些时候,两家公司曾启动在Teradata环境中提供“数据库内”(in-database)智能分析功能的第一阶段;而此次名为“优势计划”(Advantage Program) 的战略合作包含新的产品以及套装式服务,涵盖分析(Analytics)、防洗钱(Anti-Money Laundering)、信用风险(Credit Risk)、企业智能(Enterprise Intelligence)、优化服务(Optimization Services)等内容,客户可以根据分析结果迅速做出业务决策并采取行动。 庞大:PB级用户 BI厂商日渐巨无霸化,与全球范围内各行业的数据增长不无关系,也显示出如今企业级数据仓库规模、强大功能和复杂性。目前Teradata有五家客户拥有超过1PB(1024TB)的超海量数据仓库环境,每天处理的数据量达数十或数百TB。 这五家PB级用户包括一家Teradata数据仓库环境拥有5PB数据的在线拍卖网站、一家数据量达到2.5PB的零售巨鳄、两家数据量分别达到1.5PB和1.4PB的大型金融服务机构以及一家数据仓库环境拥有1PB数据的制造型企业。此外,总共有35家Teradata客户拥有超过100TB的数据,而这一数字仍在继续增长。 “存储成本的持续下降使得企业可以更加自由地凭借商业智能的决策分析获得利润。”Teradata首席营销官Darryl McDonald表示,“零售商收集消费者信息和库存数据进行客户关系管理以及供应链优化;制造企业和运输企业也收集更多有关供应链和物流的信息来进一步提高效率;金融机构很显然则在酝酿规模更大的风险管理项目。通过分析网站点击和交易成交量等海量数据来获得运营和竞争优势变得越来越切实可行了。” 但仅仅“存储”PB级数据并不能帮助企业领先于竞争对手快速发展。“Teradata系统可以进行密集数据挖掘数字运算并生成数百个复杂报表,同时支持一万名用户的并发业务查询,而所有这一切都基于同样的数据,”McDonald自豪地说,“我们就是数据管理领域的瑞士军刀。” 尽管eBay数据仓库5PB级的数字令人印象深刻,但eBay架构及运营部高级主管Oliver Ratzesberger表示最重要的数字还是投资回报率(ROI),“智能分析已经自下而上、自上而下地渗透到了我们的DNA中,成本虽然昂贵但潜在的投资回报率却也是很高的。” McDonald表示:“许多新客户可能是看中了Teradata巨大的数据容量,而大多数客户则是为ROI所吸引,而大多数情况下这在短时间内就实现了。”例如,Teradata一家大型金融服务机构客户在安装数据仓库仅四个月后就宣布其投资回报率达到了100%,而一年后这个数字则上升到了300%。 迅猛:eBay速度 2.3亿用户,一亿多个在线产品,每秒超过5000个产品搜索需求,eBay的平台要应对极大的交易量需求。在Alexa统计中,eBay页面访问量居前10位,日页面访问量约10亿,具有最大的网上交易系统,其数据量超过美国纳斯达克股市处理量,同时维护并保证网站运营无故障时间高于99.94%。 每秒5500个产品搜索,一天24小时,相隔万里,不同肤色的人们在eBay网上体验着买卖的乐趣。按动鼠标的时候没有多少人知道支撑这一动作的是世界上最好的数据仓库,最稳定的交易平台。 作为全球最大的在线交易网站,eBay上马了基于Teradata平台、容量达5PB的全球最大商用企业级数据仓库(EDW)。通过Teradata平台业界知名的海量并行处理能力,eBay将数据集市的便捷和易用与集中式数据仓库的优势结合在了一起。这为eBay提供了一个先进的自助服务模型,使其用户可以利用虚拟系统来满足个人或部门的需求,而成本却低于建立任一数据集市或部署多级系统所需的费用。 对于eBay现有的2.3亿个注册客户,他们的体验感受会直接影响到后端的研发,前端“快速响应,良好体验”的需求对研发工作提出了挑战,因此速度与质量成为研发管理的首要问题。现在,50多个eBay业务部门可在任意时间运行EDW上的测试环境,测试的有效期可达90天。使用分析服务来快速构建原型使eBay团队能够通过实验迅速检验其设想和快速学习,从而缩短上市时间。eBay架构及运营部高级主管Oliver Ratzesberger指出:“因为企业级数据仓库中已经储存了主要数据,所以我们无需任何成本就能为业务部门提供原型环境。这有助于eBay维持自身的竞争优势。” “企业数据量在不断增加而商业周期却在逐渐缩短,这种现象在电子商务领域尤为明显。因此,企业各个部门都越来越希望能够即时获取信息,因而他们也就迫切需要规模更大的系统。当其他企业还在讨论PB级规模的系统或宣称其实验室测试系统创下所谓的PB级记录时,Teradata已经在真实的商业世界与eBay及其他Teradata PB级数据仓库用户一起部署这样的系统了。”McDonald表示。 野心:云计算脚步 云计算的出现带给BI行业新的启示:BI也可以作为网络服务提供给用户,BI的网络化和服务化将成为这一行业新的趋势。eBay公司过去在公司内部运行巨大的数据仓库来进行内部BI分析,后来与Teradata合作将这一业务拿到公司防火墙之外,将其作为一项服务服务提供给感兴趣的公司。 这一领域的先行者是Amazon网络服务,这些服务中最有名的是Elastic Compute Cloud(EC2)应用托管服务和其S3存储托管服务。 由于基于Teradata的数据仓库能够在仅仅5秒钟里提供5TB数据,eBay利用这种速度使业务分析师能够构建他们自己的“虚拟”数据集市。这个虚拟数据集市为eBay中100个小组中的大约5000名业务分析师所使用。Ratzesberger说,这些数据集市复制中央数据仓库,但是在没有中央IT人员的帮助下创建的。 业务分析师利用标准Web和分析工具(如那些来自Business Objects、SAS和Microstrategy的工具甚至Microsoft的Excel)来创建他们自己的迷你数据仓库。这使分析师可以迅速创建和测试他们认为自己需要的IT分析的原型。90天后,成功的原型交给数据仓库管碓保笳咧恍杈苄〉母男唇亲坏缴菁兄小atzesberger说:“我们将建设数据集市所需时间至少减少了一半,在一些情况下,甚至减少3至5倍。” Ratzesberger承认将它的数据仓库变为一种可以为外部订户公司使用的公用工具,一个问题是设法最大限度地减少客户将大量的数据加载到eBay的数据仓库所需时间。 他说,“如果你将分析功能作为一个平台产品组合在一起,并且数据生成部分紧靠着平台”,这个问题就可以解决。大部分自助BI功能已经内置到它运行的Teradata数据仓库软件中。