大数据的未来将在云端开战

2020-07-12

数据正在呈几何级数增长,来自社交媒体(微信、微博)以及传感器设备的非结构化数据受到了越来越多的关注,而与传统企业交易系统的结构化数据一起,它们将有可能带来新一轮的产业变革。机器学习,自然语言处理,舆情分析等词汇几乎每天都会出现在媒体的报道当中,然而真正讲它们大规模投入应用的企业却少之又少。

如今,企业CIO们几乎人人都在讨论大数据,许多人认为大数据就是搭一个Hadoop集群,把所有的数据全部存进去,再通过各种各样的API调用进行分析。然而答案并不是这么简单,大数据与IT方方面面都有联系,从基础设施到中间层再到前端的应用。Hadoop不是万能的,它只是大数据的一部分,想要真正驾驭大数据,我们需要考虑更多的事情。

我们的数据究竟有哪些问题?

事实上,我们要解决的大数据最基本的问题是存储和报表。我们该如何存储快速增长的数据,关键是在业务人员需要用到这些数据的时候,可以快速地访问。即席查询生成报表,对业务进行预测,充分利用大数据流中隐藏的价值。

你的数据都有哪些类型组成?关系型数据、非结构化数据还是音频视频?你如何存储不同类型的数据,然后让企业内部的人员可以访问这些数据?答案其实在云端,云存储技术基本上可以应对大数据的存储需求,你可以存储任何类型的数据然后轻松地进行扩展。高端的SAN存储技术在大数据时代已经落伍,而且高昂的成本是企业所无法承受的。SAN存储适合的是关键业务数据,每一条记录对企业都是至关重要的。大数据正好相反,比如销售订单,这些数据是绝对不能丢失一条的,而一条微博或者日志文件怎没有这么高的要求。包括华为、亚马逊等云存储服务可以使用廉价的设备为企业提供大数据存储解决方案,实现可靠、可扩展并且性价比更高的存储。

当然,电视的出现并未让广播电台灭亡,在大数据时代也是如此。SAN依旧有它的价值,但并不是所有数据都要存在上面。我们需要云存储是因为不同类型的数据都有着特殊的存储需求。比如读密集型的数据一般需要关系型数据库;日志文件只使用HDFS存储就可以;需要大量写操作的数据则需要NoSQL数据库;而存在大量读写操作的系统就需要强大的大数据架构来作为支撑。你的系统也许需要低延迟、高一致性、高度可靠或者需要控制存储的成本,每一种需求都意味着不同的存储解决方案。低延迟可能意味着要上SDD或内存设备,高一致性意味着要建立交易系统,高可靠意味着要使用数据库复制功能。所以,大数据已经告别了“放之四海皆准”的关系型数据库时代,Oracle+小型机+高端存储(或者说IOE)的组合已经不能处理所有的数据难题。

那么企业到底需要什么?答案是以服务的方式提供的灵活可扩展的云存储解决方案,能够满足上述不同的存储需求。比如亚马逊的RDS,DynamoDB,华为的对象云存储等。当然,并不是所有的云存储都可以满足需求,企业需要更高的灵活性,同时出于延迟以及法规遵从等原因,这就要求能够从不同的系统中将数据快速方便地进行迁移,从内部系统到公有云,或者从一个云提供商迁移到另一个云提供商。

商业智能与ETL的未来发展

除了存储方案之外,我们还应该关注前端应用。传统的ETL也将经历变革。业务人员肯定不希望为了导入一点额外的数据就让IT部门更改schema,这样的工作量和成本太高了。理想的状态是有一个简单的工具,让业务人员就能够做即席查询,比如Tableau就能够解决这样的问题。然而,随着数据量的不断增长,TB甚至PB级别的数据需要进行处理,那么软件的成本就要考虑在内,这时候你该怎么办?

ETL和BI工具的未来将运行在Web端,任何的业务人员都能够用它来生成报表。动态的HTML5用户界面可以通过拖拽就完成数据的查询与报表生成,如果你还需要对业务用户进行培训才能够使用这些工具,那么就真的OUT了。

新一代的BI工具能够应对实时、图形化、大对象以及非结构化数据的处理,同时能够将这些数据存储在云端。每种数据可以托管在不同的云服务上,但都可以通过一个API进行访问。企业无需再关心什么样的数据用什么样的存储,云服务提供商就可以搞定。

最后,有一点很重要。越来越多的企业开始意识到,数据分析已经成为了一种“战略武器”。下一代的商业巨头,也许就会从那些知道如何收集数据并把它们转化有价值洞察力的企业中诞生。千里之行始于足下,在构建大数据分析模型或者投入机器学习,招聘数据科学家之前,企业需要先解决好如何存储大数据,而答案就在云端。

移动信息化交流QQ群:一号群:211029692 二号群:344692795 CIO交流群:316076815(需认证)

相关文章