×

关注微信公众号

提升数据分析能力,助力企业数字化转型

2019-02-22 11:18| 大秦售电企划部| 查看: |

十年前,全球市值最高的 Top10 公司大多来自石油、银行、汽车等传统行业。而十年后的今天,亚马逊、Facebook、阿里巴巴、腾讯等一跃超过了十年前排名第一的艾克森美孚。不难发现,数据是这些企业的核心资产。大数据可以帮助企业制定切实可行的战略规划,获取客户洞察,支持客户购买行为,并构建新的业务模式,进而赢得竞争优势。
 
成功的企业数字化案例显然有自己的共同点:重视数据质量、重视数据上下文、以及建立有效的数据管理体制。而失败的企业则各有各的问题。
 
 
一、只做数据集中,并没有对数据进行整合
 
数据整合是当今数据分析面临的最大挑战。实际上,许多公司只是简单地将数据堆积在一起,并未对不同来源的数据进行整合。就拿身份认定来说,比如一套系统下“路人A”的信息与另一套系统下“路人A”(甚至可能是重名)的信息之间,没有进行关联,这样的话,就无法对“路人A”的身份进行完整性描述。数据整合并不等于将数据集中到一起,对于研究对象,要将不同来源的数据相互关联,以便获取更准确的信息定位。并且数据科学家会通过数据来寻找并分析竞争优势,可能的企业新的突破点等等,因此,数据整合也变得越发重要。
 
二、忽视了不同业务对数据的需求差别
 
整合的集成数据技术对于一个成功的分析程序是至关重要的,必须要意识到不同业务部门对数据的需求是不同的,数据的形式不能千篇一律。相反,还需要考虑数据供给,IT部门需要将业务类型与数据形式相匹配。并不是所有的业务都需要整合过后的数据。以金融机构的众多需求为例,风控部门需要未经处理的原始数据,以从中发现异常。比如通过搜寻多组数据中某个人地址信息的,确定其是否申请了多笔贷款等。另一方面,诸如市场部等部门希望实现准确的用户信息定位,因此只需要其中正确的那组数据。
 
三、数据工程师可能比数据科学家更重要
 
数据科学家这个职业在过去几年中正迅速抢占硅谷、纽约、中关村、西二旗的各大互联网公司。一大批传统企业也开始设置这个职位,并且大批招募。
 
毕竟,每个公司都希望通过势头正盛的新兴技术使业务分析具有一定的预测性和分析说明,这需要专业团队和人员的支持。但通常,这些公司挂出的招募岗位只有数据科学家这一种。
 
这是远远不够的。数据科学家需要数据工程师来收集数据集,但是,数据工程师这一职位,在许多公司没有受到应有的重视。
 
四、缺乏对数据时效性和生命周期的管理
 
近十年来,随着数据存储成本不断降低,IT部门可以将大量数据存储起来,并保存很长的时间。对于不断增长的数据量和数据分析需求来说,这是个好消息。
 
公司都希望拥有大量数据,但许多企业都将数据留存的过久。这不仅仅是存储成本的问题,超过十年的数据基本没有时效性了。
 
数据要被赋予生命周期。数据留存期限要根据不同部门、不同组织来确定。例如,零售行业需要的是即时和相关的数据,而市场部门需要多年来的历史数据以探寻趋势。这需要IT部门根据不同部门的需求,制定一套明确的数据时效标准,从而确保数据的有效性。
 
 
五、只关注数据量而忽视数据相关性
 
数据分析师总喜欢用最容易获得的数据进行建模与分析,而不是最相关的。这是目前公司或组织普遍存在的一个误区。或许,在寻找更多的数据集之前,应该先想想数据是否相关,而不是询问我们是否有正确的数据。
 
比如,许多公司会从大量数据中寻找异常。尽管充分性很重要,但优秀的公司同样兼顾数据的针对性。他们会关注来自于特定个体和机构的数据,并从中发现异常。比如医疗结构在分析病例时,会考虑到医生的轮班周期等。
 
六、忽略数据来源
 
数据分析存在一个普遍又显著的问题,是数据偏见。偏向性的数据会造成分析结果偏差,从而影响到正确的业务决策与结果。其中的偏见来源于整个分析过程涉及的许多个部门,包括IT部门处理数据方式,都会有一些偏见。因为IT部门在对数据来源的追踪上,做的并不完善。如果无法意识到这一点,就会影响到数据模型的的性能,而且,缺乏数据来源的可见性使得对偏见的控制更为困难。
 
IT有义务搞清楚数据的来源在哪里,以及来源的相关情况。在投资数据管理的同时,也要制定一套源数据管理解决方案。
 
七、缺乏面向用户的数据上下文
 
在企业内,应该有强大的源数据管理程序,它可以追踪数据的来源,以及它是如何在系统中运行的,它应该为用户提供一些历史信息,并为一些通过分析产生的结果提供背景信息。
 
近几年,由于分析方法越来越复杂,对数据和分析结果的解释变得越来越少。更新的深度学习模型为分析结果提供了一些注解,也为决策提供了一些可行的建议,但无法提供对最佳决策有帮助甚至至关重要的上下文,例如某件事情发生的可能性与确定性等信息。因此,需要能提供更好的用户界面以帮助用户进行决策。
 
其中的技术问题在于,要明确用户与数据模型的交互程度如何。UI/UX界面决定了系统对用户的透明度,而透明度取决于用户对分析结果的钻研深度,这些都是首席信息官(CIO)在建立分析系统前,应当考虑清楚的。
 
 
八、认为小的或者少数的数据量缺陷无关紧要
 
有人认为,根据大数定律(Law of Large Numbers),独立的数据缺陷无关紧要,不会影响分析结果。与更小规模的数据集相比,独立的数据缺陷对整个数据集的影响的确要小很多,但目前,数据量不断增长,数据缺陷与以往相比也越来越多。
 
如果,低质量数据对整个数据集的整体影响仍保持不变,企业在大数据环境下使用的大部分数据来自外部数据源,其数据结构和来源未知。这意味着数据质量问题的风险比以往更高。因此,在大数据部署中,数据质量实际上更加重要。
 
设计出新的数据质量管理方式,并选择数据质量级别。严格遵守数据质量保障的核心原则。
 
九、在数据仓库中,高级分析有重大意义
 
有些人认为,高级分析功能可使用新的数据类型时,部署数据仓库则浪费时间。实际上,大多数高级分析项目在分析时都使用数据仓库。
 
新的数据类型还可能需要提炼,使其适于数据分析。此外,哪些是相关数据、怎样聚合数据以及必要的数据质量级别等都需要企业做出决策。
 
尽可能使用数据仓库存储经人工收集检查的数据集,用于高级分析功能。
 
如今,行业内不少人打着“数据统计和分析”的旗号来做大数据,让很多人陷入了误区:数据统计并非等于大数据。无论数据统计也好,大数据也罢,其实都是为了使我们的工作变得更为有效,让决策更为理性而准确。重视数据,本身就是一个企业成熟的标志。随着数据的进一步丰富和完善,随着不同渠道数据的打通和交叉利用,有关大数据的想象一定会更加广阔。
 
(来源:CIO发展中心)
<
>