~洪泰原汁原创~
洪泰新鲜出品,原汁原创
金海燕,洪泰基金投资 VP 。关注 AI &Data 、海外项目等领域。北京大学信息管理系硕士,浙江大学信息资源管理系学士。她的邮箱是: jinhaiyan@apluscap.com 。
本文根据作者在「第四届中国数据分析行业峰会」上的发言整理而得。
大家下午好,我是洪泰基金的金海燕。我在做投资之前,做过两份工作。一份是百度产品架构师,负责几个用户量过亿的产品,包括 PC 网页搜索、开放平台、移动 APP Store 、手机百度和移动搜索;另一份工作是作为联合创始人做一家 B2B 电商公司,从公司成立第一天起就跟数据服务商打交道,所以自认为对大数据有一些理解。
今天跟大家分享一下我对大数据的理解,以及我从中看到的创业机会。
对大数据的理解
大数据其实不是什么新鲜事物,它很早就有成功的商业化应用。大家猜是什么?对,是搜索引擎。2000 年左右 PC 互联网上产生了大量的网页数据,搜索引擎对这些实时变动的网页数据进行抓取,它面对的是 PB 量级的数据量,存储索引然后开放给网民搜索使用。
大数据的核心环节有三个:数据源、数据管理、商业化的数据应用场景。其中是否有可获取的数据源是前提,数据管理是技术保障,而数据有应用场景则是商业化的关键。
搜索引擎的数据源是通过 Spider 抓取回来的,上千号的工程师用了大量的机器学习来优化存储、索引和检索算法。最关键的是抓住了网民获取信息这个需求,构建了产品、采集到用户数据、将网民需求和广告库进行匹配,从而实现变现。
之后的啤酒和尿布、飓风和蛋挞,这种大数据的经典应用之所以首先出现在超市行业中,也是因为超市有大量的电子化的商品销量数据,这种数据分析研究结果能指导商品排架,进而提升经营业绩。
在我看来,要构建一个好的大数据商业应用,数据源、数据管理、商业化的数据应用场景,这三个环节缺一不可。
现在是大数据方向好的创业时机吗?
先看几个数据。
14 年全国产生的数据规模是 0.6 ZB ,5 年这个数据规模是 1.7 ZB ,今年预计达到 3.79 ZB。可以看到每年新产生的数据量都超过已经存在数据的总和,这是在膨胀。大家知道互联网上的网页数据、APP 数据、微信公共帐号数据,以及用户在上面的浏览使用行为数据,这些数据都是记录在云端的。包括上午的演讲嘉宾讲到的传感器检测到的数据,都是可获取的。
近半年我们还看到一种现象是:很多原来割裂的数据源由于打通了某个环节,从而产生了互动,进一步发酵后形成了更有价值的可应用数据。
就像卫星传输回的数据,频率是 40 天一次。天上只有一颗卫星时,数据是很零散的。而现在天上放了 30 颗卫星,每颗卫星都往回传数据时,数据量就大了,整合起来就能看到连续的轨迹了。
数据的可获得性和流动性持续改善,这些新数据源的产生,萌生了一些大数据应用的新机会。
1TB 的存储成本,30 年以前需要 16 亿美元,现在只需要 100 美元。分布式存储和分布式计算技术的成熟,使得大量的数据源存储成本快速下降,应用的成本大大降低。
人工智能 Deep Learning 技术在 2006 年后被广泛的应用在大数据处理上,应用在文本、语音、视觉和传感数据语料的学习与训练中。这种 Deep Leaning 算法并不会随着处理数据量的级别增大而遇上明显的效率与变现上的瓶颈。
综上看到,左边是一些新的有价值的数据源不断产生,右边是数据管理的基础设施和技术已经越来越完善。等待的就是好的数据商业化的应用场景。在有数据源的领域找到好的商业化应用场景,并切入进去,这是好的创业机会。
全球大数据营收 TOP 的 30 个企业,都在美国。新兴的数据分析企业,通过结合应用场景,在各个领域崛起。比如协助抓住本拉登落网的大数据分析与预测公司 Palantir,应用在政府、金融、电信领域;还有在 12 年上市的超级日志管理大数据公司 Splunk,应用在电信、能源和公共事业、金融、医疗保险等领域。
对比全球市场,中国的应用与服务仍处于快速发展的早期阶段。为什么这么说?因为根据全球的发展趋势,基础软件、计算存储、应用化服务三个子分支里,应用化服务占比这些年逐渐增大,至今已经超过 50%,而这个占比在中国今天还只有 24%。
虽然国内外的国情有差异,比如政府、金融、电信这三个在国外有很强付费能力的行业主体,在国内却受限于体制和观念,目前还不是付费主体。但综合看趋势,中国的大数据服务应用仍有巨大的空间和机会。
最大的机会在大数据应用层
通用数据应用比较看好的方向,是将大数据处理能力服务于有数据的企业,并直接收费的 TO B 服务模式。
(责任编辑:admin)免责声明:文章内容来自互联网,本站仅作为分享,不对其真实性负责,如有侵权等情况,请与本站联系删除。
转载请注明出处:大数据的创业机会|原汁原创 https://www.dachanpin.com/a/cyfx/30662.html