探码科技为你全面解析何为另类数据,以及它的24种使用场景!
原文出处:https://eaglealpha.com/alternative-data/
什么是另类数据?
另类数据是投资过程中使用的非传统数据,它使得越来越多以前无法收集的信息变成了可以分析的数据 ,而从这些杂乱无章的信息中找到规律的能力也变得无比强大。
另类数据是用于金融交易的非传统性数据,可以寻求全球量化独有价值,并获取超额的市场收益。它是传统金融数据的补充,可以提供不同视角的市场洞察,提升数据模拟准确性。另类数据在金融领域的作用比喻为“新石油”,因其就像石油对于国民经济的重要性一样。
引爆点
另类数据并不新鲜。几年来,有超过50家公司一直在使用替代数据。然而,2017年是替代数据空间的转折点,因为资产更广泛管理行业开始将其整合到投资过程中。在我们看来,另类到2018年/ 2019年第一季度末,数据空间将“跨越鸿沟”(临界点)。
另类数据的优点
优点
- 另类数据集正在被整合到投资过程中,主要是因为它们提供了一个与传统数据集相比,更大量的数据和信息提供了无法预见的洞察力。
- 数据提供更加及时,时效性更强。
另类数据的类别和使用场景
下面我们将重点介绍24种另类数据在每种应用的一些应用场景。对于每个类别,在数据库中都说明相关数据集的数量。
1.广告(23个数据集): 主要是跟踪在企业投放广告的各类平台及活动上花费的时间。广告数据交换基于其互联网浏览习惯随时间具有关于消费者兴趣的数据。该数据可用于跟踪类别流行度,例如豪华产品和金融产品、抵押贷款、汽车、网络安全等。但是这类数据使用得很少,但是其潜力很大。此类别中的另一种类型数据来自监测跟踪,电视和在线媒体。这些数据更多的是样本或者预估。不过,他可以用来跟踪企业营销信息。
2.应用程序使用和Web流量(44个数据集):可以使用在线和移动的Web浏览流量估算公司收入。移动应用使用情况数据跟踪使用应用的下载次数和使用时间。在以前该另类数据常常衡量社交媒体平台,手机游戏,媒体提供商,电子商务的受欢迎程度。移动应用评论的趋势也可以帮助分析师评估产品的成功。国家特定数据可以提供国际产品采用的见解。投资者也可以跟踪应用程序中嵌入的服务,如支付提供商和广告服务。应用程序用法和网络交通数据经常是不稳定的,并且在许多情况下,消费者可以提供更准确的信号交易数据。
3. B2B(25个数据集):各种数据聚合器提供有关企业B2B商务的数据集,包括供应链分析。其中一些数据集与一系列行业相关,例如监控企业级互联网浏览情况和阿里巴巴B2B贸易指数的企业数据。其他数据集提供基础信息,例如工业材料数据库和石油数据库合同和钻探特许权。
4.业务洞察(156个数据集):一组异构数据集,提供独特的见解。一个例子是利用另类数据跟踪公司间业务连接的数据集。其他数据提供商跟踪信用质量相关的业务活动或将机器学习技术应用于大型大量汇总数据,以识别面临失败风险的公司。自然语言应用于企业通信文本数据的处理算法也属于这一类。
5.消费者信贷(13个数据集):市场借贷数据每天经常更新,显示贷款发放金额,贷款定价,借款人信用质量和违约水平。其他数据提供者在特定国家/地区跟踪消费者信用质量。这些另类数据通常比以前更及时,可用于确定消费者信贷的动态。
6.消费者交易数据(30个数据集):这些数据来源广泛,可以提供商家级交易数据(例如零售商,航空公司,服务提供商),产品级购买数据(例如食物,饮料,电子产品)和宏观水平数据。一些数据来源,如信用卡交易数据,代表一个庞大的用户群。其他数据来源涉及较小的面板,例如2%消费者,但仍然提供可靠的信息。消费者交易数据经常用于估算数据的季度收入增长季度,企业盈利公布前可用。投资者也可以使用消费者交易数据,用它来深入了解消费者的购买行为。包括产品采用率,“优质”产品购买趋势,促销效果和折扣,客户人口统计和共同购买行为。另外,付款处理诸如PayPal和Square的使用之类的数据在消费者交易数据中经常是可识别的。2018年4月,Eagle Alpha基于来自的数据推出了名为RevCast的消费者交易数据集合伙人,是一家知名的消费者交易公司和在线搜索公司。
7.数据聚合器(96个数据集):技术创新使聚合器能够收集数据来自不同的来源并以有助于资产经理的格式汇总数据。集合商可以挖掘深层网络或及时分析政府的备案和发布。其他聚合器可以运行可以购买数据集的交换机或平台。
8.雇佣(19个数据集):职位发布列表可用于评估公司战略和方向,行业增长率和对特定技能的需求。例如,是需求具有Tableau或Google AdWords经验,成长或稳定的候选人?另一个数据提供商跟踪公司员工的变化,使分析师能够识别出高企业员工流动率或销售人员增长强劲的公司。
9. ESG(27个数据集):另类源可以提供对环境,社会和环境的洞察力公司的治理(ESG)标准。资产经理倾向于使用三种ESG特征目的:
- 评估对投资组合风险/收益的影响;
- 及早识别风险;
- 识别可持续主题为alpha驱动程序,例如低碳,清洁能源和水,医疗保健和教育,可持续供应链等可以通过各种方式监控ESG标准数据类别,包括社交媒体,卫星,公开和公开数据。
此外,消息来源监控业务投诉,业务声誉,员工薪酬和招聘趋势也很有用。我们相信这是对话和分析难以建立完整的ESG框架不使用替代数据。一些供应商提供ESG数据生成评分的框架。例如,一个供应商扫描了数万个非结构化Web源并组成ESG超过8,000家公司的得分。其他供应商提供允许ESG的特定数据集分析师专注于某个因素ESG框架。我们看到需求不断增长后者作为资产管理者开始在内部进行评分并创建自己的评分数据集的内部数据库。
10.事件检测(41个数据集):预警来自主要新闻线或社交媒体的突发新闻消息来源允许交易者在资产价格完全打折之前做出反应。其他事件受到监控包括了政府备案和天气。
11.专家意见(10个数据集):任何行业或领域专家的见解与预测趋势的专业知识与一般人和新闻提供的趋势大不相同。通过博客和论坛分享的信息量使投资者难以合成所有的评论。自然语言处理(NLP)工具可以帮助总结情绪和话题。
12.地理位置(54个数据集):从移动设备派生的位置数据可以及时产生信息访问趋势。常见的行业应用包括游乐园,零售商,餐馆,酒店,旅行,运输和房地产投资信托基金。除了观察人流量水平外,这些数据还可以用于识别促销和天气事件的影响。跨品牌忠诚度和区域性特质可能是可识别的。地理位置数据提供商从移动应用程序接收位置数据所有者,蓝牙连接和传感器。
例如Whole Foods的人流量数据用于跟踪降价情况。该提供商将全球移动电话的实时位置转换为客观和对企业,市场和经济表现的可操作见解。
13.物联网(IoT)(13个数据集):由来自互联网连接设备的数据组成。传感器提供交通数据,可用于衡量房地产的当地经济活动目的或跟踪仓库配送中心周围的活动。传感器可以提供有价值的农业作物健康信息。传感器还可以跟踪石油和天然气管道中的流量。
14.在线搜索(17个数据集):由搜索引擎收集的有关数据的数据搜索的术语频率。谷歌搜索和百度是最大的搜索提供商数据。已经进行了大量的学术研究发表了关于该数据的建立在线搜索量可以用作经济活动指标,以及消费者对产品或产品的兴趣指标话题。而且,这些研究表明了这一点,最佳指标通常用数据构建从一篮子条款而不是单一条款术语或少数术语。利用另类数据对复杂的数据进行科学技术分析用于确定最具指示性的搜索术语将这些术语组合成指标的有效模型。在线搜索数据已超过10年历史,并及时提供。它的主题报道非常广泛。
列如:2018年3月,Eagle Alpha使用Web Queries工具和Google Trends的数据对消费者使用三星Galaxy S9产品的推出兴趣调查。指出消费者对三星S9的兴趣低于其前身S8。缺乏许多功能的材料升级似乎导致了这种弱势表现。超过50%的Twitter对话专注于相机和性能功能,相比之下关于S8发布的新显示器的兴奋。此外,搜索兴趣S9比S7更接近S7。这标志着消费者对此的需求水平较低产品!
15.开放数据(80个数据集):大量数据可用作开放数据。CKAN,Comprehensive Knowledge Archive Network,是一个开放数据的非营利性注册机构。 CKAN准备数据并以使数据更易被发现和可用的方式提供对数据的访问。CKAN数据管理平台正在被许多政府,组织和企业使用世界各地的社区。与投资者相关的开放数据示例包括:打开Charge Map API(谷歌地图、腾讯地图),允许用户访问电动汽车充电位置的数据站。Wayback Machine提供互联网页面的历史存档,在以下情况下可能很有用回填Web爬网程序的数据。GDELT项目提供了一个不断记录世界新闻媒体的印刷平台,广播和网络格式的每个国家的每个角落,100多种语言,和提供新闻媒体内容的历史档案。
16.价格(104个数据集):现在,企业和消费者的商品和服务的状况数据比过去更容易获得。 这些数据可以提供有关企业收入和行业竞争的分析。 目前已经使用网络爬行定价数据开发了替代的通货膨胀措施。 此类别还包括房地产销售、租赁。早在2014年CAI(中国汽车洞察)利用另类数据,就对中国国内汽车制造商长城汽车运用另类数据对其销售情况进行了研究调查并为其正确地预测了下半年报告收入的定向变动.
17.公共部门(55个数据集):政府机构发布大量数据集,可用于衡量社会和经济活动以及行业动态。 许多数据集提供了来自地方政府的精细数据以及国家层面的汇总数据。这些数据如果没有很好的索引,使用可能性很大却又会引起麻烦。 鉴于此,公共数据将是很好的前景应用。
18.评论和评级(27个数据集):可以收集在线发布的产品和服务评论,并分析评级趋势和经常提到的主题。大量的学术研究表明,消费者非常相信在线评论,而有利的评论通常会引起销售增加。 与此同时,过度的负面评论和投诉可能是管理不善的迹象。 应用评论可以提供消费者对移动银行等应用服务满意度的见解。其他数据提供商通过整合各种来源来衡量消费者和B2B的意见,包括调查,从而追踪品牌声誉。
19.卫星(64个数据集):将卫星图像分析处理为数据或情报对资产管理者是非常有用的。它已被用作跟踪工业的模型的数据源生产,特别是在缺乏及时信息的发展中国家。它可以使用跟踪矿山,建筑工地,工厂和零售点的活动。卫星数据也被用于估计石油和天然气库存和生产。同时已被可以准确地预测农业收获状况。除了卫星之外,无人机图像的使用频率也在增加。
利用另类数据国外一家公司利用卫星图像数据,对停车场的车辆信息进行测试编目并重新测试了超过一百万个停车场图像,占据了15亿辆汽车超过七年。然后可以使用从卫星图像获得的交通数据进行分析累计同比车数增长率并将其与收入增长和股价动态进行比较。
20.情绪(63个数据集):由于其相对较长的历史和柱状时间序列结构,通过情感和新颖性对新闻提要和社交媒体帖子进行评分是一种流行的数据来源,特别是对于量化基金而言。 情绪评分可以应用于投资者评判消费者对产品和品牌的态度,或主流新闻提要。情感数据提供者除了将文章映射到诸如政府机构和公开交易公司之类的实体之外,还可以提供与主题新颖性,相关性,价格影响估计和动量相关的额外分数。数据可以应用于因子模型,也可以在动量和逆向交易策略中使用。
21.社交媒体(100个数据集):来自社交媒体平台的数据可用于分析消费者趋势,产品发布状况,品牌知名度,客户满意度,产品销售促销,社会和政治动态以及企业/客户参与程度。利用该类数据品牌,越来越多的个人在社交媒体上与该品牌互动,已经证明了这一点良好的销售势头,品牌实力往往是股价的驱动因素。
22.商店位置(14个数据集):跟踪商店位置可以深入了解企业增长和战略,特别是在跟踪商店营业时间和促销活动时。商店位置数据还可用于评估可寻址的市场规模和市场饱和度。
23.贸易(39个数据集):许多大型企业利用该类数据集进行国际收支估算,对主要商品市场的见解,国家竞争优势的迹象和消费者实力的指标。以股票为重点的策略使用贸易数据来衡量那些产品可以与特定商品的进口/出口相关联并分析供应链活动的公司的销售额。 贸易数据还可用于衡量运输公司和公开交易港口的活动。
24.网页抓取(69个数据集):网络爬取是通过从公共URL请求信息的计算机程序来聚合价格,社交媒体,评级/评论,就业和商店位置数据的手段。 网络爬取还用于监控企业网站的变化,例如反映战略计划的网站结构的扩建,某些产品线中增加的内容,增加的博客活动,促销活动和地理扩展。
网络爬取可用于监控提供特定服务(如太阳能装置或软件服务)的小众电子商务站点和站点。有时可以通过网络爬取很好地获取有关政府备案的信息。 数据可以在内部收集,也可以由专门从事定制数据采集的公司采集。 包含历史爬网数据的数据集已由专业的网络采集公司进行爬取。
总结
尽管目前另类数据的应用仍面临技术的局限、较高的成本和监管不完善等问题,但随着技术的发展,另类数据的应用也许会突破我们想象的边界,在未来扮演更重要的角色,成为传统数据的重要补充,以及投资者提升决策质量的利器。同时,量化投资者也需要对数据背后的市场驱动因素有深刻的认识,才能在这场数据革命中立于不败之地。