J.P.摩根:大数据和AI策略,面向投资的机器学习和另类数据方法

近日,微软 AI 首席科学家邓力加盟对冲基金公司 Citadel 再次引发了人们对于机器学习技术应用于金融投资领域的关注。J.P.摩根(j.p.morgan)最新的280 页研究报告《大数据和 AI 策略——面向投资的机器学习和另类数据方法》(Big Data and AI Strategies Machine Learning and Alternative Data Approach to Investing),极为详尽地梳理、评述、预测了对冲基金和投资者使用机器学习技术利用、分析另类数据的现状与未来,对于一切关注这一新兴大趋势的人们、一切投资者都有重要的借鉴意义。(中文内容来源:文 | 新智元 编辑 | 对冲研投)
英文报告目录:
I: INTRODUCTION AND OVERVIEW
Summary
Introduction to Big Data and Machine Learning
Classification of Alternative Data Sets
Classification of Machine Learning Techniques
Positioning within the Big Data Landscape
II: BIG AND ALTERNATIVE DATA
Overview of Alternative Data
Data from Individual Activity
Data from Business Processes
Data from Sensors
III: MACHINE LEARNING METHODS
Overview of Machine Learning Methods
Supervised Learning: Regressions
Supervised Learning: Classifications
Unsupervised Learning: Clustering and Factor Analyses
Deep and Reinforcement Learning
Comparison of Machine Learning Algorithms
IV: HANDBOOK OF ALTERNATIVE DATA
Table of contents of data providers
A. Data from Individual Activity
B. Data from Business Processes
C. Data from Sensors
D. Data Aggregators
E. Technology Solutions
APPENDIX
Techniques for Data Collection from Websites
Packages and Codes for Machine Learning
Mathematical Appendices
References
Glossary

另类数据的可用以及分析这些数据的新定量技术——机器学习,正在成为竞争优势的新来源
大数据和机器学习“革命”:目前,联网设备以电子方式获得了大多数的记录和观察。这原则上允许投资者实时访问广泛的市场相关数据。例如,可用于评估通货膨胀数百万项目的在线价格,可以实时估计销售量的商店访问和交易的客户数量,可以评估石油钻井平台或农业活动产量的卫星图像。

历史上,类似的数据只能以低频率(例如每月CPI、每周钻机数量、美国农业部作物报告、零售销售报告和季度收入等)提供。鉴于可用的数据量,有经验的量化投资者在理论上可以接近获得实时的某公司特定的数据,而这些数据不能从传统的数据源获得。在实践中,有用的数据不容易获得,需要购买,需要组织和分析另类数据集以提取可交易信号。大型或非结构化数据集的分析通常使用机器学习来完成。在设计定量策略方面,成功应用机器学习技术需要一定的理论知识和很多实践经验。

在苦苦追寻 Alpha (对于非金融领域的读者,可以简单地将 Alpha 理解为超额回报)的过程中,基金经理越来越多地采用量化策略。另类数据的可用以及分析这些数据的新定量技术——机器学习,正在成为竞争优势的新来源。这种“数据的工业革命”旨在通过信息优势和发现新的不相关信号的能力来提供 Alpha。

大数据信息优势来自手机、卫星、社交媒体等新技术创造的数据。大数据的信息优势与专家、行业网络甚至企业管理能力不直接相关,更多体现的是收集大量数据并实时分析数据的能力。在这方面,大数据有能力深刻改变投资环境,进一步将投资行业趋势从自由决定性转变为量化投资风格。

有三个趋势使大数据革命成为可能:

1)可用数据量的指数增加;
2)提高计算能力和数据存储容量的成本降低;
3)分析复杂数据集的机器学习方法取得了进展。

有许多经常使用的概念可以用于描述大数据,这里我们给出最简明的用来描述大数据的维度:

  • 体量:通过记录、公报、图表、文件等等收集并存储的数据的规模,大数据的“大”的下限正在持续升高;
  • 速度:数据的发送和接收速度经常被作为大数据的显著特征。大数据能够批量传送;大数据的获取是实时的,或是接近实时的。
  • 多样性:大数据经常具有多样性的形式——结构化的(如SQL 表格或 CSV 文件),半结构化的(如 JSON 或 HTML),非结构化的(如博客或视频信息)。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

推荐文章

沪公网安备 31010702002009号