当前位置: 首页 > news >正文

股票数据集1-纳斯达克NASDAQ 100简介

  1. 数据集信息

纳斯达克 100 指数 由纳斯达克证券交易所 上市的 100 家最大的非金融公司发行的股票证券组成,根据公司市值设置不同权重的加权指数,权重还受某些规则影响如公司影响力。该指数仅限于来自单一交易所的公司,并且没有任何金融公司。

数据集主要收录NASDQ-100指数,及其成分股,在2016下半年到2017上半年以分钟为单位的股价数据。

  • 下载地址:https://cseweb.ucsd.edu/~yaq007/nasdaq100.zip

  • 文件名nasdaq100,里面有三个文件夹构成,分别是full,small,extended,代表三个数据集

  • 数据特征

    • Close(收盘价):该分钟内股票的最后交易价格。
    • High(最高价):该分钟内股票的最高交易价格。
    • Low(最低价):该分钟内股票的最低交易价格。
    • Open(开盘价):该分钟内股票的开盘交易价格。
    • Volume(成交量):该分钟内股票的交易数量。
      注:单个股票每日文件记录以上特征数据(separate), 多个股票的多日数据文件仅记录每分钟的收盘价(Close Price)

1.1 full文件夹

其为完整的NASDAQ 100数据集

  • 包含纳斯达克旗下104家公司的股价和纳斯达克100指数值。数据采集频率为一分钟。该数据涵盖时间段为:2016年7月26日至2017年4月28日,共191天。

  • 含3个文件:

  • full_non_padding.csv

    • 数据shape为(74501, 105) , non_padding代表有缺失值且未填充
    • shape为(74501, 105)
  • separate文件夹

    • stock_data_GOOGLE文件夹

      • 每个文件为单个股票走势,按 “天为单位 (per day)”分割文件

      • 里面每个文件包含单个股票每天从开盘到收盘的391个数据样本(即391分钟)

      • 其中纳斯达克指数有390个数据样本。各个公司多一个起始数据样本(多一分钟)

      • Columns 即每个股票的特征包括 = “index, date, close, high, low, open, volume”.

        • 文件中的列 = “指数、日期、收盘价、最高价、最低价、开盘价、成交量”。
      • November 25, 2016这一天包含210个数据样本

  • stock_name.txt

    • 包含所含股票样本的名字缩写
  • 注意事项:

    由于 Shire PLC (SHPG) 取代了 Linear Technology (LLTC),因此 Linear Technology (LLTC) 仅有 157 天的数据,成为 NASDAQ100 指数中的成分股。文件 full_non_padding.csv 中的 LLTC 收盘价在 158 天后被标记为 0。

1.2 small文件夹

small版是上一个完整版的子集。它包括从 2016 年 7 月 26 日到 2016 年 12 月 22 日的 105 天的数据,数据量约为full的60%。

每天包含 390 个数据点;11 月 25 日仅有210 个数据点; 12 月 22 日仅有 180 个数据点。

纳斯达克 100 指数中的一些公司未包含在该数据集中,因为它们有太多缺失数据。该数据集中共有 81 家主要公司,我们使用线性插值来插入缺失数据, 即padding。

  • 包含两个文件:
  • nasdaq100_padding.csv

    • shape 为 (40560,82),其中前81个特征是不同股票,第82个特征是纳斯达克指数

    • 通常,前 35,100 个数据点用作训练集,接下来的 2,730 个数据点用作验证集。最后 2,730 个数据点用作测试集

  • small_stock_name.txt

    • 该子集的股票(公司)名

1.3 extented文件夹

采集了新加入纳斯达克100指数的10家公司的股价,该数据涵盖的时间范围为2017年3月29日至2017年4月28日,共计23天,数据采集频率仍为一分钟。

  • 包含3个文件:
  • separate文件夹

    • 每家公司每天的股票价格

    • Columns 即每个股票的特征包括 = “index, date, close, high, low, open, volume”.

      • 文件中的列 = “指数、日期、收盘价、最高价、最低价、开盘价、成交量”。
  • extended_non_padding.csv

    • 将separate文件夹下的单个特征“close price特征”合并到一个文件中

    • shape 为 (8993, 10)

    • 通常,前 35,100 个数据点用作训练集,接下来的 2,730 个数据点用作验证集。最后 2,730 个数据点用作测试集

    • 该子集的股票(公司)名:“CTAS, GOOG, HAS, HOLX, IDXX, JBHT, KLAC, LILA, LILAK, SHPG”

2.数据样本

2.1 extended

样本即不同公司股票,extended数据集为10个公司:

1.CTAS - Cintas Corporation - 辛塔斯公司 - 主要从事公司制服及劳保用品等的生产与销售。
2.GOOG - Alphabet Inc. Class C - 谷歌公司C类股票 - Alphabet Inc. 是Google母公司,涉及互联网、科技和其他业务领域。
3.HAS - Hasbro, Inc. - 孩之宝公司 - 主要生产玩具、游戏、电影及媒体相关产品。
4.HOLX - Hologic, Inc. - 豪洛捷公司 - 提供医疗诊断、成像系统、外科产品等医疗服务。
5.IDXX - IDEXX Laboratories, Inc. - 爱迪迅实验室公司 - 提供兽医诊断和水质检测产品与服务。
6.JBHT - J.B. Hunt Transport Services, Inc. - J.B.亨特运输服务公司 - 主要提供陆路运输、物流和配送服务。
7.KLAC - KLA Corporation - 凯美拉公司 - 半导体行业的制造设备供应商。
8.LILA - Liberty Latin America Ltd. Class A - 自由拉丁美洲有限公司A类股票 - 提供电信服务和娱乐内容的公司。
9.LILAK - Liberty Latin America Ltd. Class C - 自由拉丁美洲有限公司C类股票 - 同样提供电信服务和娱乐内容的公司。
10.SHPG - Shire plc - 赛尔公司 - 生物医药公司,主要从事罕见疾病药物的研发与销售。

2.2 full & small

  • full有105个股票走势,最后一个为纳斯达克指数

  • small为缩小版有其中81个走势,最后一个也是纳斯达克指数

0. AAL - American Airlines Group Inc. - 美国航空集团 - 航空运输
1. AAPL - Apple Inc. - 苹果公司 - 科技
2. ADBE - Adobe Inc. - Adobe公司 - 软件与服务
3. ADI - Analog Devices, Inc. - 亚迪达斯 - 半导体
4. ADP - Automatic Data Processing, Inc. - 自动数据处理公司 - 人力资源与支付处理
5. ADSK - Autodesk, Inc. - Autodesk公司 - 软件与服务
6. AKAM - Akamai Technologies, Inc. - 阿卡迈技术公司 - 互联网服务
7. ALXN - Alexion Pharmaceuticals, Inc. - 亚历克森制药公司 - 生物技术
8. AMAT - Applied Materials, Inc. - 应用材料公司 - 半导体
9. AMGN - Amgen Inc. - 安进公司 - 生物技术
10. AMZN - Amazon.com, Inc. - 亚马逊公司 - 电子商务与云计算
11. ATVI - Activision Blizzard, Inc. - 暴雪娱乐公司 - 娱乐软件
12. AVGO - Broadcom Inc. - 博通公司 - 半导体
13. BBBY - Bed Bath & Beyond Inc. - 床浴及超过公司 - 零售
14. BIDU - Baidu, Inc. - 百度公司 - 互联网服务
15. BIIB - Biogen Inc. - 生物基因公司 - 生物技术
16. BMRN - BioMarin Pharmaceutical Inc. - 拜玛林制药公司 - 生物技术
17. CA - CA Technologies - CA科技公司 - 软件与服务
18. CELG - Celgene Corporation - 赛尔康公司 - 生物技术
19. CERN - Cerner Corporation - 赛诺菲公司 - 医疗信息技术
20. CHKP - Check Point Software Technologies Ltd. - 查士丁点软件科技有限公司 - 网络安全
21. CHTR - Charter Communications, Inc. - 电信公司 - 电信
22. CMCSA - Comcast Corporation - 通讯公司 - 电信
23. COST - Costco Wholesale Corporation - 好市多公司 - 零售
24. CSCO - Cisco Systems, Inc. - 思科公司 - 网络设备
25. CSX - CSX Corporation - CSX公司 - 铁路运输
26. CTRP - Ctrip.com International, Ltd. - 携程旅行网 - 旅游服务
27. CTSH - Cognizant Technology Solutions Corporation - 高科技服务公司 - 信息技术服务
28. CTXS - Citrix Systems, Inc. - Citrix系统公司 - 软件与服务
29. DISCA - Discovery, Inc. - 探索传媒公司 - 媒体与娱乐
30. DISCK - Discovery, Inc. - 探索传媒公司 - 媒体与娱乐
31. DISH - DISH Network Corporation - DISH网络公司 - 电信
32. DLTR - Dollar Tree, Inc. - Dollar Tree公司 - 零售
33. EA - Electronic Arts Inc. - 电子艺界公司 - 娱乐软件
34. EBAY - eBay Inc. - 电子湾公司 - 电子商务
35. ESRX - Express Scripts Holding Company - 适用于管理的公司 - 医疗保健
36. EXPE - Expedia Group, Inc. - 途家公司 - 旅游服务
37. FAST - Fastenal Company - Fastenal公司 - 工业
38. FB - Meta Platforms, Inc. - Facebook公司 - 社交媒体
39. FISV - Fiserv, Inc. - 财务服务公司 - 金融技术
40. FOX - Fox Corporation - 福克斯公司 - 媒体与娱乐
41. FOXA - Fox Corporation - 福克斯公司 - 媒体与娱乐
42. GILD - Gilead Sciences, Inc. - 吉利德科学公司 - 生物技术
43. GOOGL - Alphabet Inc. - 谷歌公司 - 互联网服务
44. HSIC - Henry Schein, Inc. - 亨利·希恩公司 - 医疗设备
45. ILMN - Illumina, Inc. - 伊尔米纳公司 - 生物技术
46. INCY - Incyte Corporation - 依诺西公司 - 生物技术
47. INTC - Intel Corporation - 英特尔公司 - 半导体
48. INTU - Intuit Inc. - Intuit公司 - 软件与服务
49. ISRG - Intuitive Surgical, Inc. - 直觉外科公司 - 医疗设备50. JD - 京东公司 - JD.com, Inc. - 电子商务
51. KHC - 卡夫亨氏公司 - The Kraft Heinz Company - 食品与饮料
52. LBTYA - 自由媒体公司 - Liberty Global plc - 电信
53. LBTYK - 自由媒体公司 - Liberty Global plc - 电信
54. LLTC - 线性技术公司 - Linear Technology Corporation - 半导体
55. LRCX - 拉姆研究公司 - Lam Research Corporation - 半导体设备
56. LVNTA - 纽约富国集团公司 - Liberty Ventures - 投资管理
57. MAR - 万豪国际公司 - Marriott International, Inc. - 酒店与度假村
58. MAT - 玛莎荷铁路公司 - Mattel, Inc. - 消费品
59. MCHP - 微芯科技公司 - Microchip Technology Inc. - 半导体
60. MDLZ - 摩根道森公司 - Mondelez International, Inc. - 食品与饮料
61. MNST - 怪兽饮料公司 - Monster Beverage Corporation - 食品与饮料
62. MSFT - 微软公司 - Microsoft Corporation - 科技
63. MU - 美光科技公司 - Micron Technology, Inc. - 半导体
64. MXIM - 马克斯姆集成产品公司 - Maxim Integrated Products, Inc. - 半导体
65. MYL - 迈兰公司 - Mylan N.V. - 医药品
66. NCLH - 挪威游轮公司 - Norwegian Cruise Line Holdings Ltd. - 旅游服务
67. NFLX - 网飞公司 - Netflix, Inc. - 媒体与娱乐
68. NTAP - 网络设备公司 - NetApp, Inc. - 数据存储
69. NTES - 网易公司 - NetEase, Inc. - 互联网服务
70. NVDA - 英伟达公司 - NVIDIA Corporation - 半导体
71. NXPI - 恩智浦公司 - NXP Semiconductors N.V. - 半导体
72. ORLY - 奥莱利汽车配件公司 - O'Reilly Automotive, Inc. - 汽车零配件
73. PAYX - Paychex公司 - Paychex, Inc. - 金融技术
74. PCAR - 皮卡公司 - PACCAR Inc - 汽车制造
75. PCLN - 普利司通公司 - The Priceline Group Inc. - 旅游服务
76. PYPL - PayPal公司 - PayPal Holdings, Inc. - 金融技术
77. QCOM - 高通公司 - QUALCOMM Incorporated - 半导体
78. QVCA - 资本保持公司 - Qurate Retail, Inc. - 零售
79. REGN - 雷根纳公司 - Regeneron Pharmaceuticals, Inc. - 生物技术
80. ROST - 罗斯商店公司 - Ross Stores, Inc. - 零售
81. SBAC - 锁带通信公司 - SBA Communications Corporation - 电信
82. SBUX - 星巴克公司 - Starbucks Corporation - 餐饮
83. SIRI - Sirius XM公司 - Sirius XM Holdings Inc. - 媒体与娱乐
84. SRCL - 斯特林利公司 - Stericycle, Inc. - 商业服务
85. STX - 希捷科技公司 - Seagate Technology Holdings plc - 数据存储
86. SWKS - 太平洋威尔公司 - Skyworks Solutions, Inc. - 半导体
87. SYMC - 赛门铁克公司 - Symantec Corporation - 软件与服务
88. TMUS - T-Mobile公司 - T-Mobile US, Inc. - 电信
89. TRIP - 猫途鹰旅行网公司 - TripAdvisor, Inc. - 旅游服务
90. TSCO - 特斯科公司 - Tractor Supply Company - 零售
91. TSLA - 特斯拉公司 - Tesla, Inc. - 汽车制造
92. TXN - 德州仪器公司 - Texas Instruments Incorporated - 半导体
93. ULTA - Ulta美容公司 - Ulta Beauty, Inc. - 零售
94. VIAB - 威雅士通讯公司 - ViacomCBS Inc. - 媒体与娱乐
95. VOD - 沃达丰集团 - Vodafone Group Plc - 电信
96. VRSK - 维斯塔公司 - Verisk Analytics, Inc. - 数据分析
97. VRTX - 甲虫公司 - Vertex Pharmaceuticals Incorporated - 生物技术
98. WBA - Walgreens Boots Alliance公司 - Walgreens Boots Alliance, Inc. - 零售
99. WDC - 西部数据公司 - Western Digital Corporation - 数据存储
100. WFM - Whole Foods Market公司 - Whole Foods Market, Inc. - 食品与饮料
101. XLNX - 赛灵思公司 - Xilinx, Inc. - 半导体
102. YHOO - 雅虎公司 - Yahoo Inc. - 互联网服务
103. XRAY - 迈迪逊公司 - Dentsply Sirona Inc. - 医疗设备
104. NDX - 纳斯达克100指数 - Nasdaq-100 Index - 指数
  1. 特征分析

3.1 重复特征

这里 40.Fox & 41.FoxA 实际是同一家公司发行的不同类别股票,即福克斯公司(Fox Corporation),一般发生在公司分拆或重组后。FoxA代表Fox Corporation Class A股票,而Fox代表Fox Corporation Class B股票。

同样的还: 有(29.DISCA & 30.DISCK) (52. LBTYA & 53. LBTYK )

Reference

  • A case: https://chandlerzuo.github.io/blog/2017/11/darnn

  • 数据集: https://cseweb.ucsd.edu/~yaq007/NASDAQ100_stock_data.html

  • 论文: https://arxiv.org/abs/1704.02971

    “A Dual-Stage Attention-Based Recurrent Neural Network for Time Series Prediction” IJCAI, 2017

    Code: https://github.com/Seanny123/da-rnn

相关文章:

  • 【java11】java11新特性之嵌套类
  • 打造无障碍网络体验:Edge 浏览器代理服务器设置指南
  • 【Unity实战篇 】 | Unity实现UGUI颜色渐变,支持透明渐变
  • 星舰第四次发射:历史性的一步
  • 入坑必看的几个嵌入式方向热点问题
  • Memory测试工具-stressapptest详解
  • 国内科技企业和机构发力AI研发,50余篇论文入选顶会ICML2024
  • 计数排序(排序终篇)
  • 人工智能在肿瘤预后预测中的最新研究进展|顶刊精析·24-06-07
  • 单节点离线部署TiDB 6.1用于测试
  • 使用AppJail配置网络并创建tiny jail(未成功)
  • 自己实现一个Feign
  • 政府绩效考核第三方评估的含义
  • Scala学习笔记10: 特质
  • C++设计模式-中介者模式,游戏对象之间的碰撞检测
  • 《网管员必读——网络组建》(第2版)电子课件下载
  • angular2开源库收集
  • extjs4学习之配置
  • HTTP 简介
  • iOS仿今日头条、壁纸应用、筛选分类、三方微博、颜色填充等源码
  • iOS筛选菜单、分段选择器、导航栏、悬浮窗、转场动画、启动视频等源码
  • Js实现点击查看全文(类似今日头条、知乎日报效果)
  • MySQL常见的两种存储引擎:MyISAM与InnoDB的爱恨情仇
  • PV统计优化设计
  • vue--为什么data属性必须是一个函数
  • 编写符合Python风格的对象
  • 技术攻略】php设计模式(一):简介及创建型模式
  • 开放才能进步!Angular和Wijmo一起走过的日子
  • 如何优雅的使用vue+Dcloud(Hbuild)开发混合app
  • 提醒我喝水chrome插件开发指南
  • 项目管理碎碎念系列之一:干系人管理
  • 怎么将电脑中的声音录制成WAV格式
  • const的用法,特别是用在函数前面与后面的区别
  • elasticsearch-head插件安装
  • Hibernate主键生成策略及选择
  • Play Store发现SimBad恶意软件,1.5亿Android用户成受害者 ...
  • puppet连载22:define用法
  • 微龛半导体获数千万Pre-A轮融资,投资方为国中创投 ...
  • 曜石科技宣布获得千万级天使轮投资,全方面布局电竞产业链 ...
  • ​2021半年盘点,不想你错过的重磅新书
  • !!Dom4j 学习笔记
  • #define MODIFY_REG(REG, CLEARMASK, SETMASK)
  • (2/2) 为了理解 UWP 的启动流程,我从零开始创建了一个 UWP 程序
  • (zz)子曾经曰过:先有司,赦小过,举贤才
  • (二)换源+apt-get基础配置+搜狗拼音
  • (附源码)springboot 房产中介系统 毕业设计 312341
  • (附源码)springboot掌上博客系统 毕业设计063131
  • (七)理解angular中的module和injector,即依赖注入
  • (四)Linux Shell编程——输入输出重定向
  • (中等) HDU 4370 0 or 1,建模+Dijkstra。
  • .“空心村”成因分析及解决对策122344
  • .NET Framework 4.6.2改进了WPF和安全性
  • .Net IE10 _doPostBack 未定义
  • .net打印*三角形
  • .net企业级架构实战之7——Spring.net整合Asp.net mvc