作者:蓝京,商业银行数据分析师
1、 本文简介
本文以处理A股财务报表为例,介绍了将数据转换成时间序列后在进行处理的一些方法和思路。将会用到xts,lapply,do.call等数据结构和函数。
我们从各个途径获得了个股的财务报表原始数据后,还需要对数据做一些处理,以便后续指标计算和使用。举个简单的例子,个股发布的利润表和现金流量表,在年内各个季度值都是累计值,不方便环比比较,所以我们现在想把它们全部都处理成当季实际发生额。对于这样的数据,无论是SQL还是R,Python里面传统的数据结构,实现起来都是要费一番功夫进行数据处理的。但是如果使用了时间序列的方法,再结合一些R语言自带的语法结构,只需要短短几行代码,就能完成复杂的数据清洗。
2、 原始数据
原始文件我已经整理好了,记录了*万科*,*国农科技*,*世纪星源*和*深振业A*这四只股票从2014年一季度到2017年三季度,利润表里“营业总收入”的数据(单位:万元)。每只个股有15条记录,合计60行数据。数据结构如下:
## 'data.frame': 60 obs. of 3 variables:
## $ 季度 : chr "2017-09-30" "2017-06-30" ...
## $ 名称 : chr "万科" "万科" "万科" "万科" ...
## $ 营业总收入: int 11710050 6981048 1858923 ...
以万科为例,具体内容如下:
data[data$名称=="万科",]## 季度 名称 营业总收入## 1 2017-09-30 万科 11710050## 2 2017-06-30 万科 6981048## 3 2017-03-31 万科 1858923## 4 2016-12-31 万科 24047724## 5 2016-09-30 万科 11705480## 6 2016-06-30 万科 7479529## 7 2016-03-31 万科 1461131## 8 2015-12-31 万科 19554913## 9 2015-09-30 万科 7959621## 10 2015-06-30 万科 5026680## 11 2015-03-31 万科 889434## 12 2014-12-31 万科 14638800## 13 2014-09-30 万科 6313959## 14 2014-06-30 万科 4096190## 15 2014-03-31 万科 949722
我们看到,每只个股按照时间倒序排列,营业总收入是一个累计值。比如,表中显示万科在2017年3季度的营业收入为11710050(万元),2季度的营业收入为6981048(万元),那么万科2017年3季度的营业收入世纪发生额为11710050-6981048=4729002 万元。我们的目的是在原始数据的基础之上,再加一列,把单季度的发生额加在后面。
3、处理过程
3.1、数据切分
原始数据里有4只股票,他们的数据结构是一致的,处理方法也一致,为了方便处理,把原始数据从数据框切成列表。在dataframe上使用split,可以将dataframe按照指定的条件切成一个个列表。示例如下:
data<-split(data,data$名称)
#数据类型class(data)
## [1] "list"
#列表名称names(data)
## [1] "国农科技" "深振业A" "世纪星源" "万科"
# 第一个列表内容data[[1]]
## 季度 名称 营业总收入## 16 2017-09-30 国农科技 7100
## 17 2017-06-30 国农科技 2929## 18