由上海交通大学、新加坡国立大学、武汉大学等高校联合组成的研究团队提出了检测样本外会计欺诈的新视角与新办法。他们发现输入原始会计数据作为预测因子的逻辑回归要优于传统的输入财务比率数据的逻辑回归。该团队所使用的集成学习(ensemblelearningmethod)方法也更适合以原始数据作为输入数据。总的来说,结果表明,现有的欺诈预测模型没有充分利用公开的财务报表数据的信息。此外,通过采用更好的欺诈预测模型来提取这些有用的信息是可能的,而这些模型依赖于原始的会计数据,而不是以财务比率作为模型输入。以下来自《DetectingAccountingFraudsinPubliclyTradedU.S.Firms:NewPerspectiveandNewMethod》
Part1绪论
本研究是为了开发一个新的会计欺诈预测模型,所用样本为美国上市公司现成的财务报表数据,并只使用财务数据作为输入。相较于已有的会计欺诈研究,该研究着重于样本外会计欺诈问题的发现(如欺诈预测)。
该实验使用的方法有别于现存的两种类型的基准模型。首先,作为一种探索性的分析,我们直接使用财务报表中的原始会计数据项来预测舞弊。其次,我们使用集成学习来预测舞弊。
为了比较不同的欺诈检测模型的样本外性能,我们采用了两个不同的性能评价指标。首先,我们使用观测者操作特性曲线(ROC)或AUC下的面积作为绩效评价指标。AUC等价于一个分类器对一个随机选择的舞弊观测值的排序高于一个随机选择的非舞弊观测值的概率,其随机猜测的AUC为0.50,因此任何合理的舞弊检测模型的AUC都必须高于0.50。本实验采用的另一种通常用于对问题进行排序的性能评估指标,即k(NDCG
k)位置的标准化折现累积收益。直观地说,NDCGk通过挑选测试年度中具有最高舞弊预测概率的k个最高观测值来识别真正的舞弊。本研究选择k=前1%的观察值的数量。我们选择了1%的下限,因为美国证券交易委员会AAERs批准的会计欺诈的平均频率通常低于每年1%。我们发现,在预测样本外舞弊方面,原始会计数据比专家鉴定的财务比率更有用。此外,我们基于24个原始会计数据项的简单逻辑回归的AUC性能略高于Cecchini等人基于同样24个原始会计数据的更高级更复杂的SVM-FK方法的性能。这些结果表明基于财务比率的舞弊预测方法没有充分利用原始会计数据中的信息。然而,使用第二个性能评估指标NDCG
k,我们发现基于24个原始会计数据项的逻辑回归模型与两种基准模型的性能没有显著差异。Part2因果推理与预测:一个统一的框架
因果推理和预测是两个根本不同的问题。因果推理的目的是利用统计工具来检验因果关系。相反,预测的目的是将统计模型或数据挖掘算法应用于数据,以预测新的观测结果。
因果推理和预测之间的区别有几个重要的含义。首先,因果推理强调回归系数的无偏性,而预测可能会故意增加回归系数的偏倚,以最小化样本外预测误差。因此,为了预测的目的,一个“错误的”模型可以比一个正确指定的模型预测得更好。
第二,因果建模要求输入的f是一个因果关系函数,而预测建模只需要x和y之间关联,也就是说,一个输入变量,并不是因果关系(例如,原始会计数据项可能没有明显的经济解释)可以包含在一个预测模型。这一见解在我们的环境中很重要,因为会计文献中之前的大多数欺诈预测模型都是由强调因果关系的经济或行为理论驱动的。
第三,对于因果推理和预测问题,f的选择可能不同。
曾有人指出,大多数社会科学研究只