法学探讨
您当前的位置:首页>>法院文化>>法学探讨

让数据发声:司法领域大数据应用效用前瞻

发布时间: 2020-10-20 20:28      信息来源:      阅读次数: 9110

“当数据处理技术已经发生了翻天覆地的变化时,在大数据时代进行抽样分析就像在汽车时代骑马一样。”

——《大数据时代》

 

引  言

大数据时代,生效裁判文书上网公开,使公众对司法数据的透彻解读成为可能。与商业领域大数据技术“飞入寻常百姓家”的局面不同,司法领域的大数据还“养在深闺人未识”,远未被有效地开发利用,令这笔巨大资源的拥有者——全国三千多个法院在数据的沉睡中变成了一个个信息孤岛。

民间对司法数据的挖掘和利用箭在弦上,对司法部门形成严峻的倒逼形势。北京律协召开大数据专题研讨会,对司法数据资源启动律师视角的大数据技术解读; 以天同律师事务所 为缩影的一大批新锐律所已率先投身实践,成立诉讼技术研发中心,投入大量人力财力,运用Hypergraph、etcML、import.io等先进的大数据分析工具,对裁判文书等司法数据进行深入地分析和解构,以获取对判决倾向性的预测;另有一些媒体对各个法院的工作报告及其网上文书进行对照式研究,通过横、纵向比对,对法院工作作出社会视角的绩效评判……凡此种种,使司法系统犹如裸身于公共目光的研究之下,无处遁形,境地尴尬,十分被动。如司法系统内部不厉兵秣马、与时俱进,改革传统的数据统计利用模式,增强数据分析、解读与预测能力,可以说,很快将一步步陷入“自己不了解自己”——“别人比自己更了解自己”——“需要借助别人才能了解自己”的越来越被动的局面。届时,法院工作报告的权威性将受到挑战,在“法院的法院工作报告”之外,很可能还会出现若干份“民间的法院工作报告”。

2013年,周强院长在全国法院第四次司法统计工作会议上提“大数据、大格局、大服务”理念,强调将数据作为司法决策的重要参考,注重通过司法数据位经济社会发展提供决策参考。 今年3月,在最高院信息化建设工作领导小组2015年第一次会议上,周强院长再次强调“加强云计算和大数据技术的运用,为司法决策服务,分析把握新形势下审判执行工作的特点和规律,提高司法决策的科学性”。 将大数据思维和大数据技术应用于司法数据研究领域,让数据发声,通过司法数据的全面聚合而实现数据价值倍增,将使司法系统在发现审判规律、统一裁判尺度、提高审判管理的智慧度、提高决策科学性以及增强审判预测能力几项能力都提升到一个新高度

一、当务之急:大数据本质司法数据研究利用现状

    (一)岂止于大——大数据本质及其思维方法

大数据(Big Data)本质上就是一个体量特别巨大,数据类别众多的数据集,需要利用新型智能算法实现对关键字的抓取、管理、分析和处理。在大数据时代,“占有数据”的重要性让位于“分析利用数据”。其特点在于:

1.大——史无前例的数据研究规模

    庞大的数据一直存在,但直到“大数据思维”产生后,这些杂乱庞大的数据才作为一个整体的研究对象而存在。在大数据思维模式下,司法数据的研究对象将不再是单个法院的司法报表,而是每一个法院、每一个案件、每一个办案环节、每一份法律文书上的每一个关键字。大数据技术在人类历史上第一次实现了将前所未有数据规模作为研究对象的可能性。

2.岂止于“大”——大数据“三性”

(1)全数据性——研究全部数据而非样本。大数据研究无需取样,研究对象就是所有的数据。传统统计学之所以以样本研究为主要研究方式,是技术的制约, 大数据时代海量存储技术、并行计算技术、智能分析技术、云技术等新技术的应用解除了束缚在统计学上的枷锁,使结论更趋近真实情况。

(2)数据的复杂多样性——能够分析模糊数据,正确处理误差,不受限于精度。传统的统计分析几乎完全依赖于利用结构化查询语言(SQL语言),如法院办案系统,在这种数据库中,每一项数据都需要在指定的精确位置、以正确的格式录入,否则无法被识别更谈不上分析。大数据关注的是数据的宏观走向,通过分析规律进行趋势预测,大数据的技术可以突破数据库必须结构化的界限,而对目前的办案系统中提取不到的信息进行分析解读,而不再依赖海量的人工输入。

(3)关联性——着眼于数据间的关联性,而非因果性。人类研究活动总是以寻找因果关系为最终落脚点。然而大数据技术进行的是关联性研究,通过机器运算,寻找关键字之间的关联性,摒弃了“假设-实验-证实”的实验室思维,可以避免陷入以果寻因的思维胡同,发现人脑难以发现的潜在规律,带来“意外收获”,潜力巨大。

 

图表1. 司法数据传统研究vs大数据研究

(二)逆水停舟——司法数据研究利用现状

目前法院系统对司法数据的研究利用完全停留在大数据之前的时代,对海量数据缺乏有力整合挖掘分析和利用的能力,造成信息资源重度浪费。面对四面八方席卷而来的大数据研究冲力,司法系统在数据研究能力上并没有取得关键性的进步,如逆水停舟,不进则退。

问题一:抽样研究、局部研究,研究层次较低。抽样研究是准确度低的研究方式,是统计技术低下时代不得已的选择,在大数据时代,抽样研究弊端逐渐放大。目前无法收集和分析全部数据,且抽样研究的固有缺陷是难以进行子类别考察;另一方面局部研究为主,法院各自为政,法院之间的数据交互研究度极低,一个个法院基本上以信息孤岛的形式存在。

问题二:技术层面,研究工具落后,研究方式过于简单,研究模式固化,对数据的变通处理能力差,数据间缺少交互分析,分析研究停留在表面,忽略若干细节,研究不够深入;研究思路停留在传统统计学思路,且常常需要从结果入手,以果推因,数据分析潜力不大。

问题三:思想认识方面,重对外展示、对内管理,轻规律总结、趋势预测,尚未看到大数据应用于司法数据资源能够获得的巨大产出。

    问题四:对司法数据的研究分析总量少,利用率低,转化率低,研究力量薄弱。真正深入分析利用司法数据的力量主要还是个人研究为主,且停留在学术层面。官方主导的分析研究较少,整体而言,利用率低,产出也常常带有简单、片面、滞后的特点

    二、建模尝试:以信用卡透支纠纷为例进行大数据式分析

笔者试图通过对小范围的数据样本进行“大数据思维”解读,力图模拟大数据思维主导下、大数据技术应用下案件分析的大致过程。

(一)数据提取——大数据思维如何提取数据

本文选取了信用卡透支纠纷为建模对象,数据范围限定于G市Y区法院近七年数据,包含两部分:第一部分,抓取自法院信息管理系统,为真实数据;第二部分,囿于当下技术限制,无法抓取信息部分用根据估值进行模拟的数据,会在文中注明

 图表2. 传统司法分析数据提取vs大数据司法分析数据提取

(二)建立分析模型——大数据思维如何分析数据

笔者从执行情况及执行效果作为观察信用卡透支纠纷案件突破口,对信用卡透支纠纷现状和原因进行抽丝剥茧。在模拟建立的九个模型中,只有两个半模型可以通过传统数据技术实现,其余均需要依赖大数据技术。

1、 基本分析——通过字段抓取功能形成案件基本情况分析模

模型一:案件数量趋势、标的及结案分析模型

 

图表3. 信用卡透支执行案件数及立案标的

 

图表4.  信用卡透支执行案件立/结案标的

 

图表5.  信用卡透支执行案件结案方式

模型一为常规研究。由上三个图表可以看出,当下信用卡透支纠纷案件鲜明的两个特点:第一,宏观来看,信用卡透支欠款纠纷自2010年后呈井喷趋势,集中爆发的顶峰时期应该已经度过,但出于政策惯性等原因,总纠纷数量仍高企不下;第二,银行债权回收情况极不乐观,银行胜诉后几乎不可能得到自动履行,绝大部分案件以“颗粒无收”的结果宣告终结本次执行。

    模型二:单个案件透支数额比对模型

 

图表6. 信用卡透支纠纷执行案单案立案标的分布走势

由上图可见,近年来单个案件信用卡透支数额不断挑战新高,且分布规律逐渐被拉向大额区域。回溯到图表3,2014年信用卡透支纠纷案件数量大幅回落了近38%的情况下,银行被透支欠款的债务总额才下降了不到19%,症结就在于单案透支情况越来越恶劣。

模型三:原告/申请执行人研究

 

图表7. 某地信用卡透支纠纷在各大银行的分布情况(根据估值模拟)

本项数据为模拟数据,原因是受地域管辖的影响,某个基层法院只管辖部分银行案件,故来自基层法院的此项数据意义较小。故采用全局模拟数据(至少是全市以上的数据量才有价值),并对银行进行隐名处理。根据这项分析,可以掌握不同银行产生纠纷案件数量以及坏账情况,据此可以发送颇具针对性的司法建议。

2.深度分析——通过词频检索及关联性分析功能形成案件特殊分析模型

词频及关联性检索分析是应用大数据分析工具对数据仓库里该类案件所有相关诉讼文书进行词频检索,并与其他案件类型的大数据库进行词频比较,将词频极高的关键词或关联度极高的一组关键词筛选出来,提供给分析者进行深入研究。在信用卡透支纠纷中,可能从如下几个角度分析。

模型四:被告/被执行人研究

笔者在翻阅信用卡透支纠纷判决书时发现关于持卡人的两个规律:第一,大部分欠款持卡人为外地持卡人,且大部分是乡、镇、村甚至偏远的少数民族地区持卡人,属于本地城市人口的欠款持卡人是少数;第二,大额透支以城市持卡人为主,10万元以下的小额透支以乡镇村的持卡人为主。推测其原因,城市居民在社保金、生活消费、工资领取、房贷车贷、医疗教育等诸多方面不可能与信用绝缘,不大可能为了小额的欠款使自己进入银行征信记录黑名单,而大额透支主要经商失败资金链断裂导致。由于无法抓取具体数字,此项数据为模拟数据。仅提供笔者前期研究思路及原因预测,具体情况有待大数据技术辅佐验证。据此,可以向银行提供定向明确的信用卡发卡及授信的风险控制建议。

 

图表8. 城乡分布及透支额度点阵图(根据估值模拟)

模型五:被告/被执行人到庭情况研究

此部分数据数,来源于审判部门的估值谨慎起见,笔者仍将其称之为模拟数据。以下两个阶段的分析,被告人、被执行人到庭情况都很差,越是不到庭的案件,当事人之间的矛盾越难以弥合, 执行难度更大。据此分析,如此大规模的被告人缺席被执行人下落不比率,说明银行在选择授信对象时不够审慎,信用卡透支坏账此而来

 

图表9. 审判阶段被告人缺席情况(根据估值模拟)

 

图表10. 执行阶段被执行人下落情况(根据估值模拟)

模型六:诉讼结果分析模型

对某一类型案件的诉讼结果进行分析意义重大。使用现在的司法统计工具法院信息管理系统,无法提取到诉讼结果信息,分析原告胜诉率只能靠手工逐个打开判决书看判决结果,但案件一多了就无法操作。使用大数据技术可以实现对诉讼结果的分析,服务于审判预测。目前这项分析研究颇受民间关注,如天同律师事务所设立的天同诉讼技术研发中心及“无讼”等智能手机app不但实现了对某种类型的案件进行诉讼结果的统计分析,还可以定向分析某个法院、某个法官的判决倾向。信用卡透支纠纷这一类型的判决结果呈现出鲜明的一边倒特点,即基本为原告银行胜诉。由于笔者无法靠人力抽取准确数字,故使用模拟数字制图如下:

 

图表11. 诉讼结果分析模型(根据估值模拟)

模型七:法院强制执行情况分析模型

法院进行了哪些强制执行措施,是考察法院在执行阶段是否尽责的重要依据。某一类案件,虽然执行到位率极底,但法院却已采取了目前可能采取的手段,那么就不能将债权回收率差的问题认为是法院的责任。目前数据检索工具无法进行统计分析,只能手动逐案查看,故采用根据估值进行模拟的数据。

 

图表12. 强制执行情况分析(根据估值模拟)

模型八:起诉密集度模型

信用卡透支纠纷案在起诉方面有一个特点:虽然每个案件都是独立案情,却像批量案一样出现某一日期集中收案的情况。笔者选取了两间银行,都存在集中立案情况。A'银行在8月27日及10月16日两天立案数量已经达到了全年起诉数量的76.8%;B'银行则更为夸张,全年只在10月15日来院立案,一次性将全年29件案全部立完。

研究目的:一、若发现集中立案情况严重,可能说明银行在债权回收职权行使上有所懈怠,可提出针对性的司法建议;二、法院可以按照该历年来的立案风格作出预测,提前调节,在集中立案的时间节点增派立案登记人手等。

 

图表13.  A'银行起诉密集度示意图(2014年全年数据)

  

图表14.  B'银行起诉密集度示意图(2014年全年数据)

3.延伸分析——其他关联信息检索

模型九:关联形势及政策研究模型

关联形势及政策研究模型主要用于背景分析,其意义:一是原因判断;二是收案预测。目前对这一部分研究的应用状况是:有应用,利用效果不好,利用率较低。且如果缺乏专业背景和时政关注度,对关联形势及政策的研究往往难以切中要害。建议在大数据技术下,统一制作类别化的分析模型,抓取关联的重要政策文件及形势数字,以供案件情况的分析。

如信用卡透支纠纷案件的井喷式增长与国家快速推广信用卡的战略息息相关。笔者抓取了中国人民银行自2008年至2014年每年四期的《支付体系运行总体情况》 中公布的三组共21个数字做成以下两图,可得:(1)原因判断方面:全国信用卡发卡量、授信总额度逐年增加;有偿债风险的透支债务大幅上升;通过下面第一个图的柱状图及折线图进行比对发现,授信总额度增长率远超发卡量,说明在有偿债风险的透支债务大幅上升的情形之下,不但不加强风控严格控制授信规模,反而对单张卡的授信额度进行了大幅提升。这就印证并解释了模型一、模型二的现象,也就是为什么收案数大幅回落但立案标的减幅有限,以及为什么单案立案标的逐年趋高分布。(2)预测方面:由于法院收案会出现一段时间的滞后,未来几年此类纠纷数量可能仍然会很多。

 

图表15. 央行发布信用卡发卡总量及授信总额度分部趋势图

 

 

图表16.  央行发布信用卡逾期半年未偿信贷额度趋势图

  三、模拟输出:大数据对信用卡透支纠纷案件进行分析的效用前瞻

    输出成果一:案件原因透析——解密“执行难”,为法院“正名”

 

图表17. 几个影响法院执行效果的因素

案件“执行难”是一个普遍存在的问题,信用卡透支纠纷的执行到位率更是差无可差。社会舆论习惯性地将执行难的问题归因于法院,媒体连篇累牍的报道习惯将执行难归责于法院“管判、不管执”,并称之为打“司法白条”;在法院接受人大代表质询的时候,也常常受到来自于执行不力方面的指责与要求。然而法院只是负责帮助胜诉方追讨债务的国家强制机关,而不是胜诉方的提款机——假若进入法院大门的案件本身就是“死案”(如被执行人失联、去世、被执行公司破产等),则法院无论如何作为,都终将无力挽回。“进入执行程序的案件质量不好,由此导致执行效果不好,这是中国法院执行的核心问题。”

根据前文分析,信用卡透支纠纷案件的井喷式增长是信用卡快速推广期的副产品。银行采用重业务推广、轻风险控制的宽松发卡战略,对申请人资质审核不严,导致80%-96%的持卡人在诉讼和执行阶段下落不明。银行发卡授信之时对持卡人的信用考察严重不到位,才是银行债权回收执行难的最大原因,根本不在法院。

    输出成果二:工作细节的改进建议——让“失联”被告人“复联”的可行方法

被告与被执行人缺席的现象既不利于查明,又不利于对当事人权益的保护,还使法院的执行过程受阻。经前文分析,有一部分联络失效而下落不明、缺席审判的“失联被告人”,到了执行阶段反而现身,这部分“失而复联”的当事人并非真正的逃废债务者,主要原因往往是这类人流动性很强,通讯号码、住址及就业地等信息更换频繁,导致其在银行初始登记的各种信息失效所致。法院内部是否有方法可以在庭审前就与这些联络信息失效导致缺席审判的人员取得联系呢?笔者认为需要借鉴执行阶段的做法——与其他可任意变更的信息相比,身份证号是每个公民不可更改的唯一标识码,在执行阶段,一种重要的找人方法是通过身份证号信息对被执行人的不动产、车辆及银行存款进行查封、冻结等操作,“倒逼”被执行人出现。笔者认为,在暂无更强送达途径的当下,可尝试在一审常规送达无效、公告送达之时,增加一项举措,使用被告身份证号查询其在银行的开户情况,只要是被告本人的活跃账户,就应该会在相应的开户行留有最新最真实的联络方式。

     输出成果三:外部解困策略——以信用保信用,以信用促执行

虽然前文说道,只要法院恪尽职守,以目前最大的能力穷尽执行措施即可不再背负道义上的责任,但法院是否还有增强强制执行力的空间?答案是有,而且非常大,但问题是这个空间恰恰不在法院内部。

制约法院强制执行力发威的现实问题:第一,不动产、车辆等的登记信息各地各自为政,远没有形成统一查询途径;第二,即便有这样一个查询途径,如央行的征信系统有全国的银行数据,也未向法院系统授权开放。第三,异地执行的问题,虽然最高院规定异地委托执行受托法院不得无故拒绝,但实际委托执行效果非常不好,尤其是涉及找人、抓人、搜人问题,更是不能指望。后果就是,法院查找财产线索的力量微弱,如同在黑暗的海洋中手持一柄蜡烛四处摸索。比如对不动产的查询,只能查到本市登记信息,被执行人在外地的不动产,除非有非常明确的线索指向,否则无法去每个地市查找被执行人的不动产;再如存款查询更为艰难,法院只能依靠向本地区每一间银行发送协执文书的方法查找每一个被执行人在这间银行、且是本地的开户情况,摸一块石头过一点河。但我国商业银行有上百家,还有上千家村镇银行、农村信用社等,不可能逐一跑遍,可以说目前法院对财产查找是一种有限的查找,目前几大系统开放给法院的数据边界即法院的能力边界。 

解决问题最根本的方法必须回到社会信用体系的建设上来,失信被执行人名单制度本质上就是发挥部分的信用制约作用这远非法院内部可以自行解决的问题。但唯有建立信用机制,使持卡人的行为处处受到信用制约,不敢随意逃废债务,才能保护银行的信用贷款;也唯有建立全面的信用机制,并信任地给予法院使用信用档案才能真正使法院突破目前的执行困境。

    输出成果四:审判预测——收案趋势、审执结果、舆情分析

    第一,收案数量方面的预测。根据模型一的研究结果,信用卡透支纠纷在未来一到两年应该还居高位运行。第二,审判结果及执行效果方面的预测。根据模型一和模型六的分析,审判结果仍然以银行胜诉率极高,但执行到位率极低的情况出现。第三,可对收案规律进行预测,如在银行集中立案高发时间段派手增援立案登记岗位等。第四,社情舆情信息预测。

    输出成果五:司法建议——为公共决策提供科学建议

    大数据时代,公共决策最重要的依据乃是数据而不是个人经验或长官意志 在我国,法院根据审判中发现的管理问题提出司法建议是法院在审判外承担的一项重要的职责。根据上文研究,可输出司法建议为:第一,要求银行加强风险控制,并根据模型四研究向银行提供有逃废债务倾向持卡人的特点;第二,根据模型八的集中立案情况,向银行提出及时、勤勉地行使债权回收职权的建议;第三,将模型三银行布的研究结果向银监会反应,要求银监会有重点地加强对部分银行的监管等。

    以上仅是笔者人脑所能想到的一些可预期的输出。人脑对词频及关联性的分析能力比之电脑,未免有挂一漏万之嫌,不能尽其可能,大数据的真正魅力还在于潜力极大,能够提供人脑根本想不到的关联,从而提供截然不同的研究思路。

四、演进之路:打通建立司法大数据的关键节点

(一)宏观层面:突破“观念的水位”

1、树立新的大数据观

大数据对我们冲击最大的就是思维方式的转变问题。 大数据让一部分互联网企业异军突起,先人一步地觉醒并挖掘出了数据潜在价值——令他们崛起的力量“不是数据,不是技术,而是思维观念。” 司法系统固然不需要做时代先锋,但也不应当闭门造车、因循守旧,而应及时认清形势,看到民间针对司法数据进行的大数据研究对法院形成严重的“倒逼态势”和紧迫性,认真了解大数据思维模式的特点,比对与目前司法统计的异同,迅速调动各方面的力量,用逆水行舟、激流勇进的姿态迎接大数据时代的挑战。重视数据、尊重数据,让数据发声

2、重新定位审判管理功能

目前的审判管理存在四个偏重:重监管多于指导,重传统指标监控多于对新现象新问题研究,重法院的整体格局多于个案类案,重既往分析多于未来预测。审判管理在大数据时代应该更多地发挥好分析审判规律、做好司法预测、提高司法决策的科学性上来,将管理能力提高到更专业、更精准、更智慧、更人性化的水平上来。

3、打通信息技术关节

推广大数据技术,解决研究能力是关键,不外乎二:一是信息处理能力,二是人才。目前的现状,有数据资源又有研究意愿的,往往没技术;有研究意愿又有技术的,往往缺乏数据资源。希望司法系统建立官方大数据司法研究中心,通过学习技术、引进人才、配置软硬件,加强与科研机关、高校的合作,如北大法制与发展研究院大数据法律研究中心等,合作开发法院今后可以独立做研究的大数据平台。

(二)微观层面

 1、新数据库的建立——在从数据库到数据仓库

大数据时代的数据库,将不仅包含传统结构化的文本信息数据库还包含包括法律文书、图片、视频、音频等各种记载着信息的海量信息数据仓库。在这个海量数据库的建立过程中笔者特别提出要注意三方面的问题:

(1)在数据的采集过程中,除了采集案件立审执各个环节各个节点的数据信息,还要注重收集判决的公众认同度、司法热点、不同社会群体司法需求、社会经济发展的形势与政策信息等

(2)注意加强平级法院之间的信息资源共享,加强法院之间、法院与公检司之间、法院与政府机关及其他组织之间的数据共享。司法大数据库是一个资源大宝库尽可能基层的司法研究人员一把宝库钥匙对数据价值的挖掘利用既要由官方领衔,又要保持基层活力,鼓励基层先跑

2、制定全国统一的司法系统数据标准

标准制定工作向来都是一项重要的基础工作。应在高层临时成立司法系统数据标准制定小组,完善司法统计指标体系,案件分类标准、案件统计标准、关键信息采集标准核心案例筛选标准以及统计规则、范围界定、分类目录、调查表式等内容进行标准化。

3、建立多样化研究模型

立足于审判实际和司法规律,针对若干种不同类型案件特点,分析、归纳、提炼出不同类型案件的研究需求设计多样化数学分析研究模型。发挥大数据分析工具在词频及关联度方面的优势,大胆进行各种尝试既做有用分析,也要做一些暂时无用或看似无用的分析,以充分激发大数据分析的潜力。

 

结  语

“数据就像一个神奇的钻石矿,它的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而绝大部分都隐藏在表面之下。” 大数据视野要求对全局数字进行分析研究,全局研究,不是简单的局域加和关系,其产生的效应将是1+1>2的。大数据在司法领域的应用,宏观层面将使最高院全方位掌握全国审判执行动态数据,改变“法院不了解法院,媒体更了解法院”的尴尬局面,以应对可能会随之而来的各种媒体诘问,更容易发现潜在规律,更科学地进行审判管理,作出合理预测;微观层面将案件涉及的各种因素进行关联度分析,透彻深刻地发现某类案件、某种问题的高发原因,属内部工作环节衔接问题的,做内部改进,属社会问题的,向相关部门作出司法建议。案件是客观存在的,问题是客观存在的,唯有立足数据、深入数据,通过扎实研究做不断地改进努力,才能容易破冰前进。

    在法院信息化建设的进程中真正引入大数据技术并非易事,而令大数据思维深入人心更是难上加难。翻遍当下以“大数据为标题学术论文仍然秉持的是“小数据”思维,只不过是将样本的取样范围扩大了而已深入理解大数据内涵,笔者建议先从研究大数据思维本质属性入手,精髓,知其长短,方能进退自若笔者在基层法院从事调研及司法统计几年时间里,深深体会了对司法数据进行深入分析研究的种种不易,期待大数据时代的光芒早日照进司法领域,为我所用


Copyright by 广州市越秀区人民法院 版权所有 粤ICP备11032249号
粤公网安备 44010402001095号
法院地址:广州市越秀区仓边路28号 邮政编码:510055