XTScore:利物浦十轮评分阶段性总结与解读
自本赛季英超第二轮利物浦对阵伯恩利赛后发布XTScore以来,靴室笑谈社团队一直在根据读者及内部成员的反馈意见对试运行模型进行微调,至约第六轮后基本稳定。感谢虎扑体育的大力支持,管理员们为我们提供了上赛季的英超数据进行统计检验,这才使XTScore的表现越来越稳健。读者对类评分式的体系必然会褒贬不一,而其中有价值的建议也是我们不断进行调整的源泉和动力。适逢国际比赛日,约定好的XTScore十轮总结在此上线,欢迎读者借鉴评分的同时,也在此适度开放一下模型部分细节,恭请参详。其实每一个读者都有自己的一杆秤,对绿茵场上的球员都有一个心目中的评分——也许有的读者认为9分才是MVP的水准但一定也会有人认为8分就可以了。同理,有人觉得6分是不及格的表现,但同样会有人认为5分才是……种种原因不一而足。每套评分都存在其不同的体系,如果一定要说相互适应的话,XTScore运行一段时间后读者自然会对它的体系有所感觉。此外,由于英超整体的数据更多地符合正态分布或泊松分布的特征,这使得对球员不同维度的表现求一均值变得较为容易,我们也可以根据不同模板、不同维度的不同分布来得到球员相对于该模板该维度期望表现的得分。当然,这里蕴含了一个强假设:我们所设的各个维度之间相互独立。这当然是一套比较简单的体系,是否可以还原球员的发挥不好说,而这也就回到“十轮总结”的意义上了。
读到这里,相信有一点概率统计基础的读者会大致明白XTScore一直强调的“期望得分”在此处的含义。6.2分可以视为“当前模板当前维度英超球员的表现均值”,因此XTScore是不能用不及格这一理论来评价的(因为你首先要告诉我什么是统计意义上的不及格)。暂时这一套体系目前运行良好,但实际上仍有一些问题没有解决,譬如在其他联赛上,或许会存在haircut,而这一参数我们却无法运用LR等方法进行估计,譬如在其他球队的评分上,可能会出现评分普遍偏低的情况,等等。但这并非当务之急,下面还请读者跟随笔者的图表,从XTScore运行的走势图,来还原利物浦1617赛季的英超开局。
ps:由于模型调整过,目前的评分和之前文章的评分存在一定差异(但都不会太大),所有球员的评分全按照第6轮之后的模型重新跑了一遍,以求模型上的一致性,第六轮之后的模型仅仅对门将和其他两组数据采集进行了修正,门将方面考虑到数据统计的天然劣势,这里增加了不失球项与传接球的处理,这样得分的参考价值更高。
一、球队平均分
可以看到,球队的净胜球与XTScore息息相关,至少以10轮这一小样本看,XTScore还是基本可以反映球队真实发挥的。可以留意到,根据XTScore,对阵伯恩利、热刺、斯旺西及曼联的比赛球队的发挥均较为一般,这其中对阵热刺的比赛两队打得较为胶着,传球失误率较高,而对阵斯旺西的比赛则大部分时间受限。在对阵曼联的比赛之后,球队的发挥正在稳步提高。
(10个数据点尚不足为凭,无聊的笔者计算XTSCore与净胜球的相关性rho=0.76,数据不供参考。)
二、球员个人表现
1、 斯图里奇vs菲尔米诺
XTScore中斯图里奇的评分一直备受争议,但无论从结果还是过程来看,斯图里奇在这套体系中都无法展现出他的真实水平,相反,菲尔米诺在大部分时间出现在他的模板下却表现正常,这进一步说明了斯图里奇当下亟需融入球队体系的问题。
XTScore的最低分为5分,目前也仅仅支持对踢满60分钟的球员评分,由于斯图里奇踢满60分钟的比赛只有五场,我们用简单的线性插值平滑了他的表现,可以看到菲尔米诺的发挥一直较为稳定,仅仅在对阵曼联的比赛中受到限制发挥一般,而斯图里奇则是每况愈下。在赛季初段对阵莱切斯特城时斯图里奇打出了赛季最佳一役,但在该场比赛低迷的脚感和传球成功率(尽管有助攻)拖累了他的得分,其余的比赛中,对阵曼联一战斯图里奇的关键数据几乎全部挂零,不得不让人感到遗憾。
笔者对斯图里奇一向青睐有加,斯图里奇可以说是英式反击体系最好的润滑剂,但同样,在目前这套体系下斯图里奇的发挥确实处处受限,从赛季初尚能在盘带次数上维持一定水准,到目前盘带、传球、射门、逼抢等环节均有回落,考虑菲尔米诺可保持稳定的发挥,斯图里奇目前承担的职责与特性不符的问题已经凸显。
菲尔米诺得分与净胜球相关性=0.68
2、 菲尔米诺vs库蒂尼奥vs马内
菲尔米诺依然是三人组中发挥最为稳定的一个,而马内则在度过适应期的起伏后,他的表现与球队的战绩相关性变得较高,库蒂尼奥则在最近的比赛中越发稳定且发挥得最为出色,且在对阵曼联和切尔西的比赛中发挥较优。
(菲尔米诺得分与净胜球相关性=68.1%;
马内得分与净胜球相关性=81.1%;
库蒂尼奥得分与净胜球相关性=81.5%。
从一个角度而言,菲尔米诺一直维持着稳定的发挥,但从另一个角度讲,他似乎还尚未打出决定比赛的表现)
3、 拉拉纳vs维纳尔杜姆vs詹vs亨德森
这四人组中,拉拉纳承担的职责并不完全等同于中场,詹和维纳尔杜姆共享另一个位置的出场时间,而亨德森则在XTScore中被认为受到了不公平待遇,然而真是如此吗?
拉拉纳的得分一直与净胜球数保持着高度的相关性,但相比于前场三人组,拉拉纳的得分更为不稳定,这有其受到伤病影响的因素在,但在中场中,拉拉纳的得分依旧是最高的。维纳尔杜姆的主力位置在受伤之后戛然而止,取而代之的是詹,由于其赶上了球队一连串的大胜,导致其得分水准远远高于维纳尔杜姆,维纳尔杜姆除了在热刺一役发挥失常外,其余的比赛不温不火,相反詹在出场的比赛中均有所斩获。
至于更为关键的亨德森,其得分并没有在中场中出现明显偏低的情形,相反,他还是四个人中更为稳定的一位。在部分对方尝试对利物浦进行前场逼抢的比赛中(对阵热刺及斯旺西),亨德森孱弱的摆脱出球能力对利物浦的进攻组织造成的影响并不小,对阵曼联的比赛全队在进攻端受限,而亨德森的得分也跌到了热刺以来的谷底。不过,较维纳尔杜姆,其得分依旧能维持在期望水准附近,而近期亨德森的表现随球队抬头趋势也较为明显。
(亨德森得分与净胜球相关性达到80.31%,拉拉纳则仅有48.3%,拉拉纳的相关性低源于伤愈复出之后不如从前出色的状态,而亨德森的发挥是否受限,也可能决定球队走势)
4、 米尔纳vs克莱因
再来看米尔纳与克莱因的表现对比,由于利物浦最近时段的强劲爆发,场面上逐渐取得压制,后卫的戏份较少,因此他们的得分也就更为贴近期望得分——不温不火的表现。
相对比克莱因,米尔纳的表现显然更加稳健,受益于点球主罚权及相较克莱因更好盘带能力的他,在整个赛季开始期基本都可稳定保持在6.2分以上,而克莱因既有对阵伯恩利的失误在先,又有高空球盯人的天然劣势,既有应对阿扎尔这一端时的优异发挥,也有对方主打边路起球时较为窘迫的情形。
5、 马蒂普vs洛夫伦
在统计样本中,洛夫伦和马蒂普共缺席5场比赛,我们采取简单的线性插值进行补齐。
马蒂普的表现比洛夫伦更为稳健,令人担忧的是洛夫伦的状态出现了一定程度的下滑。考虑到近期对阵对手不强的因素,对手以快速反击及高空球作为进攻手段,这显然是速度更快、身材更高的马蒂普更为擅长的内容,洛夫伦的发挥不如先前优异情有可原。在初期洛夫伦在对阵热刺、蓝狐以及切尔西的比赛中发挥较为出色,而马蒂普在度过这段适应期后,在对阵实力偏弱的球队中成为了球队防守中最为稳健的一环。
6、 卡里乌斯vs米尼奥莱
事实上,在被卡里乌斯取代之前,米尼奥莱的发挥是逐步走高的。而在顶替米尼奥莱出现在一号门将位之后,卡里乌斯的表现经历了一段相当低迷的时期,却在最近逐渐发挥出了自身水准。
最后,放一张大表在此:
三、不能免俗的排名
小样本数据用来研究的意义不大,但读者想必更为关心排名。不过在此声明,第一,小样本数据的均值方差可信度一般,等到赛季末似乎更有价值;其次,笔者认为所有抛开具体属性、职责而单纯比较球员强弱的论题都没有任何意义,因此本次排名仅仅针对球员发挥。
毫无悬念,库蒂尼奥可谓这十轮中的最佳球员,前场三叉戟排名前三也没有疑问。同样,双中卫的发挥也较为出色,比较意外的是詹,但样本较小,排名靠前也很正常。亨德森的发挥与球队整体表现相差无几,而后防线上的其他球员则由于近期没有收到太多压力而分数普遍较低。维纳尔杜姆的整体表现中规中矩,没有赶上近期球队爆棚的发挥,也拖累了他的分数。
球员发挥稳定度排行榜(只计算出场60分钟达到7次的球员):
可以看到米尔纳和亨德森是发挥最为稳定的球员,前场球员的发挥则更有不确定性,其中菲尔米诺明显较为稳健。意外的是克莱因,他的表现相较米尔纳有较大的波动,而库蒂尼奥和马内在前期均有过较为低迷的场次,近期惊艳的发挥增大了他们的不稳定程度。
有了mean和vol,下一步读者关心的,想必是哪名球员既有着高光的发挥,却又不是如过山车一般动荡,能持续保持水准稳定。参考经济学的sharp ratio,我们重新定义了一个可以反应球员总体表现与其不稳定性之比的指标XTS Ratio(XTS Ratio=(XTS-E(Market))/vol)所得结果如下:
可以看到,洛夫伦是能够保持发挥/波动比最大的球员,达到了1.38,即他是阵中表现较为出色而又能在多个场次中保持稳定发挥的球员。其次为菲尔米诺、马蒂普、库蒂尼奥、马内,克莱因则在这份榜单中排名靠后。
四、尝试性数据分析
10轮的数据并不足够进行统计检验,我们还是先行运用了一些简单工具进行数据分析,所得结果如下(需要注意的是,分数已经经过了标准化处理,并不需要统一再进行转换):
相关性:
可以看到pearson相关性检验结果,马内的表现与净胜球相关度最高,紧随其后即是亨德森,随后为菲尔米诺、门将(米尼奥莱与卡里乌斯)、库蒂尼奥、拉拉纳、克莱因、马蒂普。
还会发现一些很有趣的事情,比如:
-菲尔米诺与马内的表现高度相关,但库蒂尼奥与菲尔米诺之间的化学反应较为一般;
-观察亨德森,他与马内、马蒂普、克莱因的表现均高度相关(源于他们同侧),而与左侧的互动一般般。
-与库蒂尼奥表现相关度最高的为拉拉纳。
-克莱因的表现与洛夫伦息息相关。
-米尔纳的表现几乎同任何人都不呈现正相关。
-马内与所有的前场球员相关度都很高。
进一步地,我们将球员评分对净胜球进行逐步回归,并剔除不显著的变量,得到的结果是——
可以看到其余人均被剔除,仅仅有马内被模型认为与球队的净胜球息息相关,其对净胜球的贡献度达到了72%。
而当我们进行剔除式回归时,被剔除的人只有一个——克莱因。
以上数据均为测试尝鲜,不可参考。
页:
[1]