Public Release: 

特刊:预测

American Association for the Advancement of Science

人类一直对知道未来会如何怀着强烈的欲望,而科学让我们更接近于对未来进行更准确的预测--尤其是随着机器学习的崛起。本期有关“预测”的特刊对预报重要后果的进展和挑战做了深入的探究,尤其是那些与诸如政策、政治暴力和人类行为相关问题的结果。在一项研究中,Ryan Kennedy等人推出了一种建模方法,它能预测选举的结果,其精确度高达90%。这些结果显示,调查数据具有高度的预测性,但其精度可通过校正偏差而进一步提高。当前的预测方法未能预测到唐纳德•特朗普会赢得选举人团票而引发了新一波的对定量方法预测选举的批评。为了更多地了解什么因素对总统选举结果具有预测性,Kennedy等人编纂了86个国家的621次选举的数据,时间跨度为从1945年至2012年。他们发现了若干有趣的相关性,例如,在政治体制开放性与执政党仍然在位的可能性之间有着很强的负相关。同样,作者们报告,与美国的良好关系会增加执政党留任的可能性。他们的分析揭示,即使调查数据零星且参差不齐(即在这类选举中的可公开获取的民调不到5个),但与其他变量相比,这些调查数据仍然对预测全球总统选举具有强烈的作用。然而,他们能通过聚总民调数据并创建一个对舆论的“平顺化”民调预测来进一步地改善预测能力,而不是仅仅使用民调数据本身。当用粗略的民调数据时,他们的预测结果能达到80%的精确度,但在用“平顺化”的民调预测时,该精度可进一步增加至90%。令人惊讶的是,经济指标只具弱预测性。由《科学》新闻部门撰写的一则报道进一步详细讨论了这一研究。

在一篇文章中,Lars-Erik Cederman 和 Nils B. Weidmann 讨论了预测政治性暴力所遭遇的挑战,预测政治性暴力很大程度上取决于环境背景,这令某次暴力事件爆发难与另一次爆发进行比较。例如,即使在相同区域中,不同时间的环境背景也可能是不同的。尽管早期的预测暴力事件的尝试不甚成功,但某些较为近来的模型显示了较为精准的预测,因为这些模型依赖于诸如神经网络等机器学习技术。预测罕见的暴力事件尤其棘手,因为各种模型常常给予均衡概率的和平与暴力,然而,大多数地区在大多数时间却是和平的。作者们说,这一问题可通过不同的重新取样技术得以解决,因而会令模型产生的总体预测精确度高得多。作者得出结论:尽管在暴力预测模型中取得了某些进展,但这样的工具的最佳用途可能是生成可能的场景,而不是产生特定的政策建议。

在另一篇文章中,Aaron Clauset和同事考察了重大科技发现会在何时及由什么人做出的预测方法,后者可帮助出版部门和拨款机构该如何评估论文手稿和项目提案提供资讯。作者们重点介绍了可帮助预测发现的4个关键领域,它们包括:对过去发现的引用、受聘为职业研究人员者是谁及科学成果出产力及在职业生涯中做出重大发现的时间。在更深入地对这些因素进行逐项讨论后,他们告诫说,不要过于依赖发现的预测模型,因为这可能会无意中阻碍了创新并加剧了科学体系中现有的不平等。

由Philip E. Tetlock和同事撰写的文章深入探索了政治辩论的微妙世界,后者常常取决于有关预测后果概率的对立主张。2011年,美国情报高级研究项目活动举行了一个为期4年的预测竞赛,旨在发现可产生最精确概率估计的因素,后者揭示了聚总调查对从人群中汲取智慧是最有效的,并揭示了最有效的计算方法。此外,发现最佳预测者的开放心态检测值评分要高于平均。最后,如果在微尺度上考虑更多的细节,这会引领在宏观层面做出更精确的预测。作者们说,该竞赛还鼓励人们从多个角度来看待事物,这可帮助开启那些否则是封闭的心灵,并让不必要的极化辩论去极化。

在另一篇文章中,Susan Athey讨论了用预测机器学习方法来为决策提供信息所遭遇的挑战。监督式机器学习(SML)所获取的是输入训练数据集,并估计或“学习”可被用于对新数据进行预测的参数。然而,Athey指出,“现成的”SMLs可能无法准确地捕捉到基本假设或不稳定因素。例如,在用SML来帮助市政府决定如何分配安全检查员的案例中,了解哪些机构更可能有违规做法也许并不足以做出良好的决策。其它单位或有较低的预测风险,但却可能轻易而且代价不高地做出实质性改进。例如,一幢建筑可能会因电线老化而有较高的火灾风险,但其它考量会令替换电线难以进行。Athey重点介绍了其它几个例子并指出,查明某政策的因果效应才是最重要的。她的结论是,可通过修改SML技术而做出对因果效应的一致且有效的估计。

由Jake M. Hofman等人撰写的文章对社会科学如何经常地侧重于因果机制但却忽略了它们的预测精度进行了观察。在先前的一则研究中,作者们展示了推特数据是如何受到操纵而对同一问题给出具有质的不同的答案。他们对这一现象给出了几种解释,并概述了研究人员可采取的环境背景特异性步骤来确保他们的结果有更好的预测性。在他们的建议中,作者鼓励科学家们弄清他们在一个开放获取框架中的流程。

最后,由V. S. Subrahmanian 和 Srijan Kumar撰写的文章总结了4种更好预测人类活动的关键性挑战,它们包括:大数据集中的背景噪音、对罕见事件的预测、捕捉新出现的现象及考虑动态因素。

###

Disclaimer: AAAS and EurekAlert! are not responsible for the accuracy of news releases posted to EurekAlert! by contributing institutions or for the use of any information through the EurekAlert system.