Lyle Ungar谈预测

||对话

莱尔·安格肖像Ungar博士莱尔他是宾夕法尼亚大学(University of Pennsylvania)的计算机和信息科学教授,并在工程学院、艺术与科学学院、医学院和商学院的多个部门担任职务。他发表了200多篇文章,是11项专利的共同发明人。他的研究金宝博娱乐领域包括机器学习、数据和文本挖掘和心理学,目前专注于统计自然语言处理、光谱方法和使用社交媒体来理解个人和社区的心理。

路加福音Muehlhauser你的兴趣之一(许多兴趣之一)是预测.你现在的一些工作是由IARPA资助的王牌计划- 如果你问我,那么世界上任何地方都有最令人兴奋的研究金宝博娱乐计划之一。

您最近与芭芭拉·梅勒斯、乔纳森·巴伦等人合著的一篇论文是赢得地缘政治预测锦标赛的心理策略。摘要是:

五所大学的研究小组在两场地缘政治预测比赛中竞金宝博娱乐争分配事件最准确的概率。我们的小组测试并发现了三个对准确性的心理驱动因素的支持:培训、团队合作和跟踪。培训纠正了认知偏差,鼓励预测者使用参考类,并为他们提供了启发式方法,比如在多种估计可用时进行平均。团队合作使预测者能够共享信息,并讨论其信念背后的原理。追踪将表现最好的人(第一年的前2%)放在一起工作的精英团队中。结果表明,概率训练提高了标定效率。团队协作和跟踪提高了校准和分辨率。预测通常被认为是一个统计问题;但这也是一个深刻的心理问题。行为干预提高了预测的准确性,统计算法提高了聚合的准确性。 Our group produced the best forecasts two years in a row by putting statistics and psychology to work.

在这些实验中,一些小组接受了情境训练或概率训练,这些训练“大约花了45分钟,可以在整个比赛中进行检查。”

这些模块是否可用于在线上市?如果没有,你能给我们一个自己的感觉吗?并且,您怀疑有重大的额外概率或情景培训将进一步降低预测误差,例如,如果新概率培训含量每两周给受试者施用30分钟?


Lyle Ungar.我很抱歉,但这些模块不是公开可用的。

我们主要的概率训练模块教给学员的不是贝叶斯概率规则,而是预测方法。本文首先讨论了良好概率判断的两个要素——校准和分辨率,并给出了定义和例子。然后,我们的模块提供了一些好的预测判断技巧,包括1)考虑相关的基础比率,2)对多个估计进行平均(如果可能的话),使用历史数据,使用统计预测,以及考虑基于关键变量的简单模型。

我很惊讶,45分钟的在线培训能给我们带来这么多好处,尤其是考虑到许多人发现,参加完整的概率课程对人们的概率估计没有好处。我认为关键在于预测的具体方法。

我们正在开发后续培训,但我认为该关键不是给予预报员更频繁的培训。我认为对我们的预测绩效表示重要的是,我们的预报员每周使用他们的技能,并获得关于他们预测的良好的具体反馈,包括其他人的准确性的比较。此反馈允许并鼓励人们继续学习。


卢基我个人没有报名参加任何ACE预测比赛,因为我看到这些问题涉及非常狭隘的领域知识,比如SciCast的一个问题是“什么时候会展示一个运行中的石墨烯纳米天线?”我的感觉是,即使对这样一个问题进行10分钟的研究,我也无法做得比在所有可用的非疯狂答金宝博娱乐案上均匀分布我的概率质量更好。或者,如果允许我看其他人的估计,我只能复制中位数的回答,即使对一个问题研究10分钟也不行。金宝博娱乐

出于这个原因,我一直在想,大规模校准训练中最容易实现的目标是开发一款能够提供给人们问题的应用,让许多玩家能够轻松地完成随机猜测(或模仿他人)思想 - 例如关于基础科学的问题(没有Googling),或者在正常的人际关系中往往发生的事情,或者关于从过去100年来的着名历史事件发生的事情。

当然,这是“回顾”,而不是预测,但我认为这将是有用的校准培训,它可能是更有益的参与,因为它花更少的时间每个问题,参与者可以更快地从错误中学习。这是应用理性中心的许多问题所采用的方法凭证校准游戏但不幸的是,目前这款游戏的数据库中存在的问题太少了(大概1000个吧),而且很多都是关于历史体育成果的问题,这些问题对于非体育迷来说就像SciCast关于纳米天线的问题对于大多数人来说一样模糊。(在回答所有这些问题时,我都必须选择“50%自信”。)

我们甚至可以想象它会以各种方式被游戏化,从像DragonBox这听起来像个游戏,但实际上是在教孩子们代数。

你怎么看待我对此的印象?如果定期做法是人们校准的差异可能是如何合理地创建一个可扩展的工具,用于校准训练(透明或预测),人们实际要使用?


莱尔首先,让我澄清一下,在我们的“团队良好的判断”竞赛中表现最好的人不是那些有专业知识的人,而是那些努力工作、收集大量信息并认真思考的人。

我喜欢你对校准训练的想法。我不确定运动博彩等问题的表现如何,或者猜测珠穆朗玛峰的高度概括为真正的预测问题。这是一个很好的问题,有人应该测试的问题。My intuition is that many of the skills needed for good performance on problems like geo-political forecasting (e.g. picking a good reference class of events and using base rates from those as a starting point for a forecast) are quite different from the skills needed for retrodiction “guessing games”, but perhaps calibration would generalize. Or perhaps not.


卢基:在作出预测和预测事件发生之间有多少日历时间?


莱尔我们预测的事件范围从一周到一年。预测几个月后的事件是一个很好的时间框架,因为人们可以从结果不明确的情况开始,观察概率估计如何随着世界的发展而变化,也可以看到实际的结果是什么。

我们的预测竞争的一个重要方面是,我们每天都对未来事件的可能性进行估计。当然,个别预报员更新的频率较低(他们都有日常工作),但我们会根据人们每天的平均准确度来评估他们——然后我们将他们的个人预测结合起来,就我们对未来每一事件发生可能性的汇总估计每日更新。


卢基:你认为一个类似的研究项目对未来2-5年的事件进行预测的前景如何?金宝博娱乐你认为当前项目中的“超级预报员”在较长时间内的预测中会表现出类似的表现吗?


莱尔总的来说,预测更远的未来是比较困难的。(想想预测选举结果;随着选举日期的临近,预测选举结果就容易多了。)我们的超级预测者是超级的,但不是神奇的,所以他们对长期预测往往不那么准确。一百年后的生活会是什么样子?这可能是一个未来主义者或科幻小说家的工作,而不是一个预测者。

我不认为许多资助者有耐心等上5年,看看我们的(或任何人的)预测方法有多好。我们正在追求的一个更有希望的方向是,制造一系列问题。有些会是长期的,或者甚至是不明确的(“中国变得更激进了吗?”)。其他的是短期的,但与长期的结果相关。然后,我们就可以根据短期的、明确可解决的问题来估计长期问题或模糊问题的概率变化。


卢基多年前,你也写了一本评论文章论神经网预测。如果您有足够的预算来预测某些东西,您将使用哪些启发式来决定哪些预测方法使用?什么时候是神经网络与预测市场与基于团队的预测与大型计算机模型与其他方法适合?


莱尔首先,神经网络是一种非常灵活的用于拟合数据的方程;也就是说,它们是一种统计估计方法。它们的现代版本(“深度神经网络”)现在在谷歌和Facebook等公司非常流行,主要用于识别图像中的物体和语音识别,如果有的话效果会很好很多用来“训练”他们的数据——用来估计模型。

这让我答案到了你的问题:

我认为人们可以大致地将预测问题分为几类——每一类都需要不同的预测方法——部分是基于可用的历史数据的多少。

一些问题,如我们正在做的地理政治预测,需要收集信息和人类思想。通过对国际事件的冲突信息来筛选预测市场和基于团队的预测。电脑型号主要在这里不起作用 - 马里的比赛,选举或政变的轨道记录没有足够长的赛道记录,以适应一个良好的统计模型,这并不明显其他国家的“类似”。

其他问题,比如预测某一特定城市某一天的能源使用量,都非常适合于统计模型(包括神经网络)。我们知道影响因素(一周中的哪一天、是否有假期、天气和总体趋势),我们有数千天的历史观察。在这个问题上,人类的直觉并不能胜过计算机。

还有其他类型的问题,比如经济预测(德国明年的GDP会是多少?加州两年后的失业率)介于两者之间。人们可以建立大型的计量经济学模型,但仍需要人类对其中的因素进行判断。(如果默克尔改变主意,或者希腊突然采取紧缩措施怎么办?)我们没有足够的历史数据来准确预测政治家的经济决策。

底线是,如果你有大量的数据,而世界变化不大,你可以使用统计方法。对于更不确定的问题,人类专家变得更重要。谁将赢得明天的美国大选?将投票结果插入统计模型。一年后谁将赢得美国大选?看看爱荷华州的预测市场。五年后谁将赢得美国大选?没人知道,但一组专家可能是你最好的选择。


卢基:谢谢,Lyle!