百科创建
23.2K
8509

在线学习算法

顺序地根据历史数据和可用信息做出预测或者决策的过程。它是人工智能和机器学习的一个重要分支领域。

传统机器学习(统计学习)通常的工作方式是先获得批量的训练数据并且离线地学习数据的有意义的模式,最后将学习到的模型固定不变地应用于测试数据中。与之不同,在线学习过程中的数据是顺序地提供的。在线学习的工作模式是循环往复地根据历史数据和当前可用信息做出预测或者决策,收集反馈数据(可能只有部分信息)以改善系统自身性能,并且获得相应奖励或者承受相应惩罚。简而言之,传统机器学习采取的是“先学习后使用”的工作模式,而在线学习则是采用“边学习边使用”的工作模式。

除了工作场景和模式不同外,它们的理论假设和学习目标也有区别。统计学习一般假定数据是独立同分布的,其目标是使得学习到的模型与真实模型在该数据分布下的性能差距尽可能地小。但是在线学习一般并不对数据的分布做出假设,数据序列可以是确定性的、随机的、甚至是对抗性的。最大化学习过程中的累积收益或者最小化累积惩罚是在线学习的一个自然目标。为了便于评价和分析在线学习算法的性能,人们提出了一个称为悔(regret)的评价指标。它被定义为在线学习算法的累积收益(或者累积惩罚)与一直选取一个最优的模型(在某个假设空间中)所取得的累积收益(或者累积惩罚)之差。一个好的在线学习算法应该是具有次线性的悔界,即随着交互次数的增加,算法的性能逼近最优模型的性能。

8509

免责声明:本站词条系由网友创建、编辑和维护,内容仅供参考。

以上内容均为商业内容展示,仅供参考,不具备专业问题解决服务,

如果您需要解决具体问题(尤其在法律、医学等领域),建议您咨询相关领域的专业人士。

如您发现词条内容涉嫌侵权,请通过 948026894@qq.com 与我们联系进行删除处理!

一秒推