熵采样在分类任务中的应用
在机器学习的分类任务里,数据的标注成本常常制约着模型性能的提升。主动学习中的熵采样策略,为解决这一难题提供了新的思路。本文将带你深入了解熵采样在分类任务中的原理、应用及优势。
一、熵采样的原理(优化版)
熵,源于信息论,是对不确定性的度量。在分类任务中,熵采样的核心思想是:模型对样本预测结果的熵值越高,意味着该样本蕴含的不确定性越大,其包含的信息对模型的学习就越有价值。当模型对一个样本的预测结果在多个类别上的概率分布较为均匀时,熵值就大;反之,若模型对某个样本的预测结果高度集中在某一个类别,熵值就小。
1.1 熵的计算
熵的计算公式为:
H = − ∑