多臂老虎机算法：如何利用机器学习法对广告进行更高效的A/B测试

对广告主而言，在投放广告时，至关重要的是,要及早发现哪些创意变化优于其它形式的广告,才能及早对广告进行优化并改善广告预算以获取更佳的广告投放效果, 从而有效提升ROI。

当涉及快速发展的移动广告领域时，采用标准的A/B测试往往会遭遇其局限性，尤为重要的是, 对此一定要立即作出响应,并找到最佳的应对技术, 从而避免不必要的预算浪费。多臂算法比标准的A/B测试更具优势, 因为采用这一方法，A/B测试就自然而然地内嵌于广告中。标准的A/B测试需要为期一周的数据收集周期才能最终作出决定, 而多臂算法则能够以更快捷的速度完成相同任务，而且每10分钟就会自动升级一次。

多臂算法到底是如何运作的？

在探索的最初阶段, 多臂算法将会尝试每个臂–每个创意变化采用一个臂—因为从每个臂所收集到的数据, 能够推断出其中哪一个臂效果最佳。

这一策略即是通过采用Thompson Sampling法进行的强化学习。最初, 各臂均获得同等数量的流量, 直至找其中能够发挥最佳效果的一臂。该算法将会随着每一臂所提供的更多数据进行更新分布。每进行一个步骤, 它均能独立思考:“X臂的最佳概率有多大？”每个臂均有概率, X臂比其它任何一臂更具优势, 直至其得出结论, 无论任何一臂均具有获得最佳效果的最大概率。

要获知每一轮到底需要采用哪一臂，这需要具有一定的策略。这通常要基于当前时间的可用数据。首先必须确定优化的维度, 例如, 以Playable广告为例，可以设置游戏播放时间或场景。采用Playable广告,该策略需要与游戏玩法紧密结合，从而为机器学习算法确定其反馈机制。该策略最终能确定其最佳一臂将可获得公众认可。最终确定其中一臂获得最佳效果的概率为95%。

多臂算法创意优化的优势:

加快优化进程:采用自动多臂创意优化法比标准的A/B测试法节更省时间。

保持成本意识:标准的A/B测试可能会导致广告主浪费广告预算在测试效果欠佳的创意上。而多臂算法能够确保广告主对效果更佳的那一臂投入更多的预算, 同时可减少预算损失。

掌控优化维度:采用多臂算法，广告主即可掌控其所希望优化的维度, 并准确了解为何某种创意变更可能比其它广告带来更佳效果。