05 为文本分类

Hi, 我是茶桁。

在前一讲中,我们观察到大型模型的确表现出良好效果。在情感分析任务中,通过使用 OpenAI API 提供的 Embedding,我们得到的结果要比能在单个机器上运行的较小模型(如 T5-base)要好得多。然而,我们之前所选择的问题确实有些过于简单。我们将 5 个不同的评分分成了正面、负面和中性,同时还排除了相对难以判断的"中性"评价,因此我们判断准确率的提高相对较容易实现。但是,如果我们想要准确预测具体的分数呢?这将是我们接下来需要探索的问题。

训练机器学习模型

一种最简单的方法是利用我们获得的文本 Embedding 向量。这次我们将不再直接使用向量之间的距离,而是采用传统的机器学习方法进行分类。这样做的原因在于,仅仅使用向量之间的距离无法最大化利用已标注好的分数信息。

由于本文在其他平台已经成为收费文章,为了避免损害付费会员权益,所以此处做删减处理。

希望继续观看的,请订阅我的公众号。

作者

Hivan Du

发布于

2023-05-12

更新于

2024-01-16

许可协议

评论