Page 1 of 1

集成提示策略结合了多种算法的结果

Posted: Wed Jan 29, 2025 5:51 am
by suchona.kani.z
可以获得比单一算法更好的预测性能。选择洗牌策略用于回答多项选择题,其中在生成各个参数路径之前对答案选项的相对顺序进行洗牌。这样,就会选择最一致的答案,即对选择变化最不敏感的答案,从而增加答案的稳健性。
所有提示均由单独的人工智能自动执行,因此只需要少数人类领域专家即可进行验证。在向语言模型赋予任务之前,会进行预处理。在预处理过程中,训练数据集中的每个问题都会通过轻量级嵌入模型来生成嵌入向量。然后发生所谓的推理,这决定了当问题得到回答时会发生什么。它涉及使用与预处理相同的嵌入模型重新嵌入测试问题,并使用 kNN 从预处理池中查找相似的示例。

MedPrompt 的有效性:表象多于实际?
当然,与生成人工智能一样,批判性地看待 MedPrompt 并质疑其实际有效性非常重要。如图 1 所示,虽然 MedPrompt 和 Med-PaLM-2 之间存在 4% 的差异,但值得注意的是,MedPrompt 是在 Med-PaLM-2 发布几个月后发布的。将旧型号与新型号进行比较,这就是为什么无法准确确定实际差异有多大的原因。另外,两种语言模型基于不同的基 护理院电子邮件列表 础模型(foundation models)。 MedPrompt 基于 GPT-4,而 Med-PaLM-2 基于 PaLM,这可以进一步解释差异。

此外,需要澄清的是,零样本、随机零样本和思维链(CoT)是较旧的提示技术,其中一些自 2020 年以来一直在使用,并且仅在相应的研究中进行了非常肤浅的解释。图 4 详细显示了各个提示策略的有效性,可以看出,较旧的提示技术在基准测试中占据了非常高的比例。然而,较新的合奏提示和个人技术的组合似乎非常有效。


图 4:个人提示技术的有效性。资料来源

这对未来有何影响?
未来,这种方法将扩展到所有可能的领域。借助 MedPrompt+,这已经在各种基准测试中得到实施和测试,例如数学、面向应用的任务、仅由代码组成的人工评估的 LLM、测试段落阅读理解的测试以及测试段落阅读理解的测试。评估人工智能模型的高级自然语言理解和常识。

对于 adesso 及其客户来说,这一新战略意味着生成式 AI 解决方案可以提供更好的结果,而无需投入时间和资源来微调措施。然而,实施这种方法还需要对人工智能和相应模型有更深入的了解——这是工程师必须及时掌握的一项特殊技能。

您想了解更多关于 adesso 世界中令人兴奋的话题吗?那么请看一下我们之前发布的博客文章。