AI News - Oscar's News

工具过度使用的幻觉:为什么大语言模型倾向于使用外部工具而不是内部知识?

arXiv cs.AI ·

本论文揭示了大语言模型即使拥有内部知识也会系统性地过度使用外部工具,这源于模型错误判断其知识边界和只激励最终正确答案的奖励结构。作者提出了认知边界对齐和平衡奖励信号,将不必要的工具调用减少了60-82%,同时保持或改进了准确性,证明仅有工具可用性不足以提高推理效率。

AI to Learn 2.0:面向交付物的治理框架和学习密集型领域中不透明AI的成熟度评估标准

arXiv cs.AI ·

AI to Learn 2.0提出了一个治理框架,用于在教育和专业环境中评估AI辅助输出,其中精心制作的成果物可能无法证明真正的人类理解或能力。该框架建立了可交付成果必须可用、可审计和可在无需原始LLM情况下转移的要求,具有特定的评估标准和阈值,用于区分何时适合使用AI辅助与何时必须直接展示人类能力。

通过文本嵌入实现零领域知识的算法选择

arXiv cs.AI ·

ZeroFolio建议使用预训练文本嵌入而不是手工制作的领域特征来进行跨多样化问题领域的算法选择,将原始问题文件作为纯文本读取并应用加权k-最近邻法。该方法在11个测试场景中的10个中超越了手工特征方法,并能够在没有领域专业知识或特定任务训练的情况下实现算法选择,使其可推广到SAT、MaxSAT和组合优化问题。

探索数据增强和重采样策略在基于Transformer的模型中的应用,以解决NGSS课堂中AI科学解释评分的类别不平衡问题

arXiv cs.AI ·

该研究通过数据增强策略改进学生科学解释的自动评分,解决评分标准中的严重类别不平衡问题,利用GPT-4生成的合成数据和短语级提取在最不平衡的类别上实现了完美的精确度和召回率。研究结果表明,有针对性的增强可以解决教育AI中的数据不平衡问题,同时保留对学习进展对齐至关重要的概念覆盖范围。

ThermoQA:用于评估大型语言模型中热力学推理的三层基准

arXiv cs.AI ·

ThermoQA提供了一个包含293道题目的基准,评估热力学推理在三个难度层级中的表现,其中基本事实通过物理库以编程方式计算。Claude Opus等前沿模型在属性查找上达到94%的准确率,但在复杂循环分析上性能明显下降,揭示了记忆知识并不能转化为真正的推理能力;超临界条件和联合循环问题可以区分各模型的推理能力差异。

临床试验叙述中给药错误的自动检测:基于LightGBM的多模态特征工程方法

arXiv cs.AI ·

本文提出了一个使用LightGBM检测临床试验叙述中给药错误的自动化系统,该系统包含3,451个多模态特征,涵盖NLP嵌入和变压器得分,在严重不平衡数据(阳性率4.9%)上通过集成方法实现了0.87的ROC-AUC。消融研究表明句子嵌入最为关键,尽管仅占特征的37%,特征选择对避免专业医学文本分类中的过拟合至关重要。

J next K prev V open O detail