AI - Oscar's News

下载：强化的骗局和AI医疗保健研究 →

MIT审视了AI驱动的骗局兴起和生成AI在医疗保健中的应用。该文章展示了AI如何促进复杂欺诈，同时探索医疗用途，包括诊断协助和患者监测。

医疗AI来了。我们不知道它是否真的帮助患者。 →

尽管AI在医院广泛用于记录、患者监测和医学影像解释，但对实际患者结果的影响仍不清楚且研究不足。医疗保健系统采用AI的速度比证据确立其临床有效性的速度更快。

工具过度使用的幻觉：为什么大语言模型倾向于使用外部工具而不是内部知识？ →

本论文揭示了大语言模型即使拥有内部知识也会系统性地过度使用外部工具，这源于模型错误判断其知识边界和只激励最终正确答案的奖励结构。作者提出了认知边界对齐和平衡奖励信号，将不必要的工具调用减少了60-82%，同时保持或改进了准确性，证明仅有工具可用性不足以提高推理效率。

AI to Learn 2.0：面向交付物的治理框架和学习密集型领域中不透明AI的成熟度评估标准 →

arXiv cs.AI · 14h ago

AI to Learn 2.0提出了一个治理框架，用于在教育和专业环境中评估AI辅助输出，其中精心制作的成果物可能无法证明真正的人类理解或能力。该框架建立了可交付成果必须可用、可审计和可在无需原始LLM情况下转移的要求，具有特定的评估标准和阈值，用于区分何时适合使用AI辅助与何时必须直接展示人类能力。

通过文本嵌入实现零领域知识的算法选择 →

arXiv cs.AI · 14h ago

ZeroFolio建议使用预训练文本嵌入而不是手工制作的领域特征来进行跨多样化问题领域的算法选择，将原始问题文件作为纯文本读取并应用加权k-最近邻法。该方法在11个测试场景中的10个中超越了手工特征方法，并能够在没有领域专业知识或特定任务训练的情况下实现算法选择，使其可推广到SAT、MaxSAT和组合优化问题。

探索数据增强和重采样策略在基于Transformer的模型中的应用，以解决NGSS课堂中AI科学解释评分的类别不平衡问题 →

arXiv cs.AI · 14h ago

该研究通过数据增强策略改进学生科学解释的自动评分，解决评分标准中的严重类别不平衡问题，利用GPT-4生成的合成数据和短语级提取在最不平衡的类别上实现了完美的精确度和召回率。研究结果表明，有针对性的增强可以解决教育AI中的数据不平衡问题，同时保留对学习进展对齐至关重要的概念覆盖范围。

使用LLM实现可解释的反洗钱分类：证据检索和反事实检查 →

arXiv cs.AI · 14h ago

该框架将证据约束的LLM推理应用于反洗钱警报分类，结合检索增强证据汇总、具有显式引用的结构化输出和反事实验证，以确保决策在受管制环境中保持可审计和可防御。结果表明，证据基础显著改善了决策可解释性，减少了幻觉，同时保持了合规要求，在公共反洗钱基准上实现了0.75 PR-AUC。

ThermoQA：用于评估大型语言模型中热力学推理的三层基准 →

arXiv cs.AI · 14h ago

ThermoQA提供了一个包含293道题目的基准，评估热力学推理在三个难度层级中的表现，其中基本事实通过物理库以编程方式计算。Claude Opus等前沿模型在属性查找上达到94%的准确率，但在复杂循环分析上性能明显下降，揭示了记忆知识并不能转化为真正的推理能力；超临界条件和联合循环问题可以区分各模型的推理能力差异。

临床试验叙述中给药错误的自动检测：基于LightGBM的多模态特征工程方法 →

arXiv cs.AI · 14h ago

本文提出了一个使用LightGBM检测临床试验叙述中给药错误的自动化系统，该系统包含3,451个多模态特征，涵盖NLP嵌入和变压器得分，在严重不平衡数据（阳性率4.9%）上通过集成方法实现了0.87的ROC-AUC。消融研究表明句子嵌入最为关键，尽管仅占特征的37%，特征选择对避免专业医学文本分类中的过拟合至关重要。

推理余量比：约束条件下推理稳定性的诊断和控制框架 →

arXiv cs.AI · 14h ago

推理余量比（IHR）形式化了系统推理能力与环境不确定性之间的关系，用于量化接近推理崩溃的程度，模拟识别了约1.19的临界阈值。主动调控IHR将系统崩溃率从79%降低到59%，并能够估计出现明显故障前剩余的推理余量，这补充了受约束AI系统的标准性能指标。

AI News - Oscar's News

下载：强化的骗局和AI医疗保健研究 →

医疗AI来了。我们不知道它是否真的帮助患者。 →

工具过度使用的幻觉：为什么大语言模型倾向于使用外部工具而不是内部知识？ →

AI to Learn 2.0：面向交付物的治理框架和学习密集型领域中不透明AI的成熟度评估标准 →

通过文本嵌入实现零领域知识的算法选择 →

探索数据增强和重采样策略在基于Transformer的模型中的应用，以解决NGSS课堂中AI科学解释评分的类别不平衡问题 →

使用LLM实现可解释的反洗钱分类：证据检索和反事实检查 →

ThermoQA：用于评估大型语言模型中热力学推理的三层基准 →

临床试验叙述中给药错误的自动检测：基于LightGBM的多模态特征工程方法 →

推理余量比：约束条件下推理稳定性的诊断和控制框架 →