小红花·文摘

我们的首次证明提交

OpenAI ·

🚀通过基于模型的测试修复AI代码：一位开发者的故事

DEV Community ·

本研究推出了ISLR101，这是首个公开的伊朗手语识别数据集，包含4,614个视频和101个手势，旨在解决手语识别领域的数据不足问题。初步测试显示模型在评估集上的准确率为97.01%和94.02%。

ISLR101: An Iranian Word-Level Sign Language Recognition Dataset

BriefGPT - AI 论文速递 ·

OpenManus是一个热门项目，需邀请码才能使用。通过简单配置，可以测试不同模型，如获取GitHub星标和生成文件。目前遇到浏览器未出现的问题，仍在寻找解决方案。

Manus的开源复刻OpenManus初探

dotNET跨平台 ·

使用Open WebUI安装和配置DeepSeek

DEV Community ·

微调模型的推理：传递信息

DEV Community ·

FlashRAG-Paddle是基于飞桨框架的检索增强生成工具包，具备组件化设计、36个基准数据集和9种算法，支持高效的模型测试与验证，提升推理性能，推动AI技术的自主创新与国产化。

FlashRAG-Paddle | 基于PaddleNLP的高效开发与评测RAG框架

百度大脑 ·

本研究提出了一种基于上下文的测试方法（CAT），旨在克服现有模型测试方法的局限性。通过构建SMART测试系统，利用大型语言模型识别潜在失败，实验证明CAT在识别模型失败方面有效，展现了其作为新测试范式的潜力。

Context-Aware Testing: A New Paradigm for Model Testing with Large Language Models

BriefGPT - AI 论文速递 ·

飞桨在6月新增四款硬件，软件版本更新支持新一代芯片，提升开发体验。基于183个模型进行功能测试，覆盖多种AI应用场景。开发者可通过PaddleX进行模型训练和推理，欢迎反馈需求以优化适配。

硬件新技术｜百余模型通过测试达到落地可用

百度大脑 ·

本研究介绍了SAMSum语料库，旨在提升对话摘要的质量。通过多模型测试，发现模型生成的摘要在ROUGE分数上优于人类评估。研究探讨了对话摘要的策略和方法，强调了鲁棒性挑战，并提出未来研究方向。

对对话摘要方法的系统探索：可重复性、比较评估及方法学创新，推动自然语言处理中的抽象摘要研究

BriefGPT - AI 论文速递 ·

为什么传统的烘焙时间是浪费：采用基于模型的测试进行有目的的烘焙

DEV Community ·

基础RAG通过向量数据库检索信息，但在宏观问题上表现不佳。Graph RAG通过构建知识图谱来解决这一问题，提取关键信息并建立节点关联。实验使用不同模型（llama3.1、phi3:14b、phi3.5）进行测试，结果显示phi3.5在英文回答中更详细，而中文回答细节一致。实验环境包括MacBook Pro和RTX4090，使用Python 3.10进行配置和测试。

Phi3.5和Llama3.1在构建知识图谱应用中哪个更好用

dotNET跨平台 ·

GitHub推出GitHub Models服务，提供多种开放或非开放模型供开发者测试，包括GPT-4o等模型。开发者可以调用Azure AI服务，只需将GitHub Token替换为Azure AI凭证。该服务旨在为Microsoft Azure上的模型托管服务导流。开发者可以在GitHub上测试模型并集成到自己的项目中。目前服务仍在测试阶段，开发者需注册等候名单等待邀请。