小红花·文摘 - 小红花技术领袖俱乐部

大型语言模型是新的数据库用户。现在我们需要一种衡量它们的方法：介绍text-to-sql-eval

大型语言模型是新的数据库用户。现在我们需要一种衡量它们的方法：介绍text-to-sql-eval

Timescale Blog ·

本研究提出了PerceptionLM框架，解决了视觉语言模型的闭源问题，并发布了280万个人工标注的视频问答对，以促进详细视频理解。同时推出的PLM-VideoBench评估套件推动了透明研究的进展。

PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding

BriefGPT - AI 论文速递 ·

该论文提出了一个基于语言学动机和技术相关的希腊自然语言处理评估套件，引入了四个专家验证的评估任务，特别针对自然语言推理、词义消歧和隐喻检测。同时，确认了任务的挑战性，并强调希腊 NLP 生态系统需要加速进展以与当代主流研究保持同步的需求。

OYXOY：用于现代希腊语的现代自然语言处理测试套件

BriefGPT - AI 论文速递 ·