标签

 数据集 

相关的文章:

本列表汇集了最新的多样化数据集,涵盖AI代理、网络安全评估及3D视觉定位等领域,助力研究者获取前沿资源。

中心测量:该数据集的典型行为是什么?

原文英文,约300词,阅读约需2分钟。发表于:

Introduction Measure of central tendency is important when working with datasets because it gives us a summary of the data, it provides a single value that is a summarization of the center point...

中心趋势的测量在数据分析中至关重要,常用的指标包括均值、 медиана 和众数。均值是所有值的总和除以数量,受极端值影响; медиана 是排序后的中间值,众数是出现频率最高的值。方差和标准差用于衡量数据的离散程度,而四分位数间距(IQR)则衡量中间50%的数据分布。

中心测量:该数据集的典型行为是什么?
相关推荐 去reddit讨论

Mozilla与EleutherAI发布关于大型语言模型训练的开放数据集研究

原文英文,约500词,阅读约需2分钟。发表于:

Update: Following the 2024 Mozilla AI Dataset Convening, AI builders and researchers publish best practices for creating open datasets for LLM training.  Training datasets behind large language...

2024年Mozilla AI数据集会议后,研究者发布了开放数据集最佳实践,以提升大型语言模型训练的透明度和公平性。研究指出,数据来源不明会导致法律模糊,影响创新。为推动负责任的AI发展,需要在法律、技术和政策领域合作,制定开放数据集的处理和发布标准。

Mozilla与EleutherAI发布关于大型语言模型训练的开放数据集研究
相关推荐 去reddit讨论

看破不可见数据集,自我监督学习成为细胞组学新的复杂系统处理利器

原文中文,约2500字,阅读约需6分钟。发表于:

自我监督学习(SSL)通过分析输入与样本之间的关系,从未标记数据中提取有意义的表示,尤其在单细胞基因组学(SCG)中展现出潜力。德国研究团队探讨了SSL在SCG中的有效应用,发现掩蔽自动编码器优于对比学习,并且SSL在小数据集和未见数据集上表现更佳。这项研究为SCG中的SSL提供了实证基础,并强调了预训练数据集的重要性。

看破不可见数据集,自我监督学习成为细胞组学新的复杂系统处理利器
相关推荐 去reddit讨论

超越 GPT-4o!从 HTML 到 Markdown,一键整理复杂网页;AI 对话不再冰冷,大模型对话微调数据集让响应更流畅

原文中文,约5500字,阅读约需14分钟。发表于:

HyperAI超神经与上海交通大学长聘轨副教授谢伟迪教授进行了一次深度访谈,从其个人经历出发,他向我们分享了从计算机视觉转型 AI for Healthcare 的经验心得,同时深入剖析了该行业的未来发展趋势。本是是对访谈内容的详细报道。

Reader-LM 模型高效处理超长网页内容,能够将 HTML 转换为清晰的 Markdown 格式,支持高达 256K 字节,表现优于 GPT-4o,适合资源受限的场景。该模型已上线 hyper.ai,提供多种优质数据集和教程,帮助用户快速提取信息。

相关推荐 去reddit讨论

Dialect2SQL:用于阿拉伯方言的新型文本到SQL数据集,重点关注摩洛哥达里贾

原文中文,约300字,阅读约需1分钟。发表于:

本研究解决了现有文本到SQL数据集中缺乏针对阿拉伯方言的资源这一问题。我们提出了Dialect2SQL,这是第一个大规模的跨领域文本到SQL数据集,包含了9,428个自然语言问题和SQL查询对,专注于摩洛哥达里贾的复杂性。此数据集的推出将极大推动文本到SQL研究社区和低资源语言的资源开发。

本研究提出Dialect2SQL,这是首个针对摩洛哥达里贾的跨领域文本到SQL数据集,包含9,428个自然语言问题及其对应的SQL查询,旨在解决阿拉伯方言资源不足的问题。

相关推荐 去reddit讨论

CLOFAI:用于持续学习的真实与虚假图像分类任务数据集

发表于:

本研究解决了分类器无法准确区分新生成图像和真实图像的问题,提出了CLOFAI数据集,专注于持续学习场景下的图像分类。该数据集作为评估持续学习方法的基准,应用了三种基础方法并发现GEM和经验重放表现优异,为未来的AI分类器更新提供了新的方向。

相关推荐 去reddit讨论

挪威语问答数据集的集合

发表于:

本研究针对挪威语缺乏问答数据集的问题,提出了一系列新的问答数据集,包括NorOpenBookQA、NorCommonSenseQA、NorTruthfulQA和NRK-Quiz-QA,这些数据集覆盖了广泛的技能和知识领域。研究表明,大多数语言模型在挪威书写标准Bokmål上表现优于Nynorsk,并且在常识推理方面存在显著不足,同时在生成答案时常常不够准确。

相关推荐 去reddit讨论

增强神经语音语言识别:基于多语言数据集的探索

发表于:

本研究解决了传统特征向量模型在语音语言识别中的局限,提出了一种新的网络架构,在语言特征捕捉和处理上进行优化。通过重组时间延迟神经网络并引入专门的池化层,我们的模型在十种语言的识别精度上达到了97%,显著提升了语言处理系统的准确性和效率,推动了智能语音识别技术的发展。

相关推荐 去reddit讨论

OpenEarthMap-SAR:用于全球高分辨率土地覆盖制图的基准合成孔径雷达数据集

发表于:

本研究针对目前缺乏适合合成孔径雷达(SAR)图像的基准数据集这一问题,提出了OpenEarthMap-SAR数据集,以促进SAR基础的地理空间分析。该数据集包含来自日本、法国和美国的5033幅空中和卫星图像,提供详细的8类土地覆盖标签,并评估了现有语义分割技术的性能。此项工作为全球高分辨率土地覆盖制图提供了重要的资源和参考,有助于推动相关领域的研究进展。

相关推荐 去reddit讨论

10 大中文医学数据集汇总:涵盖神农中医药、中医药古籍、医学推理、医学问答……

原文中文,约2400字,阅读约需6分钟。发表于:

医疗人工智能的快速发展离不开高质量数据集的支持。从疾病诊断到药物研发,再到个性化医疗,数据集在推动机器视觉、大模型等应用于医学领域中发挥着不可或缺的作用。医学数据集的形式多样,涵盖了不同维度和领域的数据资源。例如,在疾病诊断领域,像 RJUA-QA 这样的问答数据集推动了复杂医学知识的自动化应用;而在中医药领域,神农中医药数据集整合了传统中医药文献、临床案例和药方数据。

医疗人工智能的发展依赖于高质量的数据集,涵盖疾病诊断、药物研发和个性化医疗等领域。本文整理了10个医学数据集,包括中医药、医学问答和推理,旨在帮助研究人员了解数据资源的特点与应用。

相关推荐 去reddit讨论