小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文探讨了利用文本条件图像生成构建分类器训练集的挑战,并提出了文本条件知识回收(TCKR)管道。研究表明,使用TCKR生成的数据训练的模型在分类准确性上可与真实图像相媲美,同时显著提高隐私保护特性。

Your Image Generator Is Your New Private Dataset

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-06T00:00:00Z

本研究提出了一种可扩展的RepoST方法,解决了现有方法在完整仓库执行中的复杂性问题。通过沙箱测试提供反馈,构建特定函数的测试环境。关键发现是,RepoST-Train构建的大规模训练集显著提升了代码生成模型的性能,具有重要的实际应用价值。

RepoST:可扩展的仓库级编码环境构建与沙箱测试

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-10T00:00:00Z

本研究探讨如何利用日本PDF数据提升大型多模态模型(LMMs)的性能。通过自动提取PDF中的图文对,构建了丰富的训练集,实验证明在日本LMM基准测试中显著提高了模型性能,展示了PDF数据的多模态资源价值。

Harnessing PDF Data to Enhance the Performance of Japanese Large Multimodal Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-20T00:00:00Z
PyTorch中的ImageNet

本文介绍了如何使用ImageNet数据集,包括ImageNet()函数的参数设置,如数据根目录、数据分割(训练或验证)、变换和加载器。用户需手动下载数据集并运行ImageNet()以提取数据。训练集包含1281167张图像,验证集有50000张,并提供了加载和显示图像的示例代码。

PyTorch中的ImageNet

DEV Community
DEV Community · 2024-12-24T20:57:52Z
PyTorch中的Oxford-IIIT Pet

Oxford-IIIT Pet数据集的使用方法包括设置根路径、数据分割和目标类型等参数。用户可以选择训练集或测试集,并支持类别、二元类别和分割标签。数据集可通过指定参数进行下载和提取,示例代码展示了如何加载和显示数据。

PyTorch中的Oxford-IIIT Pet

DEV Community
DEV Community · 2024-12-14T17:53:48Z

Wake Vision是一个新发布的大规模数据集,专为TinyML中的人检测任务设计,包含约600万张高质量图像。它提供两种训练集,帮助研究人员在数据量和质量之间找到平衡,从而提升模型在真实场景中的表现。

介绍Wake Vision:一个高质量的大规模数据集,用于TinyML计算机视觉应用

The TensorFlow Blog
The TensorFlow Blog · 2024-12-05T17:00:00Z
使用U-Net算法从卫星图像中识别陆地和水体

本文介绍了使用U-Net算法从卫星图像中识别陆地和水体的过程。首先导入TensorFlow、OpenCV和NumPy等库,下载并加载数据集中的图像和掩膜。接着进行图像预处理和归一化,并将数据集划分为训练集和测试集。构建U-Net模型后进行训练,并使用回调函数优化训练过程。最后,通过可视化和IoU评估模型性能。

使用U-Net算法从卫星图像中识别陆地和水体

DEV Community
DEV Community · 2024-12-02T18:21:44Z
数据压缩语言模型(DataComp-LM):寻找下一代语言模型训练集

本文介绍了数据压缩语言模型(DCLM),通过标准化语料库和有效的预训练策略提升语言模型性能。DCLM提供了240T标记的数据集和53种下游评估,强调数据筛选在高质量训练集构建中的重要性。实验结果显示,DCLM-Baseline在MMLU上实现了64%的5-shot准确率,相较于之前的最佳模型提高了6.6个百分点,同时计算资源减少40%。

数据压缩语言模型(DataComp-LM):寻找下一代语言模型训练集

Apple Machine Learning Research
Apple Machine Learning Research · 2024-07-26T00:00:00Z

研究评估了大型语言模型(LLMs)在生物医学任务中的性能,发现LLMs在具有较小训练集的生物医学数据集中表现出色,甚至超过了当前最先进的生物医学模型。然而,不同LLMs的性能可能因任务而异。尽管与精细调整的生物医学模型相比,LLMs的性能仍然较差,但它们在缺乏大规模注释数据的生物医学任务中具有潜在的价值。

领域特定性在语言模型和生物医学关系抽取的指导有多重要?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-21T00:00:00Z

我们提出了三种新颖的图表示方法,用于使用图神经网络(GNN)指导搜索,以学习与领域无关的启发式。实验表明,我们的启发式算法适用于训练集之外的更大问题,并超过STRIPS-HGN的启发式算法。

学习领域无关的触发条件与提升计划

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-18T00:00:00Z

研究评估了大型语言模型(LLMs)在生物医学任务中的性能,发现LLMs在较小训练集的生物医学数据集中表现出色,甚至超过了当前最先进的生物医学模型。然而,不同的LLMs在不同任务中表现不同。尽管与精细调整的生物医学模型相比,LLMs的性能仍有待提高,但它们在缺乏大规模注释数据的生物医学任务中具有潜在的价值。

LongBoX:评估基于 Transformer 的长序列临床任务

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-16T00:00:00Z

研究评估了大型语言模型(LLMs)在生物医学任务中的性能,发现LLMs在较小训练集的生物医学数据集中表现出色,甚至超过了当前最先进的生物医学模型。然而,不同LLMs的性能可能因任务而异。尽管与精细调整的生物医学模型相比,LLMs的性能仍有待提高,但它们在缺乏大规模注释数据的生物医学任务中具有潜在的价值。

PsyEval:一种用于精神健康领域的综合大型语言模型评估基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-15T00:00:00Z
幽默:谷歌用户体验大概是世界上最差的

谷歌认为强密码需要更复杂,人工智能调优比关键词调优更难。LLM调优需要解决多个难点,每个LLM都需要调整。解决方案需要多个针对特定问题的LLM和来自未知来源的数据进行训练。

幽默:谷歌用户体验大概是世界上最差的

极道
极道 · 2023-11-01T01:01:00Z

该研究比较了多个异常检测模型在工业数据集上的表现,发现某些模型适用于结构较松散的数据集。研究人员分析了这些模型在识别不同类型异常时的优势和局限性,并逐渐增加训练集大小以评估模型的有效性。

企业软件的基于日志的异常检测:一个实证研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-31T00:00:00Z

本文评估了四种大型语言模型在六个生物医学任务中的性能,结果显示零次矫正的LLMs在小训练集的生物医学数据集中效果超过了当前最先进的生物医学模型。不同LLMs的性能可能因任务而异。虽然LLMs的性能仍然相当差,但在缺乏大规模注释数据的生物医学任务中具有潜在的价值工具。

BLESS:句子简化上的大型语言模型基准测试

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-24T00:00:00Z

本文评估了大型语言模型在生物医学领域的性能,发现在较小训练集的生物医学数据集中,零次矫正的LLMs甚至在效果上超过了当前最先进的生物医学模型。不同LLMs的性能可能会因任务而异,但它们在缺乏大规模注释数据的各种生物医学任务中具有潜在的价值工具。

基于基准生物医学文本处理任务的大规模语言模型全面评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-06T00:00:00Z

该论文介绍了一个新的人类头部数据集ILSH,包含52个主题,使用24个摄像机捕获,总共有1248个特写头像。该数据集旨在促进照片般逼真的人类化身的发展。除了数据的收集,还介绍了将数据集分为训练、验证和测试集的方法。

ILSH:人头视角合成的帝国光阶头数据集

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-06T00:00:00Z

G-Research发布加密高频数据,供宽客开发交易策略。参赛者需使用时间序列API预测未来回报。数据集包括训练集、测试集、样例提交和加密资产详情等文件。

免费、高质量、高频率的加密货币数据

极道
极道 · 2023-10-01T09:03:00Z
民谣女神唱流行,基于AI人工智能so-vits库训练自己的音色模型(叶蓓/Python3.10)

本文介绍了如何构建训练集、进行数据清洗和切分。训练集需要选择具有歌手音色特质的歌曲,并使用noisereduce库进行降噪处理。数据切分可以使用audio-slicer库,将清唱样本切成小样本。最后,给出了训练配置文件,并介绍了如何进行训练。

民谣女神唱流行,基于AI人工智能so-vits库训练自己的音色模型(叶蓓/Python3.10)

刘悦
刘悦 · 2023-05-12T00:00:00Z
MXnet-arcface数据集准备

本文介绍了MXnet-Arcface数据集的准备过程,包括文件结构、生成.lst和.rec文件的步骤,以及创建训练集和测试集的方法。用户需按照特定方式组织图片,并使用相应的Python命令生成所需文件。

MXnet-arcface数据集准备

plus studio
plus studio · 2023-05-08T21:28:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码