I'm sharing the slides and transcript from my talk about the PostgreSQL Europe Diversity Task Force at PostgreSQL Development Conference 2025. It's an extended version of the 5 minute...
本研究提出了一种基于语义可控生成网络的新方法,旨在解决数字人脸建模中的多样性和控制问题。通过引入新型数据生成流程和高效的GAN生成器,生成的面部资产可通过语义属性进行编辑,从而显著提升多样性和可控性。
本研究探讨了联邦学习中的数据异质性问题,提出了6种量化指标和7个数据集,开发了新算法FedDiverse,显著提升了模型的性能与鲁棒性,同时降低了通信和计算开销。
本研究探讨大语言模型可能导致的人类价值同质化问题,影响社会信任与繁荣。EthosGPT框架旨在全球范围内评估人类价值,揭示模型在不同文化中的适应性与偏见,为开发更具包容性的语言模型提供见解,尤其在文化遗产保护和减少不平等方面具有重要意义。
London Partner Emma Parry discusses her small-town upbringing on the Scottish coast and how her background helps her to relate to a range of clients far removed from corporate offices in London.
本研究提出了PolyTest方法,旨在解决现有大型语言模型在生成单元测试时缺乏多样性的问题。通过跨语言测试生成和多样性采样,PolyTest显著提升了测试的一致性和质量。
本研究探讨了AI模仿对信息多样性和民主价值的影响。结果表明,AI生成的内容在同质化环境中能提升多样性,而在多样性较高的环境中则可能降低多样性。这一发现挑战了AI模仿威胁信息多样性的传统观点。
本研究提出了一种基于不确定性和多样性的主动学习框架,旨在高效选择未标注样本进行标注。该方法在低标注成本下显著提升了室内3D物体检测性能,实现了85%的全监督效果,仅需10%的标注预算。
本研究提出了DivPrune方法,旨在解决大型多模态模型中视觉标记过多的问题。该方法通过最大化标记多样性来减少冗余,提高模型的代表性。实验结果表明,DivPrune在多个数据集上实现了高准确率,并显著降低了延迟和GPU内存使用。
本研究提出了HybridLinker框架,旨在提高药物发现中连接体生成的有效性与多样性。通过从预训练的无点云模型中获取多样化的键合拓扑,增强了有点云模型的推断能力。研究表明,HybridLinker的后验采样方法显著提升了分子设计和属性优化的效果。
本研究提出了一种基于多样性的数据选择策略,利用稀疏自编码器衡量数据多样性,以优化大型语言模型的调优过程。该方法提高了模型可解释性,训练效果优于其他方法,降低了成本,并有助于更好地控制模型行为。
本研究提出了一种改进的解码方法,旨在解决大型语言模型在文本生成中存在的重复训练数据和多样性不足的问题。该方法通过分析概率差异,增加低概率但准确词汇的生成机会,从而提升生成质量和多样性。
本研究探讨了大型语言模型在检索增强生成和长文本任务中的上下文窗口限制,提出通过引入多样性来改善内容选择。结果表明,多样性显著提高了相关句子的召回率,增强了问答和总结效果,强调了未来应用中保持多样性的重要性。
本文提出了一种基于最大边际相关性(MMR)的新方法,旨在平衡可微搜索索引(DSI)中的相关性与信息多样性。研究表明,该方法有效引入多样性,同时对相关性影响不大,具有重要的应用潜力。
Slides and transcript from my 5 minute lightning talk about the PostgreSQL Europe Diversity Task Force at FOSDEM PGDay 2025. This was a tough one to fit into 5 minutes, but I'm pleased with...
本研究提出了一种自适应随机测试方法,旨在降低大型语言模型软件测试中的输入输出评估成本,优化测试套件,发现故障并控制预算。
本研究提出了一种嵌入驱动的多样性采样方法,旨在解决临床文本分类中高质量标注数据不足的问题。该方法通过从少量真实临床笔记中提取多样性,指导大语言模型生成符合临床语法的合成文本,从而提升模型性能并减少数据需求。
本文探讨人工智能如何提升多样性与包容性,强调多学科方法应对大语言模型在文化理解上的不足。研究指出,透明算法和多样化训练数据能够识别偏见,改善社会代表性,增强人机交互的公平性。
本研究探讨了数据集多样性对视觉模型性能的影响,发现准确性与数据多样性之间存在显著正相关,强调了理解数据集在构建更强大、可泛化模型中的重要性。
本研究提出了一种新框架EpiCoder,基于特征树,旨在克服现有代码生成方法的局限性。EpiCoder能够捕捉代码元素之间的语义关系,生成更复杂和多样化的代码数据。在多个基准测试中表现出色,尤其在合成复杂代码库方面展现出显著潜力。
完成下面两步后,将自动完成登录并继续当前操作。