Google的Datastream服务现已支持MongoDB,用户可以实时将数据流入BigQuery和Cloud Storage,简化数据集成,提升决策效率,支持灵活的应用开发和分析。该服务实现低延迟数据复制,确保数据实时更新,助力企业智能决策。
2025年3月17日,谷歌云在Cloud Storage中推出层次命名空间(HNS)功能,优化AI和机器学习工作负载。HNS支持原子文件夹操作,提升检查点写入速度,最多可提高20倍,并改善存储布局,支持更高的读写查询速率,特别适合大规模集群。启用HNS需在创建存储桶时配置。
Onehouse,一个数据湖仓解决方案,现在支持自动化生成向量嵌入的管道。此功能允许用户将Onehouse数据传输到OpenAI或Voyage AI,并将生成的嵌入存储在湖仓中。该平台的向量嵌入生成器通过支持开放数据格式和廉价的云存储来解决GenAI项目中的数据管理挑战,从而降低成本并实现可扩展性。Onehouse还提供管道效率、索引功能和数据库集群以提高查询性能。其廉价存储、开放数据格式和管道自动化有助于向量嵌入存储和管理的长期可行性。
本文介绍了在Google Cloud Platform上创建数据管道的过程,使用dataproc工作流模板和云计划,通过Apache Spark、Google Dataproc和Cloud Storage等服务实现。文章还详细介绍了部署过程中创建的资源,包括Dataproc工作流模板、Cloud Scheduler和Cloud Storage桶。强调了数据管道在数据处理中的重要性,并提到了其他可用的工具和参考链接。
完成下面两步后,将自动完成登录并继续当前操作。