上个月,这个做 AI 的开源数据库悄悄火了

8 月 1 日,由开放原子开源基金会与 Linux 基金会亚太区联合开源中国共同举办的“全球开源技术峰会 GOTC 2021 深圳站”在深圳会展中心圆满落幕(www.zhuLinji.com)。本次峰会汇聚国内顶级开源厂商和开源社区成员,吸引了来自全国各地的数千名开源爱好者参会,共话中国开源生态的发展趋势。

作为本土开源人工智能公司的代表,第四范式技术副总裁郑曌受邀出席 GOTC 主论坛并发表演讲,聚焦公司所在的 AI 领域,讲述了自己及团队将旗下项目开源以来的历程心得。

郑曌回忆,自己在十年前就在学校里参与了一些开源的工作。学生时代的郑曌热爱编程,曾获 ACM 世界冠军,研发并开源了国内首个推荐算法工具 SVDFeature,获得 KDD Cup 2011 季军、2012 冠军。毕业后的郑曌深耕机器学习,在大规模机器学习系统、个性化推荐、搜索、工程技术团队管理等领域拥有丰富经验。曾任 Google 展示广告架构团队架构师、Pinterest 个性化推荐与搜索团队技术负责人。

学生时代的郑曌面对的是一个处于起步阶段的中国开源社区环境,当时市场上还没有其他的AI开源工具,像 GitHub、Gitee 这样的代码托管平台也没有开始流行,也没有开源基金会去帮助开源项目成体系的规划和成长。10 年之后再次回到开源社区,郑曌的身份已经从学校的科研开发者变成了AI产业的从业者和开发者,今天的社区相比十年前有了非常大的变化,开发者受到了更多上下游生态的关注和支持,基础设施和配套工具链变得更加成熟。尤其是郑曌与第四范式所在的人工智能领域。

今年 6 月,第四范式宣布开源机器学习数据库 OpenMLDB、AI 操作系统内核 OpenAIOS 两大技术组件。同时也开放了开箱即用的“AIOS 社区版”,内置两大开源组件,以免费的方式提供给开发者使用。

AI提供正确数据供给的机器学习数据库OpenMLDB

OpenMLDB 是第四范式开源的机器学习数据库项目,开源一个月以来,该项目在 GitHub 上获得了 1900 个 Star。前 Cloudera 机器学习 CTO Tristan Zajonc 也发文称:“OpenMLDB 在技术上领先业界 AI 和机器学习的 infra 层数年。”

在短期内收到广泛关注,也说明了数据库在AI 技术中的重要性。随着数据存储作用变化和数据量持续增加,数据库经历了多次的演进。早期的DBMS 系统最开始的设置目标是把数据和信息记全、记对,进入到互联网时代以及移动互联网时代,来自传感器、来自端侧的数据越来越多,数据量级也得到了提升,这个时候像OLAP、HTAP 这样的新型数据库系统的出现,能够让数据处理能力进一步的提升。

但在 AI 时代,无论是传统的事务型数据库、分析型数据库以及传统数仓,在面向机器学习场景时都难以提供正确高效的数据供给,这也直接导致 AI 开发者仍有超过 90% 的精力花在数据建设上,制约了 AI 技术发展。

郑曌介绍,机器学习本质上是一个基于历史的经验,对未知的信息做预测的系统。然而在超过一半的 AI 落地场景中,因为使用传统数据库系统,开发者难以区分哪些数据应该当做历史的经验,哪些数据应该当做未知的信息,所以经常会出现拿着未来的数据预测过去这样的常见错误,这种错误称之为数据穿越。此外,数据泄露、线上线下不一致、拼接错位等都是机器学习应用过程中出现的高频问题。

OpenMLDB 主要解决的就是机器学习场景下的数据闭环(Closed-loop)、线上线下一致性(Consistency)、数据时序正确(Chronology) 最为关键的三大核心问题。

  • 数据闭环 (Closed-loop) OpenMLDB 通过对线索与反馈的自动拼接检测与自动关联,保障了唯一拼接标识,避免了数据拼接错位的问题。
  • 线上线下一致性 (Consistency) OpenMLDB 通过统一的数据存储引擎避免了跨数据库的信息交换,并通过统一的数据计算引擎,这套系统使离线和在线使用同一套计算逻辑,确保了总结规律和线索演算时思维方式的一致。
  • 数据时序正确 (Chronology) OpenMLDB 提供自动实时数据的拼接、数据泄露检测等功能,避免在 AI 开发中数据错误的使用 。

在性能优化上,OpenMLDB 面向机器学习数据库的访、存、算等高 IOPS 环节,通过对数据库逻辑执行计划、物理执行计划进行了分层优化,实现了高并行度的调度规划策略,相比传统数据库实现了 10 倍的性能提升。

在节省成本方面,OpenMLDB 基于非易失性存储的算力优化特性,将整体的 TCO 降低了68%,该成果也被收录进入 2021 数据库顶级会议 VLDB。

总得来看,与传统的数据库相比,OpenMLDB 一方面在数据开发过程中,能够保障数据的正确性;另一方面,在运维过程中,因为运维的复杂性降低,数据系统对接多个不同的场景导致的数据正确性问题也得到了一定的保障。

拥抱开源

在开源浪潮席卷全球的当下,无论是操作系统、数据库、前端等基础软件,还是云原生、区块链、物联网、人工智能等前沿技术,都基于开源开放的模式蓬勃发展。

OpenMLDB 作为面向 AI 开发者的基础软件,拥抱开源无疑是最快提高市场接受度的模式。郑曌表示,自上个月将 OpenMLDB 项目的 56 万行代码全部开源以来,不仅获得了国内外许多开发者的关注,同时也收获了非常多来自社区开发者的积极反馈,包括代码提交与改进建议等。而 OpenMLDB 团队也将会持续维护该项目,保持项目社区的活跃与稳定。

“感谢各位社区的小伙伴们一直以来的帮助跟支持,第四范式也是开源社区的一个新人,未来不管是 OpenMLDB 还是 OpenAIOS,我们的社区会做持续的迭代和演进,能够和社区的同行们一起共同去解决 AI 在应用落地过程中遇到的这些痛点问题,我们也希望通过我们在技术上的迭代,能够形成更多的创新,能够形成更多的变革。”

OpenMLDB Github

https://github.com/4paradigm/OpenMLDB

AIOS社区版 」官网

openaios.4paradigm.com

END

觉得不错,请点个在看

主营产品:玻璃陶瓷加工设备,纺纱机,纺织机械和部件