12月18日,数据飞轮2.0在2024冬季火山引擎FORCE原动力大会上正式升级发布。
延续去年4月火山引擎发布的数据飞轮“以数据消费促资产建设,以数据消费助业务发展”的内核,升级后,数据飞轮2.0模式更聚焦把AI作为数智化核心竞争力,通过AI技术促进更普惠的企业数据消费。
围绕数据飞轮2.0模式的升级,火山引擎数智平台VeDI同步发布了多模态数据湖解决方案。
随着大模型的发展和应用,文本的边界被拓宽,图像、视频、语音各种模态涌现,并给数据管理、检索、计算带来巨大挑战。火山引擎多模态数据湖解决方案则可实现海量结构化、半结构化及非结构化数据的统一精细化管理,全方位兼容各类数据格式,为LLM预训练、持续训练和微调全程各个环节提供更好的数据支持。
火山引擎多模态数据湖解决方案架构图
从数据源来看,火山引擎多模态数据湖解决方案涵盖传统的结构化数据,如企业日常运营产生的表格、日志服务以及各类数据库;也包含半结构化数据,如在互联网交互中常见的 JSON、XML、CSV 格式数据以及通过 API 接口获取的数据;更有非结构化数据,如海量的文本资料、丰富多样的图片、各种音频片段以及视频文件等。这些数据源通过全域数据集成 DataSail 进行无缝整合,打破数据孤岛,提升利用效率。
在整个架构底层,数据湖开放存储 TOS 以其强大的兼容性,支持 Paimon、Iceberg、Hudi 等多种数据湖格式,无论是文本、图片、音频、视频还是向量数据,都能实现高效存储与管理。
在数据湖管理方面,LAS具备元数据、数据集管理、数据权限管理等能力,并具备近计算与近存储加速特性,保障数据湖应用运行。同时依托数据计算和存储的 E-MapReduc、流式计算 Flink 和 擅长OLAP处理的ByteHouse 等多元计算引擎,企业可以根据自身需求进行选择,满足不同场景下复杂的数据处理要求。在上层数据开发阶段,大数据研发治理DataLeap提供独创的找数助手、开发助手、运维助手等智能化能力,降低企业数据资产检索和数据开发的使用门槛。
最终,海量数据经过多模态数据湖的集成、存储、计算和分析,输出给 Data Agent、商业智能、LakeHouse、知识库等下游应用场景,服务于企业科学决策。
目前,火山引擎多模态数据解决方案已广泛应用在泛互联网、汽车等行业,并取得实效。
以某聚焦于智能网联汽车的科创公司为例,最初该公司使用自建开源大数据平台支撑车联网数据采集、加工及分析,但存在实时离线数据割裂、数据膨胀、系统稳定性低等问题。
通过引入火山引擎多模态数据湖解决方案,该公司将火山引擎E-MapReduce作为数据湖 OLAP 引擎,构建兼具离线、实时的湖仓一体架构,并运用其存算分离架构应对高膨胀增量数据,在确保计算性能 SLA 稳定的同时,成功将维护成本降为零;还进一步借助全域数据集成DataSail 实现OLAP、OLTP 两种不同负载要求的任务分离,保障了服务的可用性。最终在数据处理实效性提升为秒级的基础上,资源成本还降低了30%。
数据已成为AI算法模型发展和演进的“燃料”。而火山引擎数据飞轮2.0及多模态数据湖等系列解决方案的发布,必将帮助企业提升数据利用效率,创造业务创新与发展的一个又一个“燃点”。