大模型能力的发展和成熟,催生出新一代智能化 BI—— ChatBI,即通过自然语言处理(NLP)与大型语言模型(LLMs)的结合,极大简化数据分析过程,提高效率并降低分析门槛。
近期,火山引擎数智平台旗下的智能数据洞察DataWind宣布上线ChatBI能力,其对接豆包大模型实现推理回答,能为用户提供智能修复、多语法适用等支持,在性能上实现秒级响应、一键生成。过去业务人员需要具备专业的分析和代码能力,才能生成各类图表分析所需的指标。现在,传统指标开发模式将被自然语言输入的智能生成方式所替代。用户只需要通过文字描述需求, 就能生成指标,快速实现数据获取、分析计算与图表搭建,大幅降低数据消费门槛。
在实际应用中,用户与 ChatBI 进行交互时,期望能够快速得到数据分析结果和回答。如果分析引擎性能不足,处理数据的速度缓慢,将导致响应时间过长,影响用户体验。因此,完善的大数据架构及高性能查询是DataWind高效数据分析的基石。
火山引擎DataWind相关负责人进一步介绍道:“我们不仅持续提升企业级 BI 功能性,比如引入AI能力,更专注于解决系统的性能和伸缩性问题。随着BI在企业组织中落地推广,并逐渐深入业务,用户数量、计算量和数据量会迅速增加,从长期维护的角度出发,我们必须确保系统能够应对未来大规模带来的压力。”
而DataWind选择将云原生数据仓库ByteHouse作为OLAP架构,为上层ChatBI的快速响应提供高性能、高扩展、高弹性支持。
ByteHouse 是火山引擎基于ClickHouse 进行深度自研优化的云原生数据仓库,能够对离线和实时数据进行统一分析处理,并通过弹性扩展的计算层、分布式存储层加速企业分析和决策。在性能方面,ByteHouse推出了自研HaMergeTree解决ZooKeeper依赖大的问题,通过建立索引对记录进行快速更新、标记、删除,也在分布式join上进行大量优化器方面优化,整体提升性能表现。
除此之外,DataWind还基于 ByteHouse 的冷热数据分层能力,在实现查询高性能的同时,有效节约资源成本。
随着数据量不断增长积累,数据的访问热度会呈现出巨大的差异。部分数据的访问频率会明显高于其他数据,例如近期写入数据的访问频率会比历史数据高很多。
针对数据冷热情况,ByteHouse 采用了不同的存储策略和查询策略:对于热数据,进行特殊处理以实现高性能分析;对于冷数据,实现低成本存储。从整体上提高访问和查询效率,减少资源浪费。
DataWind基于ByteHouse的数据冷热分层架构
从数据架构上看,DataWind与ByteHouse紧密结合,一方面,数据存储在 ByteHouse 内,无数据冗余,无需数据搬迁,让多个服务可以共享一份数据;另一方面也保持较高灵活性,除了用 DataWind 直接进行数据访问之外,也可以直连 ByteHouse 做自定义的接入和分析查询,在确保灵活取数的情况下,保障了数据的可访问性和主权。
大模型的推理、检索和生成能力,使数据的使用门槛在交互方式和分析技能方面都大幅降低,BI+AI 的场景变得更加具体、可实现。而在ByteHouse高性能、弹性伸缩特性加持下,ChatBI在资源成本可控的情况下,实现响应速度进一步提升,持续为用户提供极致的数据分析体验。