佬友们,请教是否有适合实时变化数据统计的方案推荐?
目前负责的业务使用ES统计约600w条订单数据,统计维度是实时变化的(如按订单状态统计)现在开始出现统计超时情况。
了解到ClickHouse或Doris似乎更适合这种场景,问下大家有没有做过类似的统计呢
1 个赞
HDFS 其实也行吧,ES 拿来干这个感觉有点浪费了,毕竟内存还是比硬盘贵一些的
个人观点:只要查询语句写好了,用什么存储 (HDFS / Doris / TSpider) 差别不大
可以把这些数据存储到 HDFS 后,然后再单独加一个清洗流去把你想要的实时统计算出来,存储到新的表里,这样查询会快一些,也不需要每次计算
2 个赞
按理说600w数据量对于es来说不算啥,聚合不至于超时。应该在字段设置,分片数设置,查询语句上存在优化空间,得结合具体情况分析下了
另外如果字段数据存在大量实时更新的话,也会影响查询性能,可能需要在查询前做forcemerge来优化性能
600w是总数?千万的在es或是psql下非高频问题不大。
可以用clickhouse之类的
也可以用sparkstreaming,flink之类的。
了解一下 HANA 数据库,速度肯定能达到要求,就看老板舍不舍得了。