1. 02.基于Doris Unique Key与临时分区实现亿级别数据防抖动技术

    发布: 2024-04-19   作者: Youcai   分类: BigProject 标签: Doris BigData  未经允许,禁止转载(可分享链接)!

    本文编写于2024-04-19,最近2026-03-28进行了重新编辑,主要对内容进行压缩,去掉了跟业务有关的文字,由原来PDF排版改成网页排版。内容是基于某广告消耗统计系统的实际案例,分析了在业务侧将数据更新频率由每日一次调整为每小时一次后,导致查询结果出现大幅波动的情况。简单点说就是,在更新过程中存在新旧数据混合的中间状态,对数据查询造成了干扰。在低频更新或数据量比较小的情况下,该问题很难暴露,而在高频大数据更新情况下,如果更新过程与查询发生重叠,导致用户读取到不完整或会产生误导的数据,也叫数据抖动问题。针对该问题,本文提出了一种基于 Apache Doris的数据防抖动技术,主要是通过结Unique Key模型与分区替换机制,实现数据计算与数据查询过程的隔离,在亿级数据查询条件下也实现数据的稳定性与一致性。

    Read more
  2. 01.百亿级大数据及数据湖实践与总结

    曾任某直播公司,海外直播部,主导了核心大数据开发,架构出颇具特色的大数据及数据湖平台,数据量超500亿。技术上主要整合三架马车:离线计算(Hive),实时计算(Flink)与自建调度平台(Java)。在该平台的基础上推出:1、PUSH推送提数系统,造了数亿PUSH推送数据,给拉新做日活作出了贡献,相当创造了一名不用发工资的虚拟高级技术开发。2、活动数据系统(离线),创造了面向界面操作就能生成HSQL的大胆尝试,Idea,个人认为是公司首创,机器写Hive大数据任务效率提升1000倍(半年机器编写数万Hive任务),由此带来数千自动化常规活动,躺着给公司充KPI。3、活动数据系统(实时),打造出实时小活动与小任务系统,功能历史性强大,快速灵活上线,深受运营同学的喜欢,再次躺着充KPI。4、主播计薪系统,一搞就是四年,我们处于最下游的数据大集成阶段,多时区多国家多分类超复杂计薪需求开发,合作方综横交错,出事风险概率是2000%,但四年零事故(归属),零事故,确实是零事故,又创造了历史,团队风采再现,日出东方利中国,这里体现的不仅是专业,还有敬业、爱业与守业。5、营收大活动系统,通过不断开发小组件,积木式搭建庞大复杂的大营收活动体系,以极少的人力完成疯狂的需求开发计划,PlanA, PlanB, PlanC一路进化,到达项目组最伟大的营收S级目标,又一次伟大的项目尝试,二名核心开发分别获得年度优秀员工,体现了众望所归的实力。6、搜索系统。7、数据浏览系统等。积累了一定的经验与技巧,是一次真实而又触手可及的大数据及数据湖实战经验分享(不是虚玩概念),希望对大家有所收获。

    Read more