3

《墨天轮国产数据库流行度排行》得分计算规则说明

墨天轮 2021-12-06
6692

目录导航

墨天轮国产数据库流行度排行于2019年6月推出,通过近50个维度的数据来考察近300个国产数据库的流行度排行,每月1日更新排行数据,用于体现国产数据库在互联网上的流行度。

1、规则说明

我们主要根据如下数据来计算出数据库当月的得分:

1.1、搜索引擎

引入百度、必应、谷歌以及微信公众号文章(搜狗)当月搜索条目数,每个搜索引擎权重不同,如百度、公众号文章较高,最后按整体占比计算得分。

为了数据的准确性,我们会对关键字的搜索结果进行验证,避免分词会加上双引号,如“虚谷数据库”、“偶数科技”。

为了排除关键字为通用英文的问题,如K-DB、CloudTable、TSDB等的搜索关键字改为浪潮K-DB、华为CloudTable、阿里TSDB。

另外我们不提倡非常规手段SEO优化,如批量在非技术论坛发表没有可读性的文章、伪原创等,如发现数据波动异常可能会做降权处理。

1.2、趋势指数

引入微信指数、百度指数、360趋势数据,通过搜索数据库关键字得到当月指数或趋势,计算得到每个数据库的平均指数,最后按整体占比计算得分。

  • 微信指数是基于微信大数据的移动端指数产品,能反映关键词在微信内的热度变化。微信指数所反映的热度变化来源于对微信搜索、公众号文章以及朋友圈公开转发文章形成的综合分析。于2022年6月引入。

  • 百度指数是以百度众多网民检索行为数据为基础的数据分享平台。通过百度指数可以研究关键词搜索趋势、洞察网民兴趣和需求、监测舆情动向以及定位受众特征等,是中国互联网行业颇为重要的统计分析平台之一。

  • 360趋势是以360产品海量用户数据为基础的大数据展示平台,可通过搜索关键词,快速获取热度趋势、理解用户真实需求、了解关键字搜索的人群属性。

由于绝大多数国产数据库在谷歌趋势中没有数据,已暂时性移除。

1.3、三方评测

12月在原信通院大数据产品能力评测的基础上,新增TPC-C、TPC-DS、TPC-H以及电信行业能力评测四项指标,以体现数据库产品在特定场景下的基准达标,以及性能和稳定性。

  • TPC-C是国际事务处理性能委员会TPC组织的一个在线事物处理的评测模型,模拟了经典商品销售付款场景来做测试,以每分钟事务数 (tpmC) 来衡量数据库的事物处理能力,同时用系统的总价格除以tmpC得分,得到性能价格比的指标(Price/tpmC)。

  • TPC-DS是国际事务处理性能委员会TPC组织的用于评测决策支持系统(或数据仓库)的标准SQL测试集,这个测试集包含对大数据集的统计、报表生成、联机查询、数据挖掘等复杂应用。

  • TPC-H由国际事务处理性能委员会TPC委员会制定发布,主要目的是评价特定查询的决策支持能力,强调服务器在数据挖掘、分析处理方面的能力。

  • “大数据产品能力评测”是国内首个大数据产品的评测体系,由中国信通院开展测试工作,每年开展两批测试,今年已经是第六个年头,共完成了410 次测试,有279 款产品通过评测,见证了国内大数据产品由弱变强,产品生态逐渐丰富,圈定了国内大数据产品厂商第一梯队,成为了大数据产品发展的风向标。

  • 国家工业信息安全发展研究中心依托国家级数据库适配验证中心开展了电信行业数据库产品能力测评,旨在以场景化的测试验证带动数据库产业发展。第一期测试重点聚焦电信领域典型场景下数据库产品,中心与中国移动、中国联通和中国电信等用户单位,以及清华大学、华东师范大学、中国人民大学、武汉大学、北京理工大学、中科院计算所、中科院软件所等科研机构,及数十家数据库厂商共同制定了电信行业数据库能力评价模型。

后期会引入更多国内的评测逐步替换掉TPC组织的评测,另外会根据评测排名以及模型复杂度,对得分方式和权重进行调整。

1.4、生态

数据库生态对于产品成功至关重要,排行榜加入生态体系指标,包含社区平台、高校合作、培训认证、开放文档、代码开源、介质下载共六个维度,以体现厂商对数据库产品的可持续发展战略,开放开源、人才培养和共建行业的理念。

  • 社区平台指相关数据库产品拥有自己的社区平台或专题栏目,聚合展示该产品的最新资讯、技术文章、活动动态,以及提供官方的问答平台,有原厂技术专家对问题进行解答。

  • 高校合作指厂商在高校开设改数据库产品相关课程,或者共同建立联合实验室,后期计划考察开设的数量。

  • 培训认证指数据库厂商成立培训部分向广大技术爱好者提供一站式学习平台,制定了系列化的培训认证课程,由浅入深。考试通过授予证书,类似于Oracle的OCA、OCP、OCM培训体系。

  • 开放文档指厂商随着数据库新版本的发布,在官网或其他渠道公开数据库产品相关的白皮书、使用手册、开发者手册、管理员手册等相关的技术文档。

  • 代码开源指厂商在GitHub、gitee上开放数据库产品部分组件或核心特性的源代码,与众多数据库厂商以及社区开发者一起共建数据库开源生态。

  • 介质下载指对应数据库的介质在官方网站提供下载,并可以供开发者免费试用,或者提供在线的体验环境。

生态项暂时未纳入考核中,现仅用于展示,后期纳入考核指标时会提前公告。计划第一步纳入高校合作与认证培训,如高校合作的数量、获取认证学员的数量按整体占比计算得分。

1.5、专利数

专利是自主可控的重要体现,这一指标指厂商在国家或国际平台上可以公开查询的专利数,以体现数据库产品的创新能力。

目前主要从国家专利平台以及谷歌专利平台获取厂商与数据库相关的专利。

1.6、论文数

论文指厂商在VLDB、SIGMOD、ICDE等国际数据库顶会、国际论坛、国际期刊发表的论文,以体现厂商在前沿技术、学术领域的成就。

后期将对国内期刊杂志进行调研,将代表权威学术的论文纳入。

1.7、招聘岗位数

引入51JOB相关招聘数据,根据数据库关键字搜索出每个数据库的岗位数量,体现企业对该数据库人才的需求热度,最后按整体占比计算得分。

1.8、书籍

引入当当网相关书籍数据,根据数据库关键字搜索出每个数据库的书籍数量,最后按整体占比计算得分。

1.9、Gartner市场份额排行及魔力象限

根据Gartner发布的最新市场份额排名先后依次降档得分,最新的魔力象限统一得分。

1.10、IDC市场份额排行

根据IDC发布的最新市场份额排名先后依次降档得分。

1.11、 墨天轮内容数量

墨天轮每月统计平台内相关数据库产品的内容数量,如文章、文档、视频、问答等,同时对内容的长度、质量有一定的筛选条件,最后按整体占比计算得分。

2、计算方式及周期

我们会在每月的最后一天自动采集当月的所有相关数据,通过我们的模型和算法多次计算校验,再经过专家组人工审核后,在接下来1号发布数据库当月的得分数据(12月榜单考察11月1日-11月30日的数据,于12月1日发布)。

通过占比得分、降档得分、统一得分等方式单独计算每一项的分数,最后按权重汇总得到某个数据库当月的最终得分,根据分数得到数据库当月的流行度排行。

另外,部分权重会根据数据库行业当月的趋势指数、整体热度动态调整。

3、重要说明

排行榜仅反映该数据库在互联网上的流行度,与产品竞争力、市场份额、技术指标没有直接关系。

排行榜当前采集的数据来源均在互联网上可以公开查询,不涉及到侵犯隐私、数据加工、恶意采集等情况。

我们的初心是为了促进国内数据库技术的创新和推动国产数据库行业的发展,一直在征集各方意见努力改进优化排行榜的算法和模型,希望能够最大限度客观公正展现国产数据库的产业图谱和发展趋势。如果您对国产数据库流行度排行榜有任何建议或者合作机会,欢迎随时联系我们,微信emcs007或邮件contact@modb.pro。

附、FAQ

1、为什么分数降了,反而名称上升?
答复:目前的算法模型是当月各个数据库之间计算得分,未考量某数据库的历史数据和得分,所有会出现与历史数据波动较大的情况。

2、为什么会出现0分的情况?
答复:新加入榜单的数据库、或者存在低于0.01分,另外也存在无法搜索到相关内容的情况。

3、新数据库如何纳入到排行榜?
答复:联系工作人员发送产品白皮书或官方网站即可在下月加入排行榜中。

4、厂商相较上月做了较多线上线下的活动,得分为什么没有提升?
答复:目前没有单独考核 【活动举办】 维度的指标,只能通过活动产生的相关内容在搜索引擎中的展示量侧面反应活动的相关数据,后期征询意见后可以考虑将 【活动】 单独纳入到考核指标中。

更多阅读:

《公告:墨天轮国产数据库流行度排行榜 指标更新和意见征集》
《国产数据库排行榜 - 月度解读专题栏目》
《2021 :国产数据库名录和产品信息一览》
《2020年度国产数据库:openGauss》

最后修改时间:2022-05-31 18:05:21
「喜欢文章,快来给作者赞赏墨值吧」
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论