情色综合网 NEWS
你的位置:附近上门 > 情色综合网 > 【WDI-029】ドリシャッ!! ASUKA 译文: 数据质料评分: Airbnb 数据质料的新篇章
【WDI-029】ドリシャッ!! ASUKA 译文: 数据质料评分: Airbnb 数据质料的新篇章
发布日期:2024-08-03 13:10    点击次数:182

【WDI-029】ドリシャッ!! ASUKA 译文: 数据质料评分: Airbnb 数据质料的新篇章

【WDI-029】ドリシャッ!! ASUKA

如今,跟着公司汇注的数据量呈指数级增长,咱们都意志到数据越多并不老是越好。事实上,数据越多,尤其是当你无法相信其质料时,可能会放慢方案速率或导致特地方案,从而辞谢公司的发展。

轨则 2022 年底,Airbnb 累计入住宾客数已达 14 亿,其增长将咱们推向了一个改动点,数据质料的下落驱动辞谢咱们的数据从业东谈主员。每周主义评释很难如期发布。看似基本的主义(如“活跃房源”)依赖于一系列上游依赖关系。开展有真谛的数据职责需要无数的机构学问来克服数据中遮拦的症结。

为了疏漏这一挑战,咱们引入了“Midas”历程来认证咱们的数据。从 2020 年驱动,Midas 历程以及再行构建咱们最关键的数据模子的职责,为 Airbnb 最关键的数据带来了数据质料和实时性的大幅升迁。但是,要达到 Midas 所条目的全部数据质料圭表,需要进行无数的跨职能投资来策画、开荒、考证和珍视必要的数据钞票和文档。

诚然这关于咱们最迫切的数据来说很有真谛,但大限制实施如斯严格的圭表却带来了挑战。咱们的数据质料投资收益正在徐徐减少。咱们仍是认证了咱们最迫切的钞票,规复了它们的的确度。但是,关于咱们悉数未经认证的数据(仍占咱们离线数据的大多数),咱们无法了解其质料,也莫得明确的机制来升迁其质料。

咱们怎样智力在通盘数据仓库中履行 Midas 费劲难得的胜仗和最好推行?

在这篇博文中,咱们共享了咱们评估数据质料的改进方法,即 Airbnb 的数据质料评分(“DQ 评分”)。咱们将先容咱们怎样开荒 DQ 评分、它刻下是怎样使用的,以及它将怎样为 Airbnb 数据质料的下一篇章提供支合手。

扩张数据质料

2022 年,咱们驱动探索在 Midas 认证除外扩张数据质料的念念法。数据出产者条目遴选更轻量级的历程,该历程不错提供 Midas 的一些质料护栏,但严谨性和时辰过问较少。与此同期,数据浮滥者络续对悉数未经 Midas 认证的数据目大不睹。Midas 认证数据的品牌如斯遒劲,甚至于浮滥者驱动质疑他们是否应该信任任何未经认证的数据。由于不肯减轻 Midas 品牌,咱们但愿幸免引入轻量级版块的认证,因为这种认证会进一步分层咱们的数据,而无法果真竣事持久可扩张性。

议论到这些挑战,咱们决定转向数据质料计策,将数据质料方面的激发步履顺利推向数据出产者和浮滥者。咱们决定不再依赖功令扩大 Airbnb 的数据质料,而咱们需要依靠激发数据出产者和浮滥者。

为了充分竣事这种激发方法,咱们以为引入与数据钞票顺利关联的数据质料评分倡导至关迫切。

咱们确定了以下评分场所:

使咱们对数据质料的意会超过简便的二元界说(认证与未认证)。

对输入组件进行对皆以评估数据质料。

全面了解咱们的离线数据仓库和单个数据钞票的质料。这种可见性应该 1) 为出产者创造天然激发,以改善他们所领有的数据的质料,2) 激动数据浮滥者对高质料数据的需求,并使浮滥者大致决定数据质料是否合乎他们的需求。

谱写曲谱

在深入探讨算计数据质料的微小远离之前,咱们通过界说 DQ 评分教导原则来激动愿景的合资。在跨职能数据从业东谈主员小组的意见下,咱们合资了以下教导原则:

全面笼罩——评分可应用于范围内的任何数据仓库数据钞票

自动化——确定分数的输入的汇注是 100% 自动化的

可操作性——评分关于出产者和浮滥者来说都很容易发现且可操作

多维——评分不错领会为数据质料撑合手

可进化——评分圭表过甚界说不错跟着时辰而改变

诚然这些原则看似简便或不问可知,但树立这些原则至关迫切【WDI-029】ドリシャッ!! ASUKA,因为它们教导着制定评分时作念出的每一个决定。不然会辞谢发达的问题被回顾到咱们的原则上。

举例,咱们的原则关于确定应试虑评分圭表愿望清单中的哪些形势至关迫切。有几种输入天然不错匡助咱们算计质料,但要是它们无法自动测量(自动化),或者它们过于复杂甚至于数据从业者无法意会圭表的含义或怎样校阅(可操作),那么它们就会被丢弃。

咱们还有一组输入信号不错更顺利地算计质料(Midas 认证、数据考证、特地、SLA、自动 DQ 检验等),而其他信号更像是质料的代理(举例,有用悉数权、考究的搞定卫生、铺平谈路器具的使用)。更明确缓和利的质料测量是否比代理更有价值?

在咱们的原则教导下,咱们最终确定了数据质料的四个维度:准确性、可靠性(实时性)、管制和可用性。咱们还议论了其 他几个可能的维度,但这四个维度对咱们的数据从业者来说是最有真谛和最有用的,而况是有真谛的校阅轴,咱们见原并自得投资于从这些维度校阅咱们的数据。

每个维度都不错搀杂隐式和显式的质料主义,关键在于:并非每个数据浮滥者都需要十足意会每个单独的评分组件,但他们会意会,色综合在可靠性和可用性上得分较低的数据集难以合手续如期到达而况难以使用。

咱们还不错把柄咱们对每个维度在确定质料方面的迫切性的相识来算计每个维度。咱们议论了 1) 每个维度有几许个得分因素,2) 是否大致快速进行默算,以及 3) 咱们的从业者最见原哪些元素,以便在各个维度上分拨 100 分:

“数据质料维度”过甚权重

同期,要是需要,不错对维度进行领会,以更详备地了解数据质料问题。举例,管制维度对证料主义进行评分,举例它是否基于咱们铺设的旅途数据工程器具构建、其搞定卫生,以及它是否合乎有用的数据悉数权圭表。

解读数据管制维度

向从业者展示收货

咱们知谈,以可探索、可操作的面容呈现 DQ 评分关于其遴选和奏效至关迫切。此外,咱们必须在数据用户仍是发现和探索数据的场合顺利呈现数据质料信息。

红运的是,咱们有两个现存器具不错使这个过程变得更容易:Dataportal(Airbnb 的数据目次和探索 UI)和合资元数据就业(UMS)。分数本人是在逐日离线数据管谈入彀算的,该管谈从咱们的数据系统中汇注和退换多样元数据元素。管谈的最终任务是将每个数据钞票的分数上传到 UMS。通过将 DQ 分数导入 UMS,咱们不错将分数过甚构成部分与 Dataportal 中的每个数据钞票一谈暴深化来,这是 Airbnb 所稀有据发现和探索的滥觞。剩下的即是策画它的呈现花样。

咱们的场所之一是向具有不同专科学问和需求的数据从业者展示质料的倡导。咱们的用户群仍是十足经受了认证与未认证的动态,但这是咱们第一次提议质料范围的倡导,以及界说质料的圭表。

DQ 评分最具可解说性的版块是什么?咱们需要大致呈现一个一目了然的数据质料评分,同期还能更详备地探索评分。

咱们的最终策画以三种花样呈现数据质料,每种花样都议论不同的用例:

0-100 之间的单一高均分数。咱们把柄对数据仓库的分析终局(检验了 DQ 分数的现存散布)分拨了“差”、“还行”、“好”和“十分好”的分类阈值。最稳当快速、高等地评估数据集的举座质料。

维度分数,钞票在准确性方面得分完好,但在可靠性方面得分较低。当特定症结范围莫得问题时很有用(举例,浮滥者但愿数据十分准确,但不惦记它每天都会快速着陆)。

完整分数明细+校阅设施,数据浮滥者不错准确地看到钞票的不及之处,数据出产者不错遴选行动来改善钞票的质料。

以下屏幕截图暴露了这三种演示。默许演示提供了维度分数“每个类别的分数”,分类形容符“差”以及 40 分,以及校阅设施。

数据宗派中的完整数据质料评分页面

要是用户探索完整的分数笃定,他们不错检验确切的质料症结,并查抄信息器具教唆,提供相关评分组件的界说和优点的更多详备信息。

完整曲谱细节呈现

刻下曲谱的使用花样

关于数据出产者来说,评分提供了

遴选明确、可行的步履来提高钞票的 DQ

量化 DQ,算计他们的职责

明确对 DQ 的祈望

科技债务计帐的场所

关于数据浮滥者来说,DQ 分数

提高数据可发现性

行为数据的确度的信号(就像 Airbnb 宾客和房主的评价系合资样)

奉告浮滥者确切的质料症结,以便他们大致宽心使用数据

使浮滥者大致寻找并条目数据质料

从数据计策的角度来看,咱们愚弄里面查询数据与 DQ 评分相集会,激动通盘数据仓库的 DQ 职责。通过议论浮滥量和浮滥类型(举例,某个主义是否出现在咱们的高管评释中),咱们大致教导数据团队进行最有用的数据质料校阅。这种可见性关于那些没特意志到我方存在无数低质料钞票的团队来说十分有启发性,并使咱们大致加倍投资于支合手咱们很大一部分数据浮滥的沉重数据模子的质料。

终末,通过开荒 DQ 评分,咱们大致为数据出产者提供合资的教导,匡助他们出产高质料但未经认证的钞票。DQ 评分并未取代认证(举例,唯有 Midas 认证的数据智力赢得 > 90 的 DQ 评分)。咱们将络续认证咱们最关键的数据子集,并坚信这些钞票的用例将永久值顺利动考证、严格性和认证珍视。但关于其他悉数方面,DQ 评分都强化并扩张了咱们通盘仓库的 Midas 原则。

下一步是什么

高跟玉足

咱们很欢娱现在大致算计和不雅察数据质料的量化校阅,但这还仅仅驱动。咱们最近扩张了原始 DQ 分数,以对咱们的Minerva 主义和维度进行评分。相通,咱们商量将 DQ 分数的沟通倡导引入其他数据钞票,举例咱们的事件日记和 ML 功能。

跟着对数据的要乞降需求不停发展,咱们对证料的祈望也将不停变化。咱们将络续校阅界说和算计质料的花样,跟着元数据管制和数据分类等范围的快速校阅,咱们预测 Airbnb 所稀有据从业东谈主员的后果和出产力将进一步提高。

感谢

要是莫得多位跨职能和跨组织的相助者,DQ Score 就不行能竣事。他们包括但不限于:Alvin Wo、Gang Feng、Mark Steinbrick、Chitta Shirolkar、Jonathan Parks、Sylvia Tomiyama、Felix Ouk、Jason Flittner、Ying Pan、Logan George、Woody Zhou、Michelle Thomas 和Erik Ritter。

极端感谢庞杂 Airbnb 数据社区成员在策画、开荒和发布阶段为实施团队提供意见或匡助。

作家:Clark Wright【WDI-029】ドリシャッ!! ASUKA