数据治理 Python桑基图处理表关系_sankey is a dag, the original data has cycle!-程序员宅基地

技术标签: python  数据仓库  数据治理  血缘关系  数据可视化  Python  

数据治理 Python桑基图处理表关系

需求

随着hive库表越来越多,调度出问题后,排查时间越来越长。计划通过桑基图以及血缘图谱解决,当前先用桑基图页面顶一段时间。后期做成web服务,如果有可能,尽量嵌入到hive metastore

预期

  • 桑基图:

业务DB/中间件 – ods – cdm – ads – 大数据服务DB

  • 图谱:

业务DB/中间件 – 调度 – ods – 调度 – cdm – 调度 – ads – 调度 – 大数据服务DB

环境与版本

  1. Anaconda – Python3.6
  2. IED – PyCharm
  3. 前端可视化图表 – echarts(pycharts 1.+)

数据处理

整理hive表

方案一: 从hive metastore关联表获取(DBS + TBLS)

## 所有库表一次获取
SELECT concat(b.NAME,'.',a.TBL_NAME) FROM TBLS a 
LEFT JOIN DBS b ON a.DB_ID = b.DB_ID; 

方案二: 从hdfs 获取

## 分库表多次获取
hadoop fs -ls /user/hive/warehouse/tmp.db/ | awk -F ' ' '{print $8}' | sed 's/\/user\/hive\/warehouse\/tmp\.db\//tmp\./g'

方案三: 从hive客户端获取

## 分库表多次获取
use tmp; # a库,b库...
show tables;

整理表间关系

  1. 通过步骤【整理hive表】拿到表,找到代码里的管理关系
    比如a与b关联,生成c, c与d关联生成e
source target
a c
b c
c f
d f
  1. 将如上数据插入mysql
CREATE TABLE `links` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `source` varchar(255) COLLATE utf8mb4_bin DEFAULT NULL,
  `target` varchar(255) COLLATE utf8mb4_bin DEFAULT NULL,
  `is_deleted` varchar(255) COLLATE utf8mb4_bin DEFAULT NULL,
  `gmt_create` varchar(255) COLLATE utf8mb4_bin DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=5 DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_bin;

SELECT source,target FROM `links`;

在这里插入图片描述

Python可视化

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import pymysql
import pandas as pd
import json
from pyecharts.charts import Sankey
from pyecharts import options as opts

# 获取数据库数据
def load_links_frame_from_mysql():
    conn = pymysql.connect(host="127.0.0.1",
                           port=3306,
                           user="账号",
                           password="密码",
                           db="数据库",
                           charset="utf8")
    sql = "SELECT source,target FROM links"
    data_frame = pd.read_sql(sql, conn)
    conn.close()
    return data_frame

# 获取nodes
def get_nodes(df):
    nodes = []
    for value in pd.concat([df['target'],df['source']]).unique():
        dic = {
    }
        dic['name'] = value
        nodes.append(dic)
    return nodes

# 获取links
def get_links(df):
    links = []
    for i in df.values:
        links.append({
    'source': i[0], 'target': i[1], 'value': 1})
    return links


if __name__=="__main__":
    link = load_links_frame_from_mysql()
    colors = [
        "#67001f",
        "#b2182b",
        "#d6604d",
        "#f4a582",
        "#fddbc7",
        "#d1e5f0",
        "#92c5de",
        "#4393c3",
        "#2166ac",
        "#053061"]

    pic = (
        Sankey(init_opts=opts.InitOpts(width="480px",height="720px")).set_colors(colors)
            .add('大数据表关系图',
                     get_nodes(link),
                     get_links(link),
                     pos_bottom="50%",
                     focus_node_adjacency="allEdges",
                     linestyle_opt=opts.LineStyleOpts(opacity=0.2, curve=0.5, color='source'),
                     label_opts=opts.LabelOpts(position='top'),

                     node_gap=1,
                     )
            .set_global_opts(title_opts=opts.TitleOpts(title='大数据'))
    )
    pic.render('xueyuan_sankey.html')

在这里插入图片描述

实际使用中的报错

  • Cannot set property ‘dataIndex’ of undefined

此错误由重复数据引起

  • Sankey is a DAG, the original data has cycle!

此错误为 source 与 target数据相同引起

参考

补充

  1. 后期调色忽略,图谱后期再处理;
  2. 有相关数据治理方面的,可以相互探讨和学习
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/dbc_zt/article/details/114588765

智能推荐

Ant design Pro 跨域问题解决方案(SpringBoot版本)_if an opaque response serves your needs, set the r-程序员宅基地

文章浏览阅读1.6k次。错误描述:Access to fetch at ‘http://localhost:9000/api/login/account’ from origin ‘http://localhost:8000’ has been blocked by CORS policy: Response to preflight request doesn’t pass access control check: No ‘Access-Control-Allow-Origin’ header is present on_if an opaque response serves your needs, set the request's mode to 'no-cors

压缩字符串 实现思路及练习题-程序员宅基地

文章浏览阅读413次,点赞15次,收藏4次。实现思路:遍历当前字符串,从第一个元素开始,遍历至倒数第二个元素,分别获取当前字符以及下一个字符然后对当前字符与下一个字符进行判断,如果相邻字符相等,表示连续相同,对其进行累加计数。否则相邻字符不相等,表示连续中断,将之前计数完成的字符+字符个数加到字符串末尾,并重新设置要比较的字符,且重新计数。题目:压缩字符串"AAAABBBCCDDDDEEEEEEFFF"使得其输出结果为A4B3C2D4E6F3。输入:AAAABBBCCDDDDEEEEEEFFF。输出:A4B3C2D4E6F3。

python字符串切片用法_Python字符串切片操作知识详解-程序员宅基地

文章浏览阅读541次。一:取字符串中第几个字符print "Hello"[0] 表示输出字符串中第一个字符print "Hello"[-1] 表示输出字符串中最后一个字符二:字符串分割print "Hello"[1:3]#第一个参数表示原来字符串中的下表#第二个阐述表示分割后剩下的字符串的第一个字符 在 原来字符串中的下标这句话说得有点啰嗦,直接看输出结果:el三:几种特殊情况(1)print "Hello"[:3] ...

120、仿真-51单片机温湿度光照强度C02 LCD1602 报警设计(Proteus仿真+程序+元器件清单等)-程序员宅基地

文章浏览阅读464次。(1)有优异的性能价格比。(2)集成度高、体积小、有很高的可靠性。单片机把各功能部件集成在一块芯片上,内部采用总线结构,减少了各芯片之间的连线,大大提高了单片机的可靠性和抗干扰能力。另外,其体积小,对于强磁场环境易于采取屏蔽措施,适合在恶劣环境下工作。(3)控制功能强。为了满足工业控制的要求,一般单片机的指令系统中均有极丰富的转移指令、I/O口的逻辑操作以及位处理功能。单片机的逻辑控制功能及运行速度均高于同一档次的微机。(4)低功耗、低电压,便于生产便携式产品。

国内几款常用热门音频功放芯片-低功耗、高保真_常用hifi芯片-程序员宅基地

文章浏览阅读2.8k次。工作电源电压范围:5V~28V;2、NTP8918;支持2 CH Stereo (15W x 2 BTL)该芯片RS DRC动态功率控制,有效防止破音,其内部设计有非常完善的过耗保护电路,它的音色非常甜美,音质醇厚,颇有电子管的韵味,适合播放比较柔和的音乐,2*16段可调PEQ,加入APEQ功能,真切改善音质,常应用于AI智能音箱上。目前,在手机终端上,音乐手机一般采用CODEC +PA的方式,CODEC要求极高的信噪比、丰富的编解码功能和接口,此外,为了支持16Ω的耳机,也需要较好品质的耳机功率放大器。_常用hifi芯片

.Net内存泄露原因及解决办法_.net内存泄露的解决方法-程序员宅基地

文章浏览阅读296次。 1.    什么是.Net内存泄露(1).NET 应用程序中的内存您大概已经知道,.NET 应用程序中要使用多种类型的内存,包括:堆栈、非托管堆和托管堆。这里我们需要简单回顾一下。以运行..._.net内存泄露的解决方法

随便推点

Anaconda安装_anaconda环境变量e:\anaconda3\library\usr\bin-程序员宅基地

文章浏览阅读7.1k次,点赞41次,收藏196次。文章目录1.Anaconda是什么2.Anaconda下载3.Anaconda安装4.Anaconda环境变量配置5.检验是否安装成功6.检验Anaconda Navifator是否安装成功7.修改Anaconda镜像修改为清华大学镜像移除清华大学镜像8.PyCharm配置Anaconda方式一(建立新的项目时)方式二(已经打开项目)9.总结1.Anaconda是什么Anaconda指的是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项。Anaconda也是P_anaconda环境变量e:\anaconda3\library\usr\bin

70个常用电脑快捷键,帮你工作效率提升100倍!职场新人必备!_快捷键可以帮助自己-程序员宅基地

文章浏览阅读2k次,点赞11次,收藏44次。电脑快捷键不仅可以帮助我们熟练的操作电脑,还可以帮助我们快速提升自己的工作效率,从此跟加班说拜拜!但由于电脑快捷键过于繁多不方便我们记忆!那么今天小编为大家整理的70个Wordows、Ctrl、Alt、Shift组合快捷键,运用好的话能够帮你工作效率提升100倍!希望能为大家派上用途!下面以图片&文字的形式展现给大家!文字可以直接复制!图片也可以直接拿去收藏!..._快捷键可以帮助自己

用HTML语言制作一个非常浪漫的生日祝福网,手把手教你制作炫酷生日祝福网页_用html做一个生日快乐网页-程序员宅基地

文章浏览阅读2.2w次,点赞317次,收藏636次。明天就是女朋友的生日了, 是时候展现专属于程序员的浪漫了!你打算怎么给心爱的人表达爱意?鲜花礼物?代码表白?还是创意DIY?或者…无论那种形式,快来秀我们一脸吧!_用html做一个生日快乐网页

idea快捷键配置和常用快捷键_idea自定义快捷键-程序员宅基地

文章浏览阅读1.1k次。idea快捷键配置和常用快捷键_idea自定义快捷键

y2.2隐藏英雄密码_从嗨到2y 10 tmnkr您的密码发生了什么-程序员宅基地

文章浏览阅读99次。y2.2隐藏英雄密码Say that I decide to sign up for an account an incredibly insecure password, ‘hi’. How does this become something stored in the database like this: 假设我决定为一个帐户注册一个非常不安全的密码“ hi ”。 它如何变成这样存储在数据..._$2y$10$y

从0到1搭建一套属于你自己的高精度实时结构光3D相机(1):硬件搭建-程序员宅基地

文章浏览阅读1.6k次,点赞42次,收藏11次。在这篇博客中,博主将主要介绍结构光3D相机的硬件如何搭建,主要涉及到相机与投影仪的选型与配置。在开头,博主先给大家摘出一段语录:能从硬件层面解决的问题,就别死磕算法了。是的,能从硬件层面解决的问题,死磕算法是没有意义的。例如,当你评估自己的3D相机精度却发现始终达不到理想水平时,不要在那两三句代码上死磕,回头想想,是不是自己的硬件搭建的不好,选型选的不对。就博主经验而言,大部分做结构光3D相机没几年的小萌新们,都对相机与投影仪的硬件特性毫无理解。

推荐文章

热门文章

相关标签