https://www.toutiao.com/article/7416730218779492890/
在整个数据生命周期或数据管道(Data Pipeline)中,数据加工扮演着至关重要的角色。数据加工不仅是数据准备的关键环节,也是数据价值挖掘的基础。无论是数据清洗、格式转换,还是数据过滤、合并、聚合等操作,数据加工的每一步都直接影响后续分析、建模和决策的质量。通过有效的数据加工,原始数据可以被转化为高质量、结构化的信息,帮助企业做出精准决策,提升业务效率。特别是在低代码环境下,数据加工变得更加灵活和高效,使得数据工程师、分析师甚至是业务人员都能轻松应对复杂的数据处理任务,为数据驱动的决策提供强有力的支持。
SmartNotebook 实现多种数据加工低代码组件,包括数据过滤、数据列操作、数据Join合并、数据Union合并、数据透视表、数据逆透视。通过这些拖拉拽的实现数据加工基本逻辑,降低数据加工的门槛,提升数据加工的效率。
接下来一段时间我们逐步介绍各个低代码组件的功能和使用方式。接下来从数据过滤开始,下介绍数据过滤,首先插入单元格中的“更多类型”插入”过滤”单元格 。
插入数据过滤单元格
过滤单元格需要选择数据集(DataFrame)作为输入,配置过滤条件对其进行过滤,并返回一下新的数据数据(DataFrame)供后续使用(可视化分析、AI建模)。配置好的过滤器还可以添加到应用程序中,使应用程序用户能够与这些过滤器进行交互。
数据”过滤”单元格功能说明
数据”过滤”单元格主要操作元素及支持的功能如下:
选择要数据集:数据集可以加载csv、或SQL单元格执行查询结果。
结果数据集输出的数据集变量名称:可以后续使用进行可视化或机器学习建模。
过滤条件
过滤添加根据不同数据类型支持不同条件关系。
文本列支持的过滤条件类型:
is one of、is not one of:下拉框多选及输入(支持jinja2 表达式变量)
is equal to、is not equal to:单选及输入(支持jinja2 表达式变量)
is not null、 is null、is empty、is not empty
text contains、text does not contain: 输入框输入(支持jinja2 表达式变量)
数字列支持的过滤条件类型:
is one of、is not one of:多输入
is equal to、is not equal to、greater than、greater than or equal to、less than、less than or equal to:输入框
is null、is not null
日期列支持的过滤条件类型:
is after、is before、is on 、is on or after、is on or before:日期选择或输入
is not null、is null
is between:
布尔列支持的过滤条件类型:
is true、is false、 is null 、is not null
过滤条件组
将多个过滤条件组合在一起,以实现更复杂的过滤逻辑。每个条件组可以包含多个单独的条件,这些条件之间可以通过“与(AND)”或“或(OR)”逻辑进行连接。通过条件组,用户可以灵活地构建精细化的数据筛选规则,从而根据特定的需求过滤数据。条件组不仅提升了过滤的灵活性,还让用户能够更直观地进行条件配置,实现多维度的过滤控制。
条件关系:支持AND、OR
显示SQL、添加过滤条件和过滤条件组
SQL图标查看已编译的 SQL或关闭显示
过滤模式:keep rows 、remove rows
结果预览窗口
过滤单元格的特色
拖拽的方式配置过滤逻辑,低门槛的数据加工和自定义的灵活逻辑支持。
支持过滤和过程组以及多种条件关系,可以实现复杂的过滤逻辑,灵活地构建精细化的数据筛选规则,从而根据特定的需求过滤数据。
支持引入变量,可以根据上下文的进行过滤。
以SQL 为表义语言,可以修改实现独特的、个性化的过滤逻辑,默认是duckdb SQL引擎,可以更加高性能的计算,也可以扩展其他数据平台。
SmartNotebook(SNB)是一款现代化的低代码数据处理工具,特别强调其强大的数据过滤功能。通过直观的拖拽操作,用户可以轻松设置多种过滤条件,实现对数据的精准筛选。过滤单元支持文本、数字、日期和布尔类型的多种条件,允许用户灵活组合条件组,以满足复杂的分析需求。
关于SmartNotebook
SmartNoteBook(简称:SNB)是一款现代化的Data Notebook工具,它是一个开箱即用、云原生、协作式的在线数据科学与数据分析、人工智能平台,是大数据和AI应用开发的一站式平台。SNB具有以下特点:
连接性:连接到各种数据形式,包括数据文件、数据库/仓库、数据湖、图数据库、数据OpenAPI等。可以轻松地获取所需的数据,无论数据存储在哪里。
丰富性:支持数据生命周期的各个阶段的开发,包括数据集成、自助数据探索和分析、AI模型、可视化/仪表盘、数据服务和数据门户;支持Python生态体系内工具库。挖掘、展示和传达数据的见解和故事。
便捷性:拖拉拽、自助式数据加工、探索和分析、AI建模、可视化和仪表盘。低代码方式创建数据管道、数据服务。敏捷方式构建数据服务和交互式数据产品。
智能性:基于LLMs大语言模型的数据分析AI智能伴侣(数据智灵)和语义交互式数据操作新方式(智能问数)。