DAVI Introduction

Posted Nov 11, 2024 Updated Mar 24, 2025

By Wei Xiong

14 min read

DAVI Introduction

VISUALIZATION IS FACETED

视觉素养：不仅依靠直觉，还需要有系统的知识去评估图表，比如可视化的反模式、评估框架和基准。

多领域知识的融合：为实现可视化，需要从多个学科中汲取必要的知识，包括统计学、机器学习、计算机图形学、Web开发、交互设计、认知心理学、图形设计和排版。

平衡深度与广度：虽然会接触这些领域，但并不会深入研究每一个，而是挑选与可视化相关的部分，帮助学生能够构建有效的可视化作品。

WHAT IS DATA VISUALIZATION?

Visual representations of data enable us to communicate a large amount of information to our viewers.

信息可视化的目标是增强认知能力，而不仅仅是为了制作有趣的图片。信息可视化应该像汽车之于脚一样，帮助人们更有效地处理和理解复杂的信息。

“Visualization is a method of computing. It transforms the symbolic into the geometric, … Visualization offers a method for seeing the unseen. It enriches the process of scientific discovery and fosters profound and unexpected insights.

“Visualization is essentially a mapping process from computer representations to perceptual representations, choosing encoding techniques to maximize human understanding and communication.”

两种不同角度

THE VISUALIZATION PIPELINE

data analysis
filtering
mapping
rendering

from user aspect

1 rendering 用户改变透明度

对那些重叠在一起的数据进行修正

2 mapping 用户对不同性能的车进行颜色映射

我对这里所有具有加速能力的汽车非常感兴趣。

12.5，我想让所有加速度低于该值的汽车都变成红色，

3 filtering 对数据进行

4 Data Analysis 数据分析（K-means)

数据分析的主要步骤

数据收集
- 获取原始数据，数据可以来自多种来源，如数据库、传感器、API、实验、调查等。
数据清洗
- 对收集到的数据进行清理，处理缺失值、错误值或重复数据，确保数据质量。
数据探索
- 初步分析数据，利用统计方法或可视化工具来了解数据的分布、特征和趋势。常见的工具包括Python的pandas、matplotlib、R语言等。
数据建模
- 使用数学或统计模型，如回归分析、机器学习算法等，来揭示数据中的关系、预测未来趋势或分类数据。
结果解释
- 根据分析结果，提出解释或洞见，并利用这些洞见做出决策或优化业务流程。
报告与可视化
- 将分析结果转化为易于理解的图表、报告或仪表盘，方便利益相关者理解和利用数据

K-Means 是一种广泛使用的 聚类算法，用于将数据点分成不同的组（称为簇）。每个组的中心被称为质心，数据点根据它们与质心的距离进行分类。K = 5 意味着将数据分成 5 个簇。

选择簇的数量（K 值）：你必须事先决定要将数据分成多少个簇。这里，K = 5 表示你希望将数据分为 5 个簇。
随机选择 K 个初始质心：算法首先随机选择 5 个初始质心作为每个簇的中心点。
分配数据点到簇：算法根据每个数据点与质心的距离，分配数据点到最近的质心所属的簇。
更新质心：重新计算每个簇的质心，即簇内所有点的平均位置。
重复步骤 3 和 4：继续重复分配数据点和更新质心的步骤，直到质心不再发生变化或达到预设的迭代次数。

K-Means 聚类的示例：

假设我们有一组二维数据点（比如汽车的重量和加速度），我们想要把这些数据点分成 5 个簇：

K = 5 表示你打算找出 5 个不同的汽车群体，它们在重量和加速度上相似。
算法会找到每个群体的中心（质心），并根据每个汽车与质心的距离将它们分配到最近的群体。

WHY DAVI?

感官通道的优先级：

视觉：被认为是传达信息的最快和最有效的通道，因为它具有最高的带宽。
触觉：其次，通过触觉传递数据通常是次佳的选择。
听觉：对于某些场景，如医疗或需要保持视线的情况下，听觉可以作为数据传递的一种有效方式，尽管其带宽相对较低。
嗅觉：可以用来传达数据，但不如视觉和听觉常见或有效。
味觉：被认为是最狭窄的数据传递通道，虽然有一些创意的实验设备尝试使用它。

数据可视化不仅仅是计算机屏幕上的图表，也可以是物理对象或交互体验。

视觉化是传达数据的主要方式，可以帮助把分析结果和洞察力以易于理解的形式呈现给公众和其他利益相关者。

示例

触觉显示器：

示例：某些触觉显示器设计用于视觉受损的人。这些显示器上有很多小的伺服电机，每个电机可以根据底层数据的值升高或降低。例如，一个像 Excel 表格这样的触觉显示器，表格中的每个数据点会影响相应电机的高度，使得用户可以通过触摸感受到数据的变化。电机的升降代表了数据的不同值，从而提供了一种“3D”触觉体验。

声音可听化：

示例：在一些医疗场景中，如手术中，外科医生的视线应保持在病人身上，因此可能无法查看显示器。此时，通过声音的变化（如报警声）来传达数据是一种有效的方式。虽然声音通道的带宽较窄，但在特定情况下，它可以作为传递关键数据的补充方式。例如，急诊室的警报声可能提供有关病人状态的即时信息。

嗅觉数据传递：

示例：有一个项目使用旧的喷墨打印机和不同的墨水来创造嗅觉图表。每种墨水代表一种气味，通过混合不同的颜色，可以生成不同的气味。尽管这种方法在实际应用中可能不太实用，但它展示了如何通过嗅觉来传递数据。项目的目的是为了创造有趣的体验，而不是实际的数据分析工具。

可食用图表：

示例：某些项目将数据映射到食物的制备过程。例如，通过改变成分的数量、切割的粗细、烹饪时间和温度，将全球温度数据映射到不同的食物。这样做可以让人通过食物的味道直观地体验数据的变化。例如，从工业化前的寿司到完全烧焦的食物，可以体验到不同年代的全球变暖影响。虽然这种方法可能不适合实际的数据分析，但它提供了一种全身体验数据的创意方式。

The visualization design space

Different types of visualizations based on two main axes:

two main axes:

this course more focus on red area:

Nature of Information (Conceptual vs. Data-Driven):

Data-Driven Information: This involves actual, measured or observed data, such as stock prices, plotted over time. It’s about representing real-world data.
Conceptual Information: This does not rely on specific data points but rather encapsulates general understandings or frameworks. It often lacks detailed axes or units and focuses on illustrating general relationships or concepts.
数据驱动信息：这涉及随时间绘制的实际、测量或观察到的数据，例如股票价格。它表示现实世界的数据。
概念信息：这不依赖于特定的数据点，而是概括了一般的理解或框架。它通常缺乏详细的轴或单位，而侧重于说明一般的关系或概念。

Purpose of Visualization (Declarative vs. Explorative):

Declarative Visualizations: These are used to communicate specific findings or conclusions to the audience. They present a pre-determined narrative or insight.
Explorative Visualizations: These present raw data and allow users to draw their own conclusions. The aim is to let users explore the data and uncover insights themselves.

four examples

1. data driven

2. conceptual information

3. explorative

探索性可视化 (上图 “EXPLORING SOMETHING”):

标题中性: “HOUSE PRICE INDEX FOR SELECTED CITIES”
所有城市的数据线条颜色都很鲜明
没有强调任何特定趋势
允许观者自由探索数据，得出自己的结论

4. declarative

声明性可视化 (下图 “DECLARING SOMETHING”):

标题带有明确结论: “CANADIAN HOUSE PRICES RISE PAST U.S. PRICES”
加拿大城市(温哥华和多伦多)用鲜明的绿色突出显示
美国城市用淡灰色表示，降低了视觉重要性
明确引导观者注意到加拿大房价超过美国的趋势

chart type

box plot vs. volin plot

原始数据点

展示每个类别的个体数据点（A到G）。
提供最详细的视图，但大数据集时可能显得繁杂。
难以快速识别整体模式或分布。

箱形图

显示关键统计指标：中位数、四分位数和潜在的异常值。
箱体表示四分位距（IQR），内部有中位数线。
胡须延伸至数据的全范围（不包括异常值）。
适用于比较各类别的集中趋势和分布，但不展示分布的形状。

小提琴图

结合了箱形图和密度图的特点。
每个“提琴”宽度表示数据点的频率。
展示完整的分布形状，包括可能的多峰分布。
提供比箱形图更详细的分布信息，可以揭示数据的细微差异。

box plot怎么看

Data Visualization, Lecture

This post is licensed under CC BY 4.0 by the author.