Løst: scatter plot af flere variabler

Sidste ændring: 09/11/2023

Jeg vil give dig en detaljeret forklaring om oprettelse af scatter-plot for flere variabler i Python. Scatterplot er en fantastisk måde at visualisere relationerne mellem flere datapunkter. De hjælper os med at forstå, hvordan variable er korreleret, hvordan de er fordelt, og om de har afvigende punkter.

I Python giver flere biblioteker os klar til brug funktioner til at skabe scatter plots for flere variabler, såsom Matplotlib og Seaborn. Vi vil fokusere på disse to biblioteker, mens vi løser vores problem med at dechifrere forholdet mellem flere datapunkter.

Introduktion til matplotlib og seaborn

Matplotlib er et af de mest populære Python-plotbiblioteker, der producerer kvalitetsfigurer i en række forskellige formater. Det giver os mulighed for at generere plots, histogrammer, effektspektre, søjlediagrammer, fejldiagrammer, scatterplot osv., med blot et par linjer kode.

Seaborn er på den anden side baseret på Matplotlib og tæt integreret med pandas datastrukturer. Det giver en grænseflade på højt niveau til at tegne attraktiv og informativ statistisk grafik.

# Required Libraries
import matplotlib.pyplot as plt
import seaborn as sns

Problem og løsning

Med henblik på denne artikel, lad os antage, at du har et datasæt med tre variable, a, b og c. Du vil oprette punktplot, der kan vise sammenhængen mellem disse variable.

Løsningen er ligetil, vi kan bruge scatterplot()-funktionen i seaborn eller scatter()-funktionen i matplotlib til at lave scatterplot. Vi bliver også nødt til yderligere at bruge funktionen pairplot() til at lave scatterplot af flere variable.

Trin-for-trin forklaring

# Importing libraries
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Create a pandas DataFrame
df = pd.DataFrame({
'a': [1, 2, 3, 4, 5],
'b': [5, 4, 3, 2, 1],
'c': [1, 3, 5, 7, 9]
})

# Create a pair plot
sns.pairplot(df)
plt.show()

I ovenstående kode importerer vi først de nødvendige biblioteker. Vi opretter derefter en DataFrame til at opbevare vores data. Til sidst kalder vi pairplot()-funktionen fra seaborn-biblioteket for at skabe scatter-plottene.

Funktionen sns.pairplot() opretter et gitter af akser, således at hver variabel i dine data deles i y-aksen på tværs af en enkelt række og i x-aksen på tværs af en enkelt kolonne. I bund og grund skaber det scatter-plot for hvert par af variabler for os.

Yderligere biblioteker og funktioner

pandas er et andet bibliotek, der ofte går hånd i hånd med Matplotlib og Seaborn. Det er et open source-dataanalyse- og manipulationsværktøj, bygget oven på Pythons kernebibliotek til datamanipulation og -analyse.

Det giver datastrukturer og funktioner, der er nødvendige for at manipulere strukturerede data, herunder funktioner til at læse og skrive data, håndtere manglende data, filtrere data og omforme data.

# Import library
import pandas as pd

# Create a DataFrame
data = pd.read_csv('filename.csv')

Funktionen pd.read_csv() læser en CSV-fil og konverterer den til en pandas DataFrame, som derefter kan manipuleres ved hjælp af forskellige pandas-funktioner. Denne dataramme kan plottes ved brug af scatterplot()-funktionen eller pairplot()-funktionen som vist tidligere.

Relaterede indlæg: