Imdb_ML/preprocessor_tester.py at main · thijnperd/Imdb_ML · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
import pandas as pd
import joblib

# CSV-bestand inladen
df = pd.read_csv("imdb_movies_schoon.csv", skipinitialspace=True)
df.columns = df.columns.str.strip()

# Voeg 'release_month' en 'release_year' toe op basis van de 'release_date'
df["release_date"] = pd.to_datetime(df["release_date"], errors="coerce")
df["release_month"] = df["release_date"].dt.month
df["release_year"] = df["release_date"].dt.year

# Laad de preprocessor die je eerder hebt opgeslagen
preprocessor = joblib.load("preprocessor.joblib")

# Test de preprocessor op een subset van de dataset (gebruik de eerste paar rijen)
X_test = df.head()  # Gebruik de eerste paar rijen om snel te testen
X_transformed = preprocessor.transform(X_test)

# Bekijk de getransformeerde data (voorbeeld van de eerste paar rijen)
print("Getransformeerde data (voorbeeld):")
print(X_transformed.toarray())  # Zet het om naar een array om het beter te kunnen bekijken

# Voor OneHotEncoder (categorieën van 'country')
country_encoder = preprocessor.transformers_[1][1]
print("\nOne-hot encoding van 'country':")
print(country_encoder.categories_)

# Voor TfidfVectorizer (overview, genre, cast)
overview_vectorizer = preprocessor.transformers_[2][1]
print("\nKenmerken van de TfidfVectorizer voor 'overview':")
print(overview_vectorizer.get_feature_names_out())

genre_vectorizer = preprocessor.transformers_[3][1]
print("\nKenmerken van de TfidfVectorizer voor 'genre':")
print(genre_vectorizer.get_feature_names_out())

cast_vectorizer = preprocessor.transformers_[4][1]
print("\nKenmerken van de TfidfVectorizer voor 'cast':")
print(cast_vectorizer.get_feature_names_out())

# Test de geladen preprocessor opnieuw
X_transformed_loaded = preprocessor.transform(X_test)
print("\nGetransformeerde data na herladen:")
print(X_transformed_loaded.toarray())