Upload New File

e057b366 · mcoth · b26eb067 · e057b366
Commit e057b366 authored 8 months ago by mcoth
--- a/Main_script.py
+++ b/Main_script.py
+#!/usr/bin/env python3
+# -*- coding: utf-8 -*-
+"""
+Created on Sun Sep  1 13:50:11 2024
+
+@author: Maya Coulson Theodorsen (mcoth@dtu.dk)
+
+This is the main script used for the analysis. Runninng this file alone is
+sufficient, as long as the custom functions below are also imported. 
+
+"""
+
+import os
+os.chdir('/Volumes/T7/')
+import sys
+sys.path.append('/Volumes/T7')  # Path
+
+# Import custom functions
+from Import_data import load_data
+from Sort_data import sort_data
+from Perform_pca import perform_pca
+from Perform_clustering import perform_clustering
+from Compare_clusters import compare_clusters
+from Descriptives import total_descriptives, cluster_descriptives
+
+#Import all necessary packages
+import numpy as np
+import pandas as pd
+
+# Plotting
+import matplotlib.pyplot as plt
+import seaborn as sns
+
+# PCA
+from sklearn.decomposition import PCA
+from sklearn.cluster import KMeans
+from sklearn import metrics
+from factor_analyzer.factor_analyzer import calculate_bartlett_sphericity, calculate_kmo
+
+#Clustering
+from scipy.cluster.hierarchy import dendrogram, linkage
+from yellowbrick.cluster import KElbowVisualizer, SilhouetteVisualizer
+
+# Statisticl tests
+import pingouin as pg
+import scipy.stats as stats
+import statsmodels.api as sm
+import scikit_posthocs as sp
+from sklearn.preprocessing import StandardScaler
+from scipy.stats import bartlett, levene, chi2_contingency
+from pingouin import normality, kruskal, homoscedasticity
+from itertools import combinations
+from statsmodels.stats.multitest import multipletests
+
+# Turn off warnings
+import warnings
+warnings.filterwarnings("ignore")
+
+#%% Import data using my Import_data function file
+data_complete = load_data("/Volumes/T7/data6_9_2023.csv")
+data = data_complete.loc[:, 'q0010_0001': 'q0014_0007']
+#%% Call the sort_data function
+data, DASS, PCL, questionnaireClusters, questionnaireClusters_std, std_data, columnNames, PCAcolumns, data_complete = sort_data(data_complete)
+
+#%% Call the perform_pca function
+pca, loadings, principleComponents = perform_pca(std_data, PCAcolumns, columnNames)
+
+#%% Call the perform_clustering function
+PC234, LABELS, clusterNames = perform_clustering(std_data, principleComponents, data_complete, questionnaireClusters, questionnaireClusters_std)
+
+#%% Call the function to compare clusters across all variables
+p_values, posthoc_p_values, categorical_variables, continuous_variables = compare_clusters(data_complete, questionnaireClusters)
+pd.options.display.float_format = '{:.10f}'.format
+p_values = pd.DataFrame(p_values)
+posthoc_p_values = pd.DataFrame(posthoc_p_values)
+
+#%% Descriptive stats for total N and each k
+cluster_column = 'clusters'
+sorter = ['Sex (male)', 'Age', 'Civil status (single)', 'Children', 'Unemployed', 
+          'Self-rated health', 'Psychoanaleptica', 'Psycholeptica', 'Excessive alcohol intake',
+          'Current drug usage', 'Suicidal history', 'Probable childhood ADHD', 'Exposed to war', 'combat',
+          'PCL Intrusion', 'PCL Avoidance', 'PCL Numbing', 'PCL Hyperarousal', 'DASS Anxiety',
+          'DASS Depression', 'DASS Stress', 'PCL total score', 'Probable PTSD diagnosis','Total traumas',
+          'Total unique traumas']
+
+binary_variables = ['PTSD_t0_DSMIV','q0002', 'q0006', 'civil_status', 'Psychoanaleptica', 'Psycholeptica', 'binge','q0033_0001', 'ADHD_total_GROUP_t0', 'drugs', 'Military_trauma', 'combat','Unemployed']
+
+descriptives_total = total_descriptives(data_complete, questionnaireClusters,categorical_variables, continuous_variables, binary_variables, sorter)
+
+descriptives_cluster = cluster_descriptives(data_complete, questionnaireClusters,categorical_variables, continuous_variables, cluster_column, binary_variables, sorter)