from src.utils.libimports.vsm import *
from src.utils.plotting.vsm import *

# Training data
D = np.asarray([
    "mayor elect term term",
    "mayor goal term win",
    "goal term win vote",
    "term goal term goal",
    "goal team player win",
    "win team win player",
    "player vote player term"
])

labels = np.asarray(["politics", "politics", "politics", "politics", "sports", "sports", "sports"])

# Extract vocabulary (lexicogrpahically sorted for consistency)
V = sorted(set([word for doc in D for word in doc.split()]))

tdm = np.zeros((len(V), len(D)), dtype=int)

df_tdm = pd.DataFrame(tdm, columns=[ f"d{d+1}" for d in range(len(D)) ])
df_tdm = df_tdm.set_index(pd.Index(V))
df_tdm

# Initialize Term-Document Matrix
tdm_binary = np.zeros((len(V), len(D)), dtype=int)

for i, doc in enumerate(D):
    for j, term in enumerate(V):
        tdm_binary[j,i] = int(term in doc.split())

df_tdm_binary = pd.DataFrame(tdm_binary, columns=[ f"d{d+1}" for d in range(len(D)) ])
df_tdm_binary = df_tdm_binary.set_index(pd.Index(V))
df_tdm_binary

row = tdm_binary[V.index("vote")]

for idx in np.argwhere(row > 0).flatten():
    print(D[idx])

goal term win vote
player vote player term

def jaccard_similarity(u, v):
    return np.sum(u*v) / np.sum(np.sign(u+v))

doc_id1, doc_id2 = 2, 3

u, v = tdm_binary[:,doc_id1-1], tdm_binary[:,doc_id2-1]

print(f"The Jaccard Similarity between documents d{doc_id1} and d{doc_id2} is: {jaccard_similarity(u, v)}")

The Jaccard Similarity between documents d2 and d3 is: 0.6

# Initialize Term-Document Matrix
tdm_tf = np.zeros((len(V), len(D)), dtype=int)

for i, doc in enumerate(D):
    for j, term in enumerate(V):
        tdm_tf[j,i] = doc.split().count(term)

df_tdm_tf = pd.DataFrame(tdm_tf, columns=[ f"d{d+1}" for d in range(len(D)) ])
df_tdm_tf = df_tdm_tf.set_index(pd.Index(V))
df_tdm_tf

mnb_classifier = MultinomialNB().fit(tdm_tf.T, labels)

doc_test = "mayor team term"
#doc_test = "player team term"
#doc_test = "team term elect"
#doc_test = "team vote victory"

# Create document vector (same steps as creating Term-Document Matrix)
doc_test_tf = np.zeros((len(V), 1), dtype=int)
for j, term in enumerate(V):
    doc_test_tf[j,0] = doc_test.split().count(term)

# Print the document vector
print(doc_test_tf.T[0])

# Predict class of test document
print(f"The predicted class for the sentence '{doc_test}' is: {mnb_classifier.predict(doc_test_tf.T)[0]}")

[0 0 1 0 1 1 0 0]
The predicted class for the sentence 'mayor team term' is: politics

# Initialize dictionary to store the document frequency for each term
df_values = defaultdict(int)

for doc in D:
    for term in set(doc.split()):
        df_values[term] = df_values[term] + 1

print(df_values)

defaultdict(<class 'int'>, {'elect': 1, 'mayor': 2, 'term': 5, 'goal': 4, 'win': 4, 'vote': 2, 'player': 3, 'team': 2})

# Initialize Term-Document Matrix
tdm_tfidf = np.zeros((len(V), len(D)), dtype=float)

for i, doc in enumerate(D):
    for j, term in enumerate(V):
        tf = doc.split().count(term)
        if tf > 0:
            tdm_tfidf[j,i] = (1 + np.log10(tf)) * np.log10(len(D) / df_values[term])

df_tdm_tfidf = pd.DataFrame(tdm_tfidf, columns=[ f"d{d+1}" for d in range(len(D)) ])
df_tdm_tfidf = df_tdm_tfidf.set_index(pd.Index(V))
df_tdm_tfidf

cosine_sims = cosine_similarity(tdm_tfidf.T)

# Convert to Pandas DataFrame for a nicer visualization
df_cosine_sims = pd.DataFrame(cosine_sims, columns=[ f"d{d+1}" for d in range(len(tdm_tfidf.T)) ])
df_cosine_sims = df_cosine_sims.set_index(pd.Series([ f"d{d+1}" for d in range(len(tdm_tfidf.T)) ]))
df_cosine_sims

clustering = AgglomerativeClustering(linkage="single", metric="cosine", compute_distances=True).fit(tdm_tfidf.T)

plt.figure()
plot_dendrogram(clustering)
plt.gca().set_xticklabels([ f"d{int(tick.get_text())+1}" for tick in plt.gca().get_xticklabels()])
plt.show()

count_vectorizer = CountVectorizer()

tdm_tf_sklearn = count_vectorizer.fit_transform(D)
vocab_sklearn = count_vectorizer.get_feature_names_out()

df_tdm_tf_sklearn = pd.DataFrame(tdm_tf_sklearn.A.T, index=list(vocab_sklearn), columns=[f"d{c}" for c in range(1, len(D)+1)])
df_tdm_tf_sklearn

tfidf_vectorizer = TfidfVectorizer(sublinear_tf=True, norm=None)

tdm_tfidf_sklearn = tfidf_vectorizer.fit_transform(D)
vocab_sklearn = count_vectorizer.get_feature_names_out()

df_tdm_tfidf_sklearn = pd.DataFrame(tdm_tfidf_sklearn.A.T, index=list(vocab_sklearn), columns=[f"d{c}" for c in range(1, len(D)+1)])
df_tdm_tfidf_sklearn

count_vectorizer3 = CountVectorizer(ngram_range=(1,3)) # Default is ngram_range=(1,1)

tdm3_tf_sklearn = count_vectorizer3.fit_transform(D)
vocab_sklearn = count_vectorizer3.get_feature_names_out()

df_tdm3_tf_sklearn = pd.DataFrame(tdm3_tf_sklearn.A.T, index=list(vocab_sklearn), columns=[ f"d{d+1}" for d in range(len(D)) ])
df_tdm3_tf_sklearn

count_vectorizer_max6 = CountVectorizer(max_features=6) # Default is None (= all features)

tdm_max6_tf = count_vectorizer_max6.fit_transform(D)
vocab_max6 = count_vectorizer_max6.get_feature_names_out()

df_tdm_max6_tf = pd.DataFrame(tdm_max6_tf.A.T, index=list(vocab_max6), columns=[ f"d{d+1}" for d in range(len(D)) ])
df_tdm_max6_tf

count_vectorizer_min2 = CountVectorizer(max_features=5) # Default is None (= all features)

tdm_min2_tf = count_vectorizer_min2.fit_transform(D)
vocab_min2 = count_vectorizer_min2.get_feature_names_out()

df_tdm_min2_tf = pd.DataFrame(tdm_min2_tf.A.T, index=list(vocab_min2), columns=[ f"d{d+1}" for d in range(len(D)) ])
df_tdm_min2_tf

	Sentence	Sentences (processed)	Class
$d_1$	The mayor was elected for this term and next term.	mayor elect term term	politics
$d_2$	A mayor's goal for the next term is to win.	mayor goal term win	politics
$d_3$	The goal for this term was to win the vote.	goal term win vote	politics
$d_4$	This term's goals are next term's goals.	term goal term goal	politics
$d_5$	The goal of any team player is the win.	goal team player win	sports
$d_6$	A win for the team is a win for each player.	win team win player	sports
$d_7$	Players vote other players for another term.	player vote player term	sports

	#chars	#words	#nouns	#apostrophes
$d_1$	50	11	3	0
$d_2$	43	11	3	1
$d_3$	43	11	3	0
$d_4$	40	8	4	2
$d_5$	39	10	4	0
$d_6$	44	12	4	0
$d_7$	44	8	3	0

	$\large d_1$	$\large d_2$	$\large d_3$	$\large d_4$	$\large d_5$	$\large d_6$	$\large \cdots$	$\large d_{\|D\|}$
$\large t_1$
$\large t_2$
$\large t_3$				$w_{3,4}$
$\large t_4$
$\large t_5$
$\large \vdots$
$\large t_{\|V\|}$

	d1	d2	d3	d4	d5	d6	d7
elect	0.845098	0.000000	0.000000	0.000000	0.000000	0.000000	0.000000
goal	0.000000	0.243038	0.243038	0.316200	0.243038	0.000000	0.000000
mayor	0.544068	0.544068	0.000000	0.000000	0.000000	0.000000	0.000000
player	0.000000	0.000000	0.000000	0.000000	0.367977	0.367977	0.478749
team	0.000000	0.000000	0.000000	0.000000	0.544068	0.544068	0.000000
term	0.190117	0.146128	0.146128	0.190117	0.000000	0.000000	0.146128
vote	0.000000	0.000000	0.544068	0.000000	0.000000	0.000000	0.544068
win	0.000000	0.243038	0.243038	0.000000	0.243038	0.316200	0.000000

	d1	d2	d3	d4	d5	d6	d7
d1	1.000000	0.479661	0.041155	0.095771	0.000000	0.000000	0.036736
d2	0.479661	1.000000	0.320296	0.429726	0.241480	0.159747	0.043768
d3	0.041155	0.320296	1.000000	0.429726	0.241480	0.159747	0.650494
d4	0.095771	0.429726	0.429726	1.000000	0.280970	0.000000	0.101850
d5	0.000000	0.241480	0.241480	0.280970	1.000000	0.940537	0.321443
d6	0.000000	0.159747	0.159747	0.000000	0.940537	1.000000	0.326887
d7	0.036736	0.043768	0.650494	0.101850	0.321443	0.326887	1.000000

Vector Space Model¶

Setting up the Notebook¶

Make Required Imports¶

Motivating Example¶

Fundamental Idea: Term-Document Matrix¶

Common Term Weights¶

Binary Weights¶

Definitions & Calculations¶

Basic Uses Cases¶

Document Filtering¶

Jaccard Similarity¶

Term Frequency Weights¶

Definitions & Calculations¶

Basic Use Case¶

TF-IDF (Term Frequency — Inverse Document Frequency)¶

Definitions & Calculations¶

Considerations¶

Basic Use Case¶

Practical Applications & Extensions¶

Calculating Term-Document Matrices with scikit-learn¶

Term Frequency Weights¶

TF-IDF Weights¶

Beyond Unigrams¶

Reducing Dimensionality¶

Discussion & Limitations¶

Summary¶

	d1	d2	d3	d4	d5	d6	d7
elect	2.386294	0.000000	0.000000	0.000000	0.000000	0.000000	0.000000
goal	0.000000	1.470004	1.470004	2.488933	1.470004	0.000000	0.000000
mayor	1.980829	1.980829	0.000000	0.000000	0.000000	0.000000	0.000000
player	0.000000	0.000000	0.000000	0.000000	1.693147	1.693147	2.866747
team	0.000000	0.000000	0.000000	0.000000	1.980829	1.980829	0.000000
term	2.180235	1.287682	1.287682	2.180235	0.000000	0.000000	1.287682
vote	0.000000	0.000000	1.980829	0.000000	0.000000	0.000000	1.980829
win	0.000000	1.470004	1.470004	0.000000	1.470004	2.488933	0.000000

	d1	d2	d3	d4	d5	d6	d7
elect	1	0	0	0	0	0	0
elect term	1	0	0	0	0	0	0
elect term term	1	0	0	0	0	0	0
goal	0	1	1	2	1	0	0
goal team	0	0	0	0	1	0	0
goal team player	0	0	0	0	1	0	0
goal term	0	1	1	1	0	0	0
goal term goal	0	0	0	1	0	0	0
goal term win	0	1	1	0	0	0	0
mayor	1	1	0	0	0	0	0
mayor elect	1	0	0	0	0	0	0
mayor elect term	1	0	0	0	0	0	0
mayor goal	0	1	0	0	0	0	0
mayor goal term	0	1	0	0	0	0	0
player	0	0	0	0	1	1	2
player term	0	0	0	0	0	0	1
player vote	0	0	0	0	0	0	1
player vote player	0	0	0	0	0	0	1
player win	0	0	0	0	1	0	0
team	0	0	0	0	1	1	0
team player	0	0	0	0	1	0	0
team player win	0	0	0	0	1	0	0
team win	0	0	0	0	0	1	0
team win player	0	0	0	0	0	1	0
term	2	1	1	2	0	0	1
term goal	0	0	0	2	0	0	0
term goal term	0	0	0	1	0	0	0
term term	1	0	0	0	0	0	0
term win	0	1	1	0	0	0	0
term win vote	0	0	1	0	0	0	0
vote	0	0	1	0	0	0	1
vote player	0	0	0	0	0	0	1
vote player term	0	0	0	0	0	0	1
win	0	1	1	0	1	2	0
win player	0	0	0	0	0	1	0
win team	0	0	0	0	0	1	0
win team win	0	0	0	0	0	1	0
win vote	0	0	1	0	0	0	0