Spaces:

knguyen471
/

team-149-project

Running

knguyen471 commited on 18 days ago

Commit

d1b23d2

verified ·

1 Parent(s): 1895a09

Upload tfidf_similarity.py

Files changed (1) hide show

utils/tfidf_similarity.py CHANGED Viewed

@@ -6,8 +6,7 @@ from sklearn.feature_extraction.text import TfidfVectorizer
 class TFIDF_Vectorizer():
     def __init__(self, load_vectorizer=None, stop_words='english', min_df=2):
-        self.vectorizer_path = "tfidf_vectorizer.pkl"
-        self.tfidf_matrix_path = "tfidf_matrix.npz"
         if load_vectorizer:
             with open(self.vectorizer_path, 'rb') as file:
@@ -16,15 +15,7 @@ class TFIDF_Vectorizer():
             self.vectorizer = TfidfVectorizer(stop_words=stop_words, min_df=min_df)
     def compute_tfidf_matrix(self, texts):
-        features = self.vectorizer.fit_transform(texts)
-        # save vectorizer
-        with open(self.vectorizer_path, 'wb') as file:
-            pickle.dump(self.vectorizer, file)
-        # save tfidf matrix
-        save_npz(self.tfidf_matrix_path, features)
-        return features
     def transform(self, texts: list) -> any:
         return self.vectorizer.transform(texts)

 class TFIDF_Vectorizer():
     def __init__(self, load_vectorizer=None, stop_words='english', min_df=2):
+        self.vectorizer_path = "data/tfidf_vectorizer.pkl"
         if load_vectorizer:
             with open(self.vectorizer_path, 'rb') as file:
             self.vectorizer = TfidfVectorizer(stop_words=stop_words, min_df=min_df)
     def compute_tfidf_matrix(self, texts):
+        return self.vectorizer.fit_transform(texts)
     def transform(self, texts: list) -> any:
         return self.vectorizer.transform(texts)