CourseProject/train.py at main · cf16-uiuc/CourseProject

94 lines (73 loc) · 3.09 KB
# importing necessary packages
from simpletransformers.classification import ClassificationModel, ClassificationArgs
import pandas as pd
import json
from emot.emo_unicode import UNICODE_EMO
from sklearn.model_selection import train_test_split
from gensim.parsing.preprocessing import remove_stopwords
# Initialize variables
DATA_INPUT = './data/train.jsonl'
EARLY_STOP = True
EARLY_STOP_DELTA = 0.01
OVERWRITE = True
BATCH_SIZE = 100
LEARNING_RATE = 0.00004
MODEL_TYPE = 'bert'
MODEL_BASE = 'bert-base-cased'
OUTPUT = 'outputs/'
word_dist = []
# Converts emojis into text
def convert_emojis(text):
    for emot in UNICODE_EMO:
        text = text.replace(emot, "_".join(UNICODE_EMO[emot].replace(",", "").replace(":", "").split()))
    return text
# Train BERT model
def bert_training(model_type, model_base, train_data, early_stop,
                  early_stop_delta, overwrite, epoch, batch_size,
                  learning_rate, output):
    # Bringing in the training data
    with open(train_data, 'r') as json_file:
        json_list = list(json_file)
    for json_str in json_list:
        train.append(json.loads(json_str))
    # Data cleaning
    train_labels = [train[i]['label'] for i in range(len(train))]
    train_response = [remove_stopwords(convert_emojis(train[i]['response'])) for i in range(len(train))]
    # Split data into training and test sets
    labels_train, labels_test, response_train, response_test = train_test_split(train_labels,
    # Convert SARCASM/NO SARCASM labels into 1s and 0s
    labels_train_pd = (pd.DataFrame(labels_train) == 'SARCASM').astype(int)
    labels_test_pd = (pd.DataFrame(labels_test) == 'SARCASM').astype(int)
    response_train_pd = pd.DataFrame(response_train)
    response_test_pd = pd.DataFrame(response_test)
    train_bert = pd.DataFrame({
        'text': response_train_pd[0].replace(r'\n', ' ', regex=True),
        'label': labels_train_pd[0]
    eval_bert = pd.DataFrame({
        'text': response_test_pd[0].replace(r'\n', ' ', regex=True),
        'label': labels_test_pd[0]
    model_args = ClassificationArgs()
    model_args.use_early_stopping = early_stop
    model_args.early_stopping_delta = early_stop_delta
    model_args.overwrite_output_dir = overwrite
    model_args.num_train_epochs = epoch
    model_args.train_batch_size = batch_size
    model_args.learning_rate = learning_rate
    model_args.output_dir = output
    # Create a TransformerModel
    model = ClassificationModel(model_type, model_base, use_cuda=False,
                                args=model_args)
    # Train the model
    model.train_model(train_bert)
    # Evaluate the model
    model.eval_model(eval_bert)
bert_training(MODEL_TYPE, MODEL_BASE, DATA_INPUT, EARLY_STOP,
              EARLY_STOP_DELTA, OVERWRITE, EPOCHS, BATCH_SIZE, LEARNING_RATE, OUTPUT)
Provide feedback

Saved searches

Use saved searches to filter your results more quickly

FilesExpand file tree

train.py

Latest commit

History

train.py

File metadata and controls