spliter/split_data/generate_dummy_data.py at master · triangular-opensource/spliter

309 lines (255 loc) · 13.4 KB
Generate dummy data for testing the split_data project.
Creates 1000+ entries across groups, members, expenses, and splits.
from database import SplitDataDB
import random
from datetime import datetime, timedelta
from decimal import Decimal
# Sample data for realistic generation
EXPENSE_TITLES = {
    'food': [
        'McDonald', 'Starbucks', 'Pizza Hut', 'Subway', 'KFC', 'Burger King',
        'Taco Bell', 'Domino\'s Pizza', 'Chipotle', 'Panera Bread', 'Dunkin\'',
        'Olive Garden', 'Red Lobster', 'Outback Steakhouse', 'Buffalo Wild Wings',
        'Restaurant dinner', 'Lunch meeting', 'Breakfast', 'Coffee shop', 'Food truck'
    'travel': [
        'Uber ride', 'Lyft ride', 'Taxi', 'Train ticket', 'Bus fare', 'Flight ticket',
        'Hotel booking', 'Airbnb', 'Car rental', 'Gas station', 'Parking fee',
        'Toll fee', 'Metro card', 'Bike rental', 'Scooter rental'
    'entertainment': [
        'Movie tickets', 'Concert', 'Theater show', 'Museum entry', 'Amusement park',
        'Bowling', 'Karaoke', 'Escape room', 'Arcade', 'Sports game', 'Comedy show',
        'Music festival', 'Festival tickets', 'Club entry', 'Bar drinks'
    'shopping': [
        'Grocery shopping', 'Target', 'Walmart', 'Amazon order', 'Clothing store',
        'Electronics store', 'Bookstore', 'Pharmacy', 'Home Depot', 'Costco',
        'Online purchase', 'Gift shop', 'Convenience store'
    'utilities': [
        'Electricity bill', 'Water bill', 'Internet bill', 'Phone bill', 'Gas bill',
        'Cable bill', 'Streaming service', 'Insurance', 'Rent', 'Mortgage'
    'other': [
        'Gym membership', 'Gym class', 'Yoga class', 'Personal trainer', 'Doctor visit',
        'Pharmacy', 'Dry cleaning', 'Laundry', 'Haircut', 'Spa', 'Massage',
        'Car repair', 'Car wash', 'Pet supplies', 'Veterinary', 'Donation'
GROUP_NAMES = [
    'Foodies', 'Travel Buddies', 'Roommates', 'Weekend Warriors', 'Study Group',
    'Work Team', 'Family', 'Friends', 'Gym Squad', 'Concert Crew', 'Movie Night',
    'Dinner Club', 'Road Trip', 'Vacation', 'Birthday Party', 'Wedding Party',
    'Office Lunch', 'Happy Hour', 'Brunch Club', 'Coffee Group', 'Shopping Spree',
    'Game Night', 'Hiking Group', 'Beach Day', 'City Explorers', 'Adventure Seekers',
    'Food Tour', 'Wine Tasting', 'Book Club', 'Fitness Group'
FIRST_NAMES = [
    'Alex', 'Jordan', 'Taylor', 'Casey', 'Morgan', 'Riley', 'Avery', 'Quinn',
    'Sage', 'River', 'Skyler', 'Phoenix', 'Blake', 'Cameron', 'Dakota',
    'Esther', 'Finan', 'Kartik', 'Sarah', 'Michael', 'Emily', 'David', 'Jessica',
    'James', 'Emma', 'Robert', 'Olivia', 'William', 'Sophia', 'Richard', 'Isabella',
    'Joseph', 'Ava', 'Thomas', 'Mia', 'Charles', 'Charlotte', 'Christopher', 'Amelia',
    'Daniel', 'Harper', 'Matthew', 'Evelyn', 'Anthony', 'Abigail', 'Mark', 'Elizabeth',
    'Donald', 'Sofia', 'Steven', 'Avery', 'Paul', 'Ella', 'Andrew', 'Scarlett',
    'Joshua', 'Grace', 'Kenneth', 'Victoria', 'Kevin', 'Aria', 'Brian', 'Chloe'
LAST_NAMES = [
    'Smith', 'Johnson', 'Williams', 'Brown', 'Jones', 'Garcia', 'Miller', 'Davis',
    'Rodriguez', 'Martinez', 'Hernandez', 'Lopez', 'Wilson', 'Anderson', 'Thomas',
    'Taylor', 'Moore', 'Jackson', 'Martin', 'Lee', 'Thompson', 'White', 'Harris',
    'Sanchez', 'Clark', 'Ramirez', 'Lewis', 'Robinson', 'Walker', 'Young', 'Allen',
    'King', 'Wright', 'Scott', 'Torres', 'Nguyen', 'Hill', 'Flores', 'Green', 'Adams',
    'Nelson', 'Baker', 'Hall', 'Rivera', 'Campbell', 'Mitchell', 'Carter', 'Roberts'
def generate_user_ids(num_users=50):
    """Generate a list of user IDs."""
    return list(range(1, num_users + 1))
def generate_group_description(member_ids):
    """Generate a description from member names."""
    names = random.sample([f"{random.choice(FIRST_NAMES)} {random.choice(LAST_NAMES)}" 
                          for _ in range(len(member_ids))], len(member_ids))
    return ", ".join(names)
def generate_dummy_data(db, num_groups=100, num_expenses_per_group=10):
    """Generate dummy data for the database."""
    print("="*60)
    print("GENERATING DUMMY DATA")
    print("="*60)
    if not db.connect():
        print("Failed to connect to database")
        return
        # Generate user IDs (we'll use IDs 1-50)
        user_ids = generate_user_ids(50)
        all_expense_ids = []
        # Generate groups
        print(f"\n1. Generating {num_groups} groups...")
        group_ids = []
        for i in range(num_groups):
            group_name = random.choice(GROUP_NAMES)
            if i < len(GROUP_NAMES):
                group_name = GROUP_NAMES[i % len(GROUP_NAMES)]
            else:
                group_name = f"{group_name} {i // len(GROUP_NAMES) + 1}"
            # Random number of members (2-8)
            num_members = random.randint(2, 8)
            member_list = random.sample(user_ids, num_members)
            description = generate_group_description(member_list)
            creator_id = random.choice(member_list)
            # Random creation date within last 6 months
            days_ago = random.randint(0, 180)
            created_date = datetime.now() - timedelta(days=days_ago)
            query = """
                INSERT INTO `group` (group_name, description, user_id, created_dt, update_dt)
                VALUES (%s, %s, %s, %s, %s)
            db.execute_update(query, (group_name, description, creator_id, created_date, created_date))
            # Get the inserted group ID
            result = db.execute_query("SELECT LAST_INSERT_ID() as id")
            group_id = result[0]['id']
            group_ids.append(group_id)
            # Add members
            for member_id in member_list:
                member_query = """
                    INSERT INTO member (group_id, member_id)
                    VALUES (%s, %s)
                    ON DUPLICATE KEY UPDATE group_id=group_id
                db.execute_update(member_query, (group_id, member_id))
            if (i + 1) % 20 == 0:
                print(f"   Created {i + 1} groups...")
        print(f"   ✓ Created {len(group_ids)} groups")
        # Generate expenses
        print(f"\n2. Generating expenses (target: ~{num_groups * num_expenses_per_group})...")
        expense_count = 0
        for group_id in group_ids:
            # Get members of this group
            members_query = "SELECT member_id FROM member WHERE group_id = %s"
            members_result = db.execute_query(members_query, (group_id,))
            if not members_result:
                continue
            member_ids = [m['member_id'] for m in members_result]
            num_expenses = random.randint(5, num_expenses_per_group)
            for _ in range(num_expenses):
                # Choose random tag and title
                tag = random.choice(list(EXPENSE_TITLES.keys()))
                title = random.choice(EXPENSE_TITLES[tag])
                # Random amount between $5 and $500
                total_amount = Decimal(str(round(random.uniform(5, 500), 2)))
                # Random payer
                payer_id = random.choice(member_ids)
                # Random creation date (within last 6 months, after group creation)
                days_ago = random.randint(0, 180)
                created_date = datetime.now() - timedelta(days=days_ago)
                # Random settlement status (70% settled, 30% not settled)
                is_settled = random.random() > 0.3
                # Description (sometimes empty, sometimes has text)
                description = "" if random.random() > 0.3 else random.choice([
                    "Team lunch", "Shared expense", "Group activity", 
                    "Monthly bill", "One-time payment", ""
                # Insert expense
                expense_query = """
                    INSERT INTO expense (title, tag, description, is_settled, group_id, user_id, created_dt, updated_dt)
                    VALUES (%s, %s, %s, %s, %s, %s, %s, %s)
                db.execute_update(expense_query, (
                    title, tag, description, is_settled, group_id, payer_id, created_date, created_date
                # Get expense ID
                result = db.execute_query("SELECT LAST_INSERT_ID() as id")
                expense_id = result[0]['id']
                all_expense_ids.append(expense_id)
                # Generate splits
                # Decide who actually owes (not everyone might owe)
                # 60% chance that everyone splits, 40% chance only some people split
                if random.random() < 0.6 or len(member_ids) <= 2:
                    # Everyone splits equally
                    split_members = member_ids
                else:
                    # Only some members split (at least 2, but not everyone)
                    # Ensure we have at least 2 splitters and at most all members - 1
                    max_splitters = len(member_ids) - 1
                    if max_splitters >= 2:
                        num_splitters = random.randint(2, max_splitters)
                        split_members = random.sample(member_ids, num_splitters)
                        # Fallback: everyone splits if we can't have partial split
                        split_members = member_ids
                # Calculate split amount per person
                split_amount = total_amount / len(split_members)
                # Create splits
                for member_id in split_members:
                    if member_id == payer_id:
                        # Payer: positive amount, paid_or_not = NULL
                        split_query = """
                            INSERT INTO split (expense_id, group_id, user_id, amount, paid_or_not)
                            VALUES (%s, %s, %s, %s, %s)
                        db.execute_update(split_query, (
                            expense_id, group_id, member_id, total_amount, None
                        # Owe: negative amount
                        # paid_or_not: NULL if not settled, TRUE/FALSE if settled
                        if is_settled:
                            paid_status = True  # If expense is settled, all debts are paid
                            # Random: 60% paid, 40% not paid
                            paid_status = True if random.random() > 0.4 else False
                        split_query = """
                            INSERT INTO split (expense_id, group_id, user_id, amount, paid_or_not)
                            VALUES (%s, %s, %s, %s, %s)
                        db.execute_update(split_query, (
                            expense_id, group_id, member_id, -split_amount, paid_status
                expense_count += 1
                if expense_count % 100 == 0:
                    print(f"   Created {expense_count} expenses...")
        print(f"   ✓ Created {expense_count} expenses")
        # Update settlement status based on actual split data
        print(f"\n3. Updating settlement status based on split data...")
        updated = db.update_settled_expenses()
        print(f"   ✓ Updated {updated} expenses to settled status")
        # Print summary statistics
        print(f"\n4. Summary Statistics:")
        print("-" * 60)
        groups_count = db.execute_query("SELECT COUNT(*) as count FROM `group`")[0]['count']
        members_count = db.execute_query("SELECT COUNT(*) as count FROM member")[0]['count']
        expenses_count = db.execute_query("SELECT COUNT(*) as count FROM expense")[0]['count']
        splits_count = db.execute_query("SELECT COUNT(*) as count FROM split")[0]['count']
        settled_count = db.execute_query("SELECT COUNT(*) as count FROM expense WHERE is_settled = TRUE")[0]['count']
        unsettled_count = db.execute_query("SELECT COUNT(*) as count FROM expense WHERE is_settled = FALSE")[0]['count']
        print(f"   Total Groups: {groups_count}")
        print(f"   Total Memberships: {members_count}")
        print(f"   Total Expenses: {expenses_count}")
        print(f"   Total Splits: {splits_count}")
        print(f"   Settled Expenses: {settled_count}")
        print(f"   Unsettled Expenses: {unsettled_count}")
        print("\n" + "="*60)
        print("DUMMY DATA GENERATION COMPLETE!")
        print("="*60)
    except Exception as e:
        print(f"\nError generating data: {e}")
        import traceback
        traceback.print_exc()
    finally:
        db.disconnect()
def main():
    """Main function to generate dummy data."""
    db = SplitDataDB()
    # Ask user for confirmation
    print("\nThis will generate dummy data in your database.")
    print("This will add data to your existing tables.")
    response = input("Continue? (yes/no): ").strip().lower()
    if response in ['yes', 'y']:
        # Generate data: 100 groups, ~10 expenses per group = ~1000 expenses
        generate_dummy_data(db, num_groups=100, num_expenses_per_group=10)
        print("Cancelled.")
if __name__ == "__main__":
Provide feedback

Saved searches

Use saved searches to filter your results more quickly

FilesExpand file tree

generate_dummy_data.py

Latest commit

History

generate_dummy_data.py

File metadata and controls