split_data

Split Data - Analytics Service

This is the Analytics Service component of the Splitwise Clone project, implementing 4 core responsibilities:

Spending pattern analysis and visualization
Group spending statistics aggregation
ML-based expense categorization
Historical trend analysis

Project Structure

split_data/
├── Core Python Files
│   ├── analysis.py              # Spending patterns, group stats, trend analysis
│   ├── chart_data.py            # Chart data generation for visualization
│   ├── expense_classifier.py   # ML-based expense categorization
│   ├── database.py              # Database connection and queries
│   └── api_server.py            # Flask API server
│
├── ML Components
│   ├── train_classifier.py      # Train the ML model
│   └── expense_classifier_model.pkl  # Trained model (run train_classifier.py first)
│
├── Database
│   └── init.sql                 # Database schema
│
├── Docker
│   ├── Dockerfile               # Container configuration
│   └── docker-compose.yml      # Full stack setup (API + MySQL)
│
├── Testing
│   ├── test_all_responsibilities.py  # Test all 4 responsibilities
│   ├── test_classifier.py      # Test ML classifier
│   ├── test_workflow.py        # Test complete workflow
│   └── test_settlement_logic.py  # Test settlement logic
│
├── Utilities
│   ├── generate_dummy_data.py  # Generate test data
│   ├── settlement_checker.py   # Background settlement checker service
│   ├── chart_data_api.py       # CLI script for chart data
│   └── api_example.py          # API usage examples
│
└── Documentation
    ├── RESPONSIBILITIES_GUIDE.md  # Complete API documentation
    ├── HOW_TO_TEST.md            # Testing guide
    └── DOCKER_SETUP.md           # Docker setup guide

Quick Start

Prerequisites

Python 3.8+
MySQL (via Docker)
Docker & Docker Compose

Setup

Install dependencies:
```
pip install -r requirements.txt
```
Train the ML model (first time only):
```
python3 train_classifier.py
```
Start the database:
```
docker-compose up -d mysql
```
Generate test data (optional):
```
python3 generate_dummy_data.py
```
Start the API server:
```
python3 api_server.py
```
Or use Docker Compose for everything:
```
docker-compose up -d
```

API Endpoints

Analysis Endpoints (Your 4 Responsibilities)

GET /api/users/<user_id>/analysis/patterns - Spending pattern analysis
GET /api/groups/<group_id>/statistics - Group spending statistics
POST /api/tags/suggest - ML-based expense categorization (top 3 suggestions)
GET /api/users/<user_id>/analysis/trends - Historical trend analysis

Chart Data Endpoints

GET /api/users/<user_id>/charts - All chart data
GET /api/users/<user_id>/charts/weekly - Weekly expenses
GET /api/users/<user_id>/charts/monthly - Monthly expenses
GET /api/users/<user_id>/charts/categories - Expenses by category

See RESPONSIBILITIES_GUIDE.md for complete API documentation.

Testing

Run all tests:

python3 test_all_responsibilities.py

Test individual components:

python3 test_classifier.py      # Test ML classifier
python3 analysis.py             # Test analysis functions
python3 test_workflow.py        # Test complete workflow

See HOW_TO_TEST.md for detailed testing instructions.

Technology Stack

Language: Python 3.8+
Framework: Flask (REST API)
ML Library: scikit-learn (TF-IDF + Naive Bayes)
Database: MySQL
Containerization: Docker & Docker Compose

Key Files for Each Responsibility

Responsibility	Main Files
#1: Spending Patterns	`analysis.py`, `chart_data.py`
#2: Group Statistics	`analysis.py`
#3: ML Categorization	`expense_classifier.py`, `train_classifier.py`
#4: Historical Trends	`analysis.py`

Documentation

RESPONSIBILITIES_GUIDE.md - Complete API documentation with examples
HOW_TO_TEST.md - Testing guide for all 4 responsibilities
DOCKER_SETUP.md - Docker deployment guide

Author

Jiawei Li - Analytics Service Implementation

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

Split Data - Analytics Service

Project Structure

Quick Start

Prerequisites

Setup

API Endpoints

Analysis Endpoints (Your 4 Responsibilities)

Chart Data Endpoints

Testing

Technology Stack

Key Files for Each Responsibility

Documentation

Author

Name		Name	Last commit message	Last commit date
parent directory ..
.dockerignore		.dockerignore
.gitignore		.gitignore
DOCKER_SETUP.md		DOCKER_SETUP.md
Dockerfile		Dockerfile
README.md		README.md
analysis.py		analysis.py
api_example.py		api_example.py
api_server.py		api_server.py
chart_data.py		chart_data.py
chart_data_api.py		chart_data_api.py
cleanup_and_organize.sh		cleanup_and_organize.sh
database.py		database.py
docker-compose.yml		docker-compose.yml
expense_classifier.py		expense_classifier.py
expense_classifier_model.pkl		expense_classifier_model.pkl
generate_dummy_data.py		generate_dummy_data.py
init.sql		init.sql
requirements.txt		requirements.txt
settlement_checker.py		settlement_checker.py
start_api.sh		start_api.sh
test_all_responsibilities.py		test_all_responsibilities.py
test_classifier.py		test_classifier.py
test_settlement_logic.py		test_settlement_logic.py
test_workflow.py		test_workflow.py
train_classifier.py		train_classifier.py

FilesExpand file tree

split_data

Directory actions

More options

Directory actions

More options

Latest commit

History

split_data

Folders and files

parent directory

README.md

Split Data - Analytics Service

Project Structure

Quick Start

Prerequisites

Setup

API Endpoints

Analysis Endpoints (Your 4 Responsibilities)

Chart Data Endpoints

Testing

Technology Stack

Key Files for Each Responsibility

Documentation

Author