Basic Components API Reference

This document provides detailed documentation for basic components in Torch-RecHub, including feature processing, data transformation, and other fundamental functionalities.

Feature Processing

Feature Columns

DenseFeature

Introduction: Process continuous numerical features.
Parameters:
name (str): Feature name
dimension (int): Feature dimension
dtype (str): Data type, default 'float32'

SparseFeature

Introduction: Process discrete categorical features.
Parameters:
name (str): Feature name
vocabulary_size (int): Size of category vocabulary
embedding_dim (int): Embedding vector dimension
dtype (str): Data type, default 'int32'
embedding_name (str): Embedding layer name, default None

VarLenSparseFeature

Introduction: Process variable-length discrete features.
Parameters:
name (str): Feature name
vocabulary_size (int): Size of category vocabulary
embedding_dim (int): Embedding vector dimension
maxlen (int): Maximum sequence length
dtype (str): Data type, default 'int32'
embedding_name (str): Embedding layer name, default None
combiner (str): Sequence pooling method, options: 'sum', 'mean', 'max', default 'mean'

Data Transformation

Data Preprocessing

MinMaxScaler

Introduction: Normalize numerical features.
Parameters:
feature_range (tuple): Normalization range, default (0, 1)

StandardScaler

Introduction: Standardize numerical features.
Parameters:
with_mean (bool): Whether to remove mean, default True
with_std (bool): Whether to scale by standard deviation, default True

LabelEncoder

Introduction: Encode categorical features.
Methods:
fit(values): Fit the encoder
transform(values): Transform data
fit_transform(values): Fit and transform

Data Format Conversion

pandas_to_torch

Introduction: Convert Pandas data to PyTorch tensors.
Parameters:
df (pd.DataFrame): Input DataFrame
dense_cols (list): List of continuous feature column names
sparse_cols (list): List of discrete feature column names
device (str): Device type, 'cpu' or 'cuda'

numpy_to_torch

Introduction: Convert NumPy arrays to PyTorch tensors.
Parameters:
arrays (list): List of NumPy arrays
device (str): Device type, 'cpu' or 'cuda'

Model Components

Activation Functions

Dice

Introduction: Dice activation function, proposed in Deep Interest Network (DIN).
Parameters:
epsilon (float): Smoothing parameter, default 1e-3
device (str): Device type, default 'cpu'

Attention Mechanisms

ScaledDotProductAttention

Introduction: Scaled dot-product attention mechanism.
Parameters:
temperature (float): Temperature parameter for scaling
attn_dropout (float): Attention dropout rate

MultiHeadAttention

Introduction: Multi-head attention mechanism.
Parameters:
d_model (int): Model dimension
n_heads (int): Number of attention heads
d_k (int): Key vector dimension
d_v (int): Value vector dimension
dropout (float): Dropout rate