BA_PY Wiki

BA_PY: Optimize Your Workflow with Python!

Brought to you by: bhmfly

stats df

Authors:

API文档

generated by chatGPT

模块名称

pd.dataFrame utils

模块描述

该模块提供了一些用于处理和操作 pandas DataFrame 的实用函数。

函数和类

get_value

def get_value(df:pd.DataFrame, column:str, mask:np.array)->list:

该函数用于从 DataFrame 中获取指定列的值。

参数

df：pd.DataFrame，输入的 DataFrame。
column：str，要获取值的列名。
mask：np.array，用于筛选 DataFrame 行的布尔掩码。

返回值

list：指定列的值列表。

pro_bar_data

def pro_bar_data(factors:list[str], tags:list[str], df:pd.DataFrame, **kwargs):

该函数用于计算每个因素组合的均值和标准误差。

参数

factors：list[str]，要计算均值和标准误差的因素列名列表。
tags：list[str]，要计算均值和标准误差的标签列名列表。
df：pd.DataFrame，输入的 DataFrame。
**kwargs：其他可选参数。
min_sample_N：int，最小样本数阈值（大于等于）。

返回值

pd.DataFrame：计算得到的均值和标准误差的 DataFrame。

pro_bar_data_R

def pro_bar_data_R(factors:list[str], tags:list[str], df:pd.DataFrame, suffixs:list[str], **kwargs):

该函数是 pro_bar_data 的包装器，用于自定义计算函数。

参数

factors：list[str]，要计算均值和标准误差的因素列名列表。
tags：list[str]，要计算均值和标准误差的标签列名列表。
df：pd.DataFrame，输入的 DataFrame。
suffixs：list[str]，自定义计算函数返回值的后缀列表。
**kwargs：其他可选参数。

返回值

function：自定义计算函数的包装器。

get_df_data

def get_df_data(factors:dict[str, list[str]], tags:list[str], df:pd.DataFrame, include_factors:bool = True):

该函数用于根据给定的因素和标签筛选输入的 DataFrame。

参数

factors：dict[str, list[str]]，要筛选的因素和对应的值列表。
tags：list[str]，要包含在输出 DataFrame 中的列名列表。
df：pd.DataFrame，输入的 DataFrame。
include_factors：bool，是否在输出 DataFrame 中包含因素列，默认为 True。

返回值

pd.DataFrame：根据给定的因素和标签筛选得到的子 DataFrame。

sort_df_factors

def sort_df_factors(factors:list[str], tags:list[str], df:pd.DataFrame):

该函数用于对 DataFrame 的每个因素组合进行排序。

参数

factors：list[str]，要排序的因素列名列表。
tags：list[str]，要排序的标签列名列表。
df：pd.DataFrame，输入的 DataFrame。

返回值

pd.DataFrame：排序后的 DataFrame。

remove_simi

def remove_simi(tag:str, df:pd.DataFrame, sh:float = 1., backend:str = 'numpy-array', tensor = None, device = 'cuda'):

该函数用于从一组数中移除一些数，使任意两数之间的差的绝对值大于或等于阈值。

参数

tag：str，要移除数的列名。
df：pd.DataFrame，输入的 DataFrame。
sh：float，阈值。
backend：str，计算后端，可选值为 'numpy-mat'、'numpy-array' 和 'torch-array'。
tensor：torch.Tensor，用于计算的张量。
device：str，计算设备。

返回值

pd.DataFrame：移除数后的 DataFrame。
list[int]：被移除的数的索引列表。

interp

def interp(long_one:pd.Series, short_one:pd.Series):

该函数用于对短的 pd.Series 进行线性插值，使其长度与长的 pd.Series 相同。

参数

long_one：pd.Series，长的 pd.Series。
short_one：pd.Series，短的 pd.Series。

返回值

np.ndarray：插值后的短的 pd.Series。

merge_col2row

def merge_col2row(df:pd.DataFrame, cols:list[str], new_cols_name:str, value_name:str):

该函数用于将指定的列从列转换为行。

参数

df：pd.DataFrame，输入的 DataFrame。
cols：list[str]，要转换为行的列名列表。
new_cols_name：str，新列的名称。
value_name：str，值的列名。

返回值

pd.DataFrame：转换后的 DataFrame。

示例

df = pd.DataFrame({'d':[1, 2, 3, 3, 5, 6, 8, 13]})
print(remove_simi('d', df, 2.1, 'numpy'))

输出：

注意事项

在使用 pro_bar_data 函数时，需要确保输入的 DataFrame 的列名和数据格式正确。
在使用 get_df_data 函数时，需要确保输入的 DataFrame 的列名和数据格式正确，并且传入的因素和标签在 DataFrame 中存在。
在使用 remove_simi 函数时，需要确保输入的 DataFrame 的列名和数据格式正确，并且传入的列名在 DataFrame 中存在。
在使用 interp 函数时，需要确保输入的 pd.Series 的长度正确。
在使用 merge_col2row 函数时，需要确保输入的 DataFrame 的列名和数据格式正确，并且传入的列名在 DataFrame 中存在。

Wiki: stats