Menu

stats df

BHM-Bob G

API文档

generated by chatGPT

模块名称

pd.dataFrame utils

模块描述

该模块提供了一些用于处理和操作 pandas DataFrame 的实用函数。

函数和类

get_value

def get_value(df:pd.DataFrame, column:str, mask:np.array)->list:

该函数用于从 DataFrame 中获取指定列的值。

参数

  • df:pd.DataFrame,输入的 DataFrame。
  • column:str,要获取值的列名。
  • mask:np.array,用于筛选 DataFrame 行的布尔掩码。

返回值

  • list:指定列的值列表。

pro_bar_data

def pro_bar_data(factors:list[str], tags:list[str], df:pd.DataFrame, **kwargs):

该函数用于计算每个因素组合的均值和标准误差。

参数

  • factors:list[str],要计算均值和标准误差的因素列名列表。
  • tags:list[str],要计算均值和标准误差的标签列名列表。
  • df:pd.DataFrame,输入的 DataFrame。
  • **kwargs:其他可选参数。
  • min_sample_N:int,最小样本数阈值(大于等于)。

返回值

  • pd.DataFrame:计算得到的均值和标准误差的 DataFrame。

pro_bar_data_R

def pro_bar_data_R(factors:list[str], tags:list[str], df:pd.DataFrame, suffixs:list[str], **kwargs):

该函数是 pro_bar_data 的包装器,用于自定义计算函数。

参数

  • factors:list[str],要计算均值和标准误差的因素列名列表。
  • tags:list[str],要计算均值和标准误差的标签列名列表。
  • df:pd.DataFrame,输入的 DataFrame。
  • suffixs:list[str],自定义计算函数返回值的后缀列表。
  • **kwargs:其他可选参数。

返回值

  • function:自定义计算函数的包装器。

get_df_data

def get_df_data(factors:dict[str, list[str]], tags:list[str], df:pd.DataFrame, include_factors:bool = True):

该函数用于根据给定的因素和标签筛选输入的 DataFrame。

参数

  • factors:dict[str, list[str]],要筛选的因素和对应的值列表。
  • tags:list[str],要包含在输出 DataFrame 中的列名列表。
  • df:pd.DataFrame,输入的 DataFrame。
  • include_factors:bool,是否在输出 DataFrame 中包含因素列,默认为 True。

返回值

  • pd.DataFrame:根据给定的因素和标签筛选得到的子 DataFrame。

sort_df_factors

def sort_df_factors(factors:list[str], tags:list[str], df:pd.DataFrame):

该函数用于对 DataFrame 的每个因素组合进行排序。

参数

  • factors:list[str],要排序的因素列名列表。
  • tags:list[str],要排序的标签列名列表。
  • df:pd.DataFrame,输入的 DataFrame。

返回值

  • pd.DataFrame:排序后的 DataFrame。

remove_simi

def remove_simi(tag:str, df:pd.DataFrame, sh:float = 1., backend:str = 'numpy-array', tensor = None, device = 'cuda'):

该函数用于从一组数中移除一些数,使任意两数之间的差的绝对值大于或等于阈值。

参数

  • tag:str,要移除数的列名。
  • df:pd.DataFrame,输入的 DataFrame。
  • sh:float,阈值。
  • backend:str,计算后端,可选值为 'numpy-mat'、'numpy-array' 和 'torch-array'。
  • tensor:torch.Tensor,用于计算的张量。
  • device:str,计算设备。

返回值

  • pd.DataFrame:移除数后的 DataFrame。
  • list[int]:被移除的数的索引列表。

interp

def interp(long_one:pd.Series, short_one:pd.Series):

该函数用于对短的 pd.Series 进行线性插值,使其长度与长的 pd.Series 相同。

参数

  • long_one:pd.Series,长的 pd.Series。
  • short_one:pd.Series,短的 pd.Series。

返回值

  • np.ndarray:插值后的短的 pd.Series。

merge_col2row

def merge_col2row(df:pd.DataFrame, cols:list[str], new_cols_name:str, value_name:str):

该函数用于将指定的列从列转换为行。

参数

  • df:pd.DataFrame,输入的 DataFrame。
  • cols:list[str],要转换为行的列名列表。
  • new_cols_name:str,新列的名称。
  • value_name:str,值的列名。

返回值

  • pd.DataFrame:转换后的 DataFrame。

示例

df = pd.DataFrame({'d':[1, 2, 3, 3, 5, 6, 8, 13]})
print(remove_simi('d', df, 2.1, 'numpy'))

输出:

    d
0   1
4   5
6   8
7  13

注意事项

  • 在使用 pro_bar_data 函数时,需要确保输入的 DataFrame 的列名和数据格式正确。
  • 在使用 get_df_data 函数时,需要确保输入的 DataFrame 的列名和数据格式正确,并且传入的因素和标签在 DataFrame 中存在。
  • 在使用 remove_simi 函数时,需要确保输入的 DataFrame 的列名和数据格式正确,并且传入的列名在 DataFrame 中存在。
  • 在使用 interp 函数时,需要确保输入的 pd.Series 的长度正确。
  • 在使用 merge_col2row 函数时,需要确保输入的 DataFrame 的列名和数据格式正确,并且传入的列名在 DataFrame 中存在。

Related

Wiki: stats

Want the latest updates on software, tech news, and AI?
Get latest updates about software, tech news, and AI from SourceForge directly in your inbox once a month.