generated by chatGPT
pd.dataFrame utils
该模块提供了一些用于处理和操作 pandas DataFrame 的实用函数。
def get_value(df:pd.DataFrame, column:str, mask:np.array)->list:
该函数用于从 DataFrame 中获取指定列的值。
df
:pd.DataFrame,输入的 DataFrame。column
:str,要获取值的列名。mask
:np.array,用于筛选 DataFrame 行的布尔掩码。def pro_bar_data(factors:list[str], tags:list[str], df:pd.DataFrame, **kwargs):
该函数用于计算每个因素组合的均值和标准误差。
factors
:list[str],要计算均值和标准误差的因素列名列表。tags
:list[str],要计算均值和标准误差的标签列名列表。df
:pd.DataFrame,输入的 DataFrame。**kwargs
:其他可选参数。min_sample_N
:int,最小样本数阈值(大于等于)。def pro_bar_data_R(factors:list[str], tags:list[str], df:pd.DataFrame, suffixs:list[str], **kwargs):
该函数是 pro_bar_data
的包装器,用于自定义计算函数。
factors
:list[str],要计算均值和标准误差的因素列名列表。tags
:list[str],要计算均值和标准误差的标签列名列表。df
:pd.DataFrame,输入的 DataFrame。suffixs
:list[str],自定义计算函数返回值的后缀列表。**kwargs
:其他可选参数。def get_df_data(factors:dict[str, list[str]], tags:list[str], df:pd.DataFrame, include_factors:bool = True):
该函数用于根据给定的因素和标签筛选输入的 DataFrame。
factors
:dict[str, list[str]],要筛选的因素和对应的值列表。tags
:list[str],要包含在输出 DataFrame 中的列名列表。df
:pd.DataFrame,输入的 DataFrame。include_factors
:bool,是否在输出 DataFrame 中包含因素列,默认为 True。def sort_df_factors(factors:list[str], tags:list[str], df:pd.DataFrame):
该函数用于对 DataFrame 的每个因素组合进行排序。
def remove_simi(tag:str, df:pd.DataFrame, sh:float = 1., backend:str = 'numpy-array', tensor = None, device = 'cuda'):
该函数用于从一组数中移除一些数,使任意两数之间的差的绝对值大于或等于阈值。
tag
:str,要移除数的列名。df
:pd.DataFrame,输入的 DataFrame。sh
:float,阈值。backend
:str,计算后端,可选值为 'numpy-mat'、'numpy-array' 和 'torch-array'。tensor
:torch.Tensor,用于计算的张量。device
:str,计算设备。def interp(long_one:pd.Series, short_one:pd.Series):
该函数用于对短的 pd.Series 进行线性插值,使其长度与长的 pd.Series 相同。
long_one
:pd.Series,长的 pd.Series。short_one
:pd.Series,短的 pd.Series。def merge_col2row(df:pd.DataFrame, cols:list[str], new_cols_name:str, value_name:str):
该函数用于将指定的列从列转换为行。
df
:pd.DataFrame,输入的 DataFrame。cols
:list[str],要转换为行的列名列表。new_cols_name
:str,新列的名称。value_name
:str,值的列名。df = pd.DataFrame({'d':[1, 2, 3, 3, 5, 6, 8, 13]})
print(remove_simi('d', df, 2.1, 'numpy'))
输出:
d
0 1
4 5
6 8
7 13
pro_bar_data
函数时,需要确保输入的 DataFrame 的列名和数据格式正确。get_df_data
函数时,需要确保输入的 DataFrame 的列名和数据格式正确,并且传入的因素和标签在 DataFrame 中存在。remove_simi
函数时,需要确保输入的 DataFrame 的列名和数据格式正确,并且传入的列名在 DataFrame 中存在。interp
函数时,需要确保输入的 pd.Series 的长度正确。merge_col2row
函数时,需要确保输入的 DataFrame 的列名和数据格式正确,并且传入的列名在 DataFrame 中存在。