반응형

dataframe 5

Pandas DataFrame에 대한 인덱스를 1에서 시작합니다.

Pandas DataFrame에 대한 인덱스를 1에서 시작합니다. CSV에 Pandas DataFrame을 작성할 때 인덱스가 0이 아닌 1에서 시작해야 합니다. 예는 다음과 같습니다. In [1]: import pandas as pd In [2]: result = pd.DataFrame({'Count': [83, 19, 20]}) In [3]: result.to_csv('result.csv', index_label='Event_id') 이를 통해 다음과 같은 출력을(를) In [4]: !cat result.csv Event_id,Count 0,83 1,19 2,20 하지만 제가 원하는 결과는 다음과 같습니다. In [5]: !cat result2.csv Event_id,Count 1,83 2,19 3,..

programing 2023.10.19

pyspark 데이터 프레임에서 문자열 유형의 열을 int 형식으로 변환하는 방법은 무엇입니까?

pyspark 데이터 프레임에서 문자열 유형의 열을 int 형식으로 변환하는 방법은 무엇입니까? pyspark에 데이터 프레임이 있습니다.일부 숫자 열은 다음을 포함합니다.nan그래서 내가 데이터를 읽고 데이터 프레임의 스키마를 확인할 때, 그 열들은string유형. int 타입으로 변경하는 방법.교체했습니다.nan값이 0이고 스키마를 다시 확인했지만 해당 열에 대한 문자열 유형도 표시됩니다.저는 아래 코드를 따르고 있습니다. data_df = sqlContext.read.format("csv").load('data.csv',header=True, inferSchema="true") data_df.printSchema() data_df = data_df.fillna(0) data_df.printSchem..

programing 2023.09.24

팬더 데이터 프레임을 신청하기 위해 람다를 전달하는 데 문제가 있음

팬더 데이터 프레임을 신청하기 위해 람다를 전달하는 데 문제가 있음 팬더 DataFrame의 모든 행에 함수를 적용하려고 합니다(실제로 해당 DataFrame에서 한 열만 있음). 이것은 구문 오류라고 확신하지만 내가 무엇을 잘못하고 있는지 확신합니다. df['col'].apply(lambda x, y:(x - y).total_seconds(), args=[d1], axis=1) 그col열은 많은 a를 포함합니다.datetime.datetime물건들과d1그들 중 가장 초기의 것입니다.각 행에 대한 총 초수의 열을 구하려고 합니다. 다음 오류가 계속 발생합니다. TypeError: () got an unexpected keyword argument 'axis' 나는 왜 그런지 이해하지 않아요.axis내게 ..

programing 2023.09.24

팬더 데이터 프레임에 대한 그룹별 및 pivot_table의 차이

팬더 데이터 프레임에 대한 그룹별 및 pivot_table의 차이 팬더를 배우기 시작한 지 얼마 되지 않았는데 혹시 팬더와 다른 점이 있는지 궁금합니다.groupby그리고.pivot_table기능들.누가 그들 사이의 차이를 이해하는 것을 도와줄 수 있습니까?둘다요.pivot_table그리고.groupby데이터 프레임을 집계하는 데 사용됩니다.결과의 모양에만 차이가 있습니다. 사용.pd.pivot_table(df, index=["a"], columns=["b"], values=["c"], aggfunc=np.sum)테이블이 생성됩니다.a행 축에 있습니다.b열 축에 있으며 값은 다음의 합입니다.c. 예: df = pd.DataFrame({"a": [1,2,3,1,2,3], "b":[1,1,1,2,2,2], ..

programing 2023.09.14
반응형