레이블이 drop_duplicates인 게시물을 표시합니다. 모든 게시물 표시
레이블이 drop_duplicates인 게시물을 표시합니다. 모든 게시물 표시

2020년 7월 10일 금요일

[파이썬] panda 판다 를 이용한 엑셀 중복 제거 저장

파이썬에서
판다 panda 를 이용해서
엑셀의 특정행에 중복되어 있는 데이터를
제거하고 다시 저장하는 프로세스를 진행한다.

먼저 판다를 쓸때에는 엑셀의 첫행을 인덱스로 쓰기 때문에
인덱스로 쓸 내용을 적어 주어야 한다.

나는 mail과 name을 사용하였다.


판다를 임포트한다.

import pandas as pd

판다를 이용해 엑셀파일을 열어 저장한다.

apart = pd.read_excel("test1sample.xlsx", sheet_name='Sheet1')

이때 xlrd에러가 발생할 수 있다. 
에러해결은 아래 링크를 참조하자

https://black-white-all.blogspot.com/2020/07/python.html

mail이라는 컬럼에 있는 중복부분을 빼준다.

df = apart.drop_duplicates(["mail"], keep = "first")

df = apart.drop_duplicates(["mail"], keep = "last")

df = apart.drop_duplicates(["mail"])

중복부분을 어떻게 할것인가의 선택이다.
first는 첫부분은 남겨놓는다.
last는 마지막 부분을 남겨놓는다.
keep 조건이 없으면 중복부분은 모두 삭제이다.

df.to_excel('result.xlsx', sheet_name='Sheet1')


result.xlsx파일에 작업한 결과물을 저장한다.
openpyxl 이 install되어 있어야 한다.


이때 박스의 인덱스 부분을 없애고 싶다면 index를 설정해주면 된다.

df.to_excel('result.xlsx', sheet_name = 'Sheet1', index = False)