판다 panda 를 이용해서
엑셀의 특정행에 중복되어 있는 데이터를
제거하고 다시 저장하는 프로세스를 진행한다.
먼저 판다를 쓸때에는 엑셀의 첫행을 인덱스로 쓰기 때문에
인덱스로 쓸 내용을 적어 주어야 한다.
나는 mail과 name을 사용하였다.
판다를 임포트한다.
import pandas as pd
판다를 이용해 엑셀파일을 열어 저장한다.
apart = pd.read_excel("test1sample.xlsx", sheet_name='Sheet1')이때 xlrd에러가 발생할 수 있다.
에러해결은 아래 링크를 참조하자
https://black-white-all.blogspot.com/2020/07/python.htmlmail이라는 컬럼에 있는 중복부분을 빼준다.
df = apart.drop_duplicates(["mail"], keep = "first")df = apart.drop_duplicates(["mail"], keep = "last")df = apart.drop_duplicates(["mail"])
중복부분을 어떻게 할것인가의 선택이다.
first는 첫부분은 남겨놓는다.
last는 마지막 부분을 남겨놓는다.
keep 조건이 없으면 중복부분은 모두 삭제이다.
df.to_excel('result.xlsx', sheet_name='Sheet1')result.xlsx파일에 작업한 결과물을 저장한다.
openpyxl 이 install되어 있어야 한다.
이때 박스의 인덱스 부분을 없애고 싶다면 index를 설정해주면 된다.
df.to_excel('result.xlsx', sheet_name = 'Sheet1', index = False)
댓글 없음:
댓글 쓰기