pandasで重複データや変更データのチェック

アンケートシステムの運用ではシステムに同一IDから複数回の回答が送信されるときがあります。以下のようにpandasで回答データからIDが重複したデータを抽出しました。

df[df.duplicated(subset='ID', keep=False)]

アンケートシステムから出力されたファイルの修正作業をしていると、どのデータを修正したのかわからなくなるときがあります。以下のようにしてオリジナルのデータと修正したデータの間で変更があったデータのみを抽出しました。

df = df1.append(df2)
df[df.dulicated(keep=False) == False]

この記事を書いた人