最近は少しずつ社会的に重要な仕事を任せられることが多くなってきたので、それはそれで非常にありがたいことではあるのですが、たとえば PDF ファイルのメタデータなどから情報が漏れたりしないかということに気を払うようにならざるをえなくなります。Acrobat Pro DC にも実装されていますが、なかなか高いので無料で済ませたいものです。というわけで exiftool
と qpdf
を適当にインストールしましょう。
brew install exiftool brew install qpdf
あとはカレントディレクトリを目的の PDF ファイル(仮に input.pdf
としましょう)のある場所に移動させてから、次のように叩けば無事メタデータがほぼ不可逆的に消去された PDF ファイル output.pdf
の完成です。
exiftool -all= input.pdf qpdf --linearize input.pdf output.pdf
これを書いている途中で、次のようなツイートを発見しました。
More fun publisher surveillance:
— 𝚓𝚘𝚗𝚗𝚢﹏𝚜𝚊𝚞𝚗𝚍𝚎𝚛𝚜 (@json_dirs) January 25, 2022
Elsevier embeds a hash in the PDF metadata that is *unique for each time a PDF is downloaded*, this is a diff between metadata from two of the same paper. Combined with access timestamps, they can uniquely identify the source of any shared PDFs. pic.twitter.com/D9KxnXkMVu
たしかに、こういう文脈でも PDF ファイルからメタデータを削除することは重要になってくるんですね。