Word(docx)から画像を取り出す

らら
らら

はじめに

Office製品は2007から、doc,xls,pptなど独自バイナリ形式から、Office Open XMLマイクロソフトの独自規格XML形式で保存されるようになりました。

これらのxmlをzipにて圧縮したものをdocx,xlsx,pptxとしました。

これを利用して、一括で画像を取り出す方法を紹介します。

取り出し方法

ファイル名の拡張子がdocx,xlsx,pptxに限ります。

まず、検証でdocxをダンプしてみます。

word01

C言語とかやってた兄貴たち。。ダンプとか懐かしいでしょ・・某ファイラーのキャプチャです。

上記のダンプで先頭がPK(ローカルファイルヘッダ)になっています。これはzip形式のフォーマットで保存されていることを示します。lzhなどはR.-lhなどになります。

たぶん、昔はpkzipとかいってて。PKWARE社がつくっていたいのでその頭文字?

これを、コピーしておき、バックアップのファイルの拡張子をzipに変更します。

ファイル名.docx.zipなどでも可能

解凍ソフトでみてるとこんな感じ

word02

Wordフォルダーのmediaフォルダーに使用している画像がすべてあります。

このmediaフォルダーを一括解凍すれば、便利です。

word03

さいごに

ワードだけじゃなく。エクセル、パワーポイントもx付きの拡張子ならできますよ。

また、XML形式で保存のものが多いので、以外にzipとか変更してみると中身みれちゃいますよ。。jarとか...

では。

関連記事