NotebookLMスライドの文字編集方法 | Canvaでもできるけど自作しました
NotebookLMのスライドがかなり効率高く、積極的に業務活用していこうと思っているのですが、どうしても日本語精度がまだ100%には至っておりません。
NotebookLM側でも文字編集の指示ができるようになったものの、それでもまだ100%とは言えないと。
Canvaにマジックレイヤーという機能があり、それを使うと文字起こしができるようにはなるのですが、画像を一枚ずつアップロードする必要があり、なかなか手間がかかります。
ということで自作しました。
ツールの仕様
- PDFをアップロードしたら自動ですべて画像に分割する
- 1枚あたり15秒〜20秒ほどで文字認識し編集できるようになる
- 複数画像をまとめて文字認識できる (文字認識させている間に他のことを進められる)
今のところ自社だけで使う予定ですが、もしご要望あれば、ツールとして提供も検討いたしますので、ぜひお気軽にご連絡ください。
ツールの構成
- Electron (HTML+CSS+JSでデスクトップアプリが作れるツール)
- PaddleOCR
個人的にOCRといえばgeminiだったので試したのですが、今回の用途の場合、文字起こしだけでなく、座標予測が必要でした。文字サイズに合わせた縦横のサイズです。
これがLLMだとどうしてもブレが出てうまくいかないと。
色々リサーチして、PaddleOCRなるライブラリを使うことでほぼほぼ解決できました。
youtubeでも紹介しました。
最後に
生成AIをそのまま使うのももちろんですが、生成AIを相談役・リサーチャー役・開発役などに見立ててどんどん新しい機能やサービスを作れる時代というのはすごいなと改めて感じております。
こんな機能はできないか、こんな事はできないかなど、もしお悩みやご要望があれば、ぜひお気軽にご相談くださいませ。