実践

自然言語処理・練習用データ

管理人 — Tue, 26 Mar 2024 13:53:02 +0000

【感傷に浸るのは楽。そんなことよりもやれよ！】
感傷に浸るのは誰にでもできる現実逃避の手段。そんなものに浸っていても何も起きない。だったら、やれよ。そんな暇はお前にはねぇよ。落ち込んでる時間が勿体無い。自分を奮い立たせろよ。できなかったぁー、じゃなくてできるようになればいいだけ。お前にはその力もメンタルも備わってるだろ！それは俺自信が一番わかってる。だったらやればいいじゃん。頼むから動いてくれよ！

【起床前後のお前はお前じゃない】
きっちりタイマー通りに起きるのは難しい。そして、それができないと自分を責めてしまう。でも、違う。起床前後の自分はもう1人の自分なのだ。だから、起きれなくても責める必要はない。それよりも、もう1人の自分がいると認識することが大切。そして、いかにそいつに勝つかを考え、行動に移すことが朝を制す男になれるかがだ。

【不可能はない】
ロジャーバニスター効果とはある1人が不可能だと思われることを成し遂げるとそれを機に多くの成し遂げるものが現れることを意味する。これは狭い社会で生きてる私にも当てはまる。不可能だと思うのは周囲に可能にしている人物がいないから。そんなもので不可能と決めるのは勿体無い。視野を広げ、可能であると自分に認識させることが大切。また、お前自身も、大切な人にとって可能性を与えられる男になりたい。不可能はない

【甘えは逃げ。逃げは甘え】
確固たる理由も正当な理由もなくやらないのは逃げ以外の何者でもない。そして、それが逃げであると自覚することが大切。また、そのような甘えを常に意識することが大切。甘えを感じたら、それは逃げだし、逃げようとするならそれは甘え以外の何者でもない。甘えるな!逃げるな!甘えて逃げた先にはお前の理想はないぞ。理想に近づきたいなら、逃げるな！甘えるな!自覚しろ!また、逃げる理由の大部分はできなかった時を想像するから。でも、人生の心配事のうち90数パー起きないらしい。し、できないのが怖くてやらない奴ほどダサい奴はいない。俺はそんなダサい男にはなりたくない。だから、俺は逃げずに甘えずに挑戦しまくるよ！

【満足したら終わり。底辺である自覚をしろ】
満足は挑戦してない証。挑戦してたら、必ず失敗する。そして、自分が底辺である自覚が芽生える。それがやる気につながる。しかし、今の現状に満足してたら、そのレベルで終わる。だから、満足はとても危険。常に挑戦し満足せず、自分が底辺である自覚を持て。

【相手を楽しませることに注力しろ】
自分が楽しくなければたいても楽しくない。と考えるのはもうやめよう。それは、相手を楽しませようと言う努力をしてから。だから、まずは自分よりも相手を楽しませる努力をして、たくさん笑わせろ。それが人として大切なこと。もう、自分勝手喋るのはやめろ。それは誰も求めていないから。

【意地悪なことをしない】
俺は性格が少しだけ悪い。だから、相手の気持ちを知っていながらあえて意地悪なことをしてしまう。それは相手が可哀想だし、俺にとっても馬鹿げた行動でしかない。だから、やるな。女性に対して意地悪なことを絶対にするな。綺麗な心で接することを心がけろ。

【好きになってあげさることが恋愛では大切】
人を好きになると、モチベーションを貰えるし幸せな気分になれる。それを与えなければならない。しかし、闇雲にアプローチしてもそれを相手には与えられない。だから、テクニックを使ってあげる必要がある。テクニックは恋愛ごっこだと俺は一蹴してきた。でも、人はそれを使わないと人を好きになれない。それは俺のプライドとエゴ以外の何者でもない。本当に相手を思うのだったら俺のエゴ、プライドを捨てでもアプローチしろ。それが相手を好きになるってことなのかもしれない。とりあえず、好きになってあげさせることが大切。エゴ、プライド、偏見は捨てろ。

【惰性でやるな。やるなら、本気でやれ。何事もプロ、超越するつもりでやれ】
いろいろなことをすると優先順位をつけてしまう。また、ダメで元々感覚でやってしまう。それではダメ。勝つつもりでやらなきゃ一流にはなれない。やるんだったら、超越しろ！プロになれ！本気でやれ！

【なんとなくやるな！フルスイングでやれ！】
力を抜いて素振りを毎日するより、全力で素振りをした方が絶対に早い段階でスイングスピードは上がる。それは常識。では、なぜ全力でやらないの？失敗が怖いの？失敗を恐れるような男が大切な人を幸せにできると思ってんの？今だよ！今やるんだよ！やれよ！全力フルスイングでやれ！それがお前のためになるから！

【大切な人以外はなにもいらない。なくなったってまわない】
大切な人は俺の活力。俺の持っている全てがなくなってゼロになっても大切な人さえいればまた這い上がれる。大切な人さえ隣にいてくれれば、何回ゼロになっても、その度に這い上がれる自信がある。なぜなら、大切な人が俺の原動力であり、成長させてくれる存在だから。だから、絶対彼女と結婚してずっと一緒に幸せに暮らしたい。

【人間が生きる意味はわからない。けど、俺が生きる意味ならわかる】
誰もが一回は疑問に思う。「人間はなぜ生きてるのか？」そんな問いは、神様にでも聞けばいい。だし、そんな人間と大層に括ったような問いには答えられないけど。俺が生きる意味なら、答えられる。俺が生きている意味は「大切な人を世界で1番にすること。残りの人生全てを捧げてでも成し遂げたい。それがお前が生まれた意味。俺の人生がある意味だと思う。俺は大切な人に全てを捧げる準備ができたよ。大切な人は俺の世界で1つだけの大切な辞書なんだよ。

【大切な人は俺の辞書であり、俺は大切な人の辞書である。】
誰もが一回は疑問に思う。「人間はなぜ生きてるのか？」。と。もし、俺がそれを問われても答えることは絶対にできない。けど、人間ではなく俺が生きる意味、俺の人生がある意味なら答えられる。俺が生きる意味は「大切な人を世界で1番幸せにすること」だと思う。俺の残りの人生の全てを捧げてでも成し遂げたい。それがお前が生まれてきた意味。俺の人生がある意味だと思う。もう俺は大切な人に全てを捧げる準備ができたよ。大切な人は俺の世界で1つだけの大切な辞書なんだよ。大切な人がいなくなったら、俺の生きる意味がわからなくなってしまう。逆に、大切な人が生きる意味、生まれた意味は、俺と幸せになるために生まれてきたと思う。

【ビジョンを描け】
明確にビジョンを想像しろ。それが描けなかったり、少しでも夢物語だと感じたら、それは実現不可能。完全にできると思うことが大切。呼吸と同じレベルくらい、当たり前の感覚で描け！俺にだけできると思うのではなく、誰にでもできる、俺にでもできると思え！というか、本当に不可能はないから。無意味な思考は捨てろ！できることが当たり前。叶えたいことは呼吸のようにできるようになることが当たり前。そう思うことが、夢を叶える第1歩になる。自分自身の可能性を信じるのではなく、自分の中にある人間の可能性を信じる。人間はなんだってできる。地上でこんな完璧な生き物いないでしょ。自分が人間である誇りを持つことが大切。あの人は特別だからって思った時点でそれは叶わない。同じ人間なんだから、俺にもできて当然。と思わなければ決して叶わない。

【madは上がった状態で聴け】
madを聞いたからモチベーションが上がるのではない。曲を聴く前すでに炎が点っている場合にのみ、madは爆発力を発揮する。要するにモチベーションが0の状態でmadを聴いても効力は生まない。結局は、己で炎を生み出さなきゃダメ。madを聴くなら、自分で魂の炎を灯してから聴け！そうすれば爆発するから。どんなことでも、自分の力ではなく「何か頼み」した瞬間に成長はない。利用•活用と「何か頼み」は違う。

【緊張した時は？】
楽しむ
人間の可能性を信じる
逃げない漢気
運頼みはしない

【自分を天才だと思うな】
お前ができるのはお前だからじゃない。人間だからできるんだ。だから、自分が思いついたことも人間だから思いついたことである。ということは、他の誰かも同じことを考えてる可能性がある。そこで、自分しか考えていないと錯覚したら、足元を救われる。大切なことは一生懸命自分が捻り出した作戦も同じことを考えている人がいるという事実を認めた上でさらに上の作戦を考えることが大切。そうすれば、１つ上の次元に行ける。特に投資で成功するならこれが必須。

【人生においても分散投資する】
分野をひとつに絞って突き抜けようとするのではなく、株式の分散投資のように、分野や対象、時間などに人生においても分散投資する。例えば、ITに絞るのではなく、株式にも投資したり、自分の成長にも投資したり、色んなことに投資することが大切。１つに絞ることはとても危険。だからと言って力を抜くわけではない。全て成功させるつもりで分散投資する。

【夢が叶うかとかじゃなくて、生きる意味に変えろ】
俺の叶えたいことは『大切な人を世界で1番幸せにすること』だ。だが、それを夢のままにしていてはいつまでも叶わない。夢ではなく、生きる意味にしろ！これをしなければ、目指さなければ俺の生きる意味はない。俺が生きる意味、人生の意味は「大切な人を世界で1番幸せにすること」。そのために俺は生まれてきた。やらない理由がないだろ！モチベーションとかそんな次元じゃないんだよ。

【悩むのは無駄。価値に目を向けろ】
挑戦してたら、うまくいかないことは絶対にある。少しうまくいったと思って調子に乗るのすぐにまた、自分がダメな人間だと思い知らされる。でも、そこで悩んでたら何も生まない。「悩む＝考えてる」ではない。ただ、言い訳を作ってるだけ。そんなものに時間をかけるのはマジで無駄。だったら、うまくできなかった自分をすぐに許して、次なる行動をすぐに起こせばいい。それだけをし続ければいい

【反省はしろ！でも、悩みは人生から捨てろ！もう2度と悩むな！】
挑戦してたら、うまくいかないことは絶対にある。少しうまくいったと思って調子に乗るとすぐにまた、自分がダメな人間だと思い知らされる失敗をする。でも、そこで悩んでたら何も生まない。「悩む＝考えてる」ではない。ただ、できない言い訳を作ってるだけ。そんなものに時間をかけるのはマジで無駄。だったら、うまくできなかった自分をすぐに許して、次なる行動をすぐに起こせばいい。それだけをし続ければいつか、大切な人と結婚できる。ただ、これは何でもかんでも許せというわけではない。失敗したらその原因を調べて、反省はしろ！反省しなかったらいつまでも変わらない。そして反省したらすぐに行動しろ。それだけを繰り返せ！もう、悩むな！悩んでるうちに人生終わるぞ！お前は大切な人を世界で1番幸せにするんだろ？だったら、止まってる時間はないぞ！

【悩んでるなら、ありえないくらい努力しろ】
こんなに、努力したのに全然結果がついてこない。そんなことは挑戦していたら、誰だってある。そんなことで悩むのは無意味。時間の無駄。だったらどうするか？ありえないくらい努力しろ！結局「こんなに努力したのに」っていうこんなにの基準は自分で作ってるに過ぎない。そんなよくわからない基準で物事を判断しても無意味。だったら、ありえないくらい努力しろ。テメェの意味わからない基準では推しはかれないくらいのありえない努力しろ！そしたら、絶対できるから！とにかくやれ！ありえないくらいの努力以外、テメェがやることは何もねぇよ！

【ありえないくらい努力しろ。お前ができない理由はただ一つ。シンプルに努力が足りないから】
こんなに、努力したのに全然結果がついてこない。そんなことは挑戦していたら、誰だってある。そんなことで悩むのは無意味。時間の無駄。だったらどうするか？ありえないくらい努力しろ！結局「こんなに努力したのに」っていうこんなにの基準は自分で作ってるに過ぎない。そんなよくわからない基準で物事を判断しても無意味。だったら、ありえないくらい努力しろ。テメェの意味わからない基準では推しはかれないくらいのありえない努力しろ！一旦冷静に考えてみろ！なんでできないか？それは、努力が足りない以外ないでしょ！それ以外に正当な理由ありますか？ないでしょ？だから、とにかくやれ！ありえないくらいの努力以外、テメェがやることは何もねぇよ！

【分からないのはバカなのではなく、前提知識がないだけ】
分からないことは誰にでもある。でも、それは馬鹿だからじゃない。前提知識が不足してるだけ。　投資を勉強していて実感した。簿記3級だけの知識じゃ投資は分からない。それは馬鹿だからじゃないでしょ？ただ前提知識がないだけ。だったらどうするか？とにかく知識をつけろ！分からないってめっちゃ悔しい。もう、そんな思いはしたくない。だったら、勉強するしかないだろ！勉強し続けろ！も

【人間の可能性を信じろ】
お前ができるのはお前だからじゃない。人間だからできるんだ。だから、自分が思いついたことも人間だから思いついたことである。ということは、他の誰かも同じことを考えてる可能性がある。そこで、自分しか考えていないと錯覚したら、足元を救われる。大切なことは一生懸命自分が捻り出した作戦も同じことを考えている人がいるという事実を認めた上でさらに上の作戦を考えることが大切。そうすれば、１つ上の次元に行ける。特に投資で成功するならこれが必須。ただ、人間だからできるって思うのは努力をありえないくらいしてからの話。それもなしには、同じレベルにはいつまで経っても到達できない。やれ！とにかくやれ！できないとかを考えてる暇はねぇ。お前は人間！それだけ頭に入れて勉強しろ！とにかくやれ！信じろ！人間の可能性を！

【悩んだり、悩むことから逃げるのは底辺がすること】
悩んだり、悩むことから逃げるのは底辺がすること。1流になりたければ、その悩みと向き合い、解決策を考える。そして、それを実行する。それをすれば悩みなんて消える。だから、いちいち悩んで落ち込むな。悩むんなら、その先の解決策を考えることに集中しろ。

【行動の意味を考えるのは逃げ。考えたいなら、完了させてから考えろ】
これってやる意味あるのか？と大変な作業をすると思う。でも、それは逃げ。だし、その考えが起きた時こそチャンス。なぜなら、簡単な作業をしてる時にこれって意味あるのかなって考えたりはしない。また、サボってる時もこれって意味あるのかなって考えたりもしない。つまり、これ意味ある？って考える瞬間はその作業が大変であることを表している。で、大変ということは誰しもが避けようとすること。それを今、お前がやればお前は一歩先にみんなよりも一歩先に進めることができる。だから、意味あるのかな？って思った作業ほどやり切れ！考えるのはそこから。一度でも、やろうと思ったことなら、やり切るまで止めるな。途中で辞めるくらいなら最初からやるな。完了してから、やる意味は考えろ。しかも、やる意味はやり出す前のお前が一番知ってる。だったら、その自分を信じてやれよ。今の自分じゃなくて、決心した自分を信じてやれよ！

【勉強の価値は自分が見出すもの】
こんなん勉強して意味あんのとかってよく言うけど、それは馬鹿がいうこと。勉強をただ単に知識を溜め込むものだと思ってるとそうなる。でも実際勉強っていうのは知識を入れてそれをアイディアに変えて新しい価値を生み出すための道具でしかない。常に知識の利用方法•価値を付与するための方法を考えながら読む。それが勉強。

【すべてのものに価値あるものに変えろ】
勉強は、価値を生み出すために利用する。受動的ではなく能動的にすべきだと考えている。それを、勉強以外にも応用できる。すべてのものは自分しだいでいくらでも価値ある情報に変換できる。ただ、それができるかできないか、やるか、やらないかの違い。だから、要するに、すべてのものに価値を見出せる。行動、他人の発言、事象。すべてのものを価値を生み出す源としろ！

【すべてのから価値を生み出せ。この世に無価値なものはない。その価値に気づけてないだけ】
勉強したって意味があるの？と疑問を持つことは間違い。なぜなら、そもそも知識に価値を生み出すのは、自分がやるべきことだから。他人から教わることではない。だから、勉強に価値を生み出すのは、先生でも参考書でもない。己自身でやらなきゃいけないこと。このような思考は、勉強以外のすべての事象にも言える。事象に対して価値の有無を決めるのは己自身。だから、価値がないと思ってるから価値を生み出せない。自分でその価値を生み出す必要がある。だとするとこのように無価値なものは存在しない。それに気づいてない、きづこうとしないだけ。すべてのものから価値を生み出せる。それがこの世の中には溢れてる。それは、お前自身もそうだよ。お前の価値を生み出せるのは他人ではなくて、お前だけだよ。だから、お前自身がお前の価値を生み出せ！

【諦めるのは価値を生み出すための事例を知らないから。要するに知識が足りないだけ。諦める前に知識を入れろ】上手くいかないことが続くと諦めそうになる。なぜなら、こんなにやったのに結果が出ない。もう、やれることがないよ。と錯覚している状態に諦めは起こる。アイディアを作るのは知識。よって、アイディアが生まれないのは知識が枯渇してるだけ。やるべきこと、打開策が見つからないのは知識がないだけ。だって、知識つけたら、やるべきこと、やらなきゃいけないこと、手段が溢れるはず。それにもかかわらず、やるべきことがない状態はただの怠け、逃げでしかない。だから、諦めるのはお前に才能がないからじゃない。勉強していないだけ。勉強したら、絶対夢は叶うから。お前の可能性、価値を生み出せるのはお前しかいない。お前がお前を信じろよ。

【当たり前を変える】
勉強をしていて、問題を解いたら終わりにするのが当たり前。でも、実際はもっといい方法があるかもしれない。だから、常に自分の行動に潜む当たり前•先入観に気づくことが成長につながる。当たり前をぶち壊していけ！

【超越した知識•財産を持つ】
メンタリストDaiGoを見て思った。「小銭稼ぎしたいなら先に払ってやるよ」という発言は超越した知識と金からくる自信ある発言ってめっちゃかっこいい。超越してないとそうそう自信ある発言なんてできない。だから、超越しろ！超越したら、大切な人にアプローチしろ！

【自分の可能性に蓋をするな】
自分の可能性を殺してるのは自分自身。俺ができると思ったことにいちいち、蓋をするな。うまくいかない時もそりゃあ、ある。でも、そこでいちいち立ち止まるな。その時間が無駄。大切な人を幸せにしたいんだったら、その未来を信じてひたすらに努力しろ！お前ならできる！だから、自分の可能性に蓋だけはするな。お前の可能性は青天井なんだから！

【先延ばしにする原因は自分に自信がないから】
先延ばしにする最も大きな理由は、失敗したらどうしようとか、上手くできなかったらどうしようという不安。でも、そんな雑魚みたいな感情で動かないのは男として失格。その感情としっかり向き合い、そして勝つことが男だろ。だし、そんな感情にも勝てない奴が大切な人の周りにいる男に勝てるわけがない。まずは、できなかったらどうしよう、上手くいかなかったらどうしようという感情を完膚なきまでに倒すことが大切。お前ならできる。その感情をしっかり自覚してしっかり叩きのめせ！それが大切な人と結婚するために必要なメンタルティ。

【未来から逆算して動け】
今にだけ集中すると、できないことに対して一喜一憂してしまう。例えばTwitter。今は全然フォロワーがいない。でも、たくさんのフォロワーがいる未来を想像して、それにたどり着くように動けばいいだけ。いちいち、現状に一喜一憂するな！お前の目標、未来を明確にしてそこから逆に辿って行動を起こせばいいだけ。恥も何もかも捨てろ！未来の自分をイメージして逆算すればいいだけ！

【自分で考えろ！行動は真似するための行為じゃない。自分の考えを証明するための行為】
何か革新的なアイディアを出すには、自分で考えることが大切。考えるとは、誰かがやったことを取捨選択することを指すのではない。それはただの真似。そうじゃなくて、自分で0から思考を作り上げることを考えるという。もし、今のままだったら永遠と底辺のまま。自分の考えに自信がないから誰かの真似をする。そうじゃない。自分の考えを証明するために行動という行為がある。行動は真似するためのものじゃなくて、自分の考えを証明するためにある行為。

【超越しろ】
誰も理解できない次元にいけ！それはめっちゃ面白い。でも、それに行くためには誰かの真似事をしていても絶対にいけない。だから、自分で考えて、それを証明するために行動するしかない。とにかく、誰も理解できない次元の会話をしろ！ホリエモンとドワンゴの対談を見て思った。理解できない話ってめっちゃかっこいい。

【失敗を好きになれ】
何かをやる時に失敗を嫌ってしまう。でも、成長には失敗しながら進むのが最も効率的。だから、失敗を極度に嫌うな。逆にどんどん失敗しにいけ。失敗を迎えにいけ！

【目的の先にあるものを意識する】
俺はスケジュール通りに、ToDoListを達成することに重きを置いていた。でもそれは違う。それをモク亭にするのではなく、なんでそれをやらなきゃいけないかを考える。勉強だったら、応用情報技術者試験に合格するために勉強するのであって、勉強することが目的ではない。ToDoを目的にするとモチベーションも上がらずに、先延ばしにする。しっかりと目的を意識しつつ、それを達成するためにこれをやらなきゃいけないと自覚することが先延ばしだったり、モチベーション低下を抑制することができる。つまり、手段を目的に知るのではなく、目標を目的に知るべし！

【必要性と将来像。将来像が語る、あの時にこれやっていたから今がある。をやれ】
何か行動するときは常に将来像•理想像をイメージしてから動く。そうすることで、行動の意味が明確になりダラダラとやることを防げる。また、その行動が本当に今必要なのかの判断材料にもなるから、行動の必要性もわかる。つまり、何か行動するときはそれが自分の将来像のどこにフィットするのかを考えることが大切。また、将来像をイメージした時に「あの時これやっといたから今がある」と思えるような行動をする。

【打つてなんていくらでもある。悩みたいなら、100回試してから悩め】
打つてなんて無限あるんだよ。だから、数回試した程度で悩むんじゃねぇよ。悩む暇があったら、打つ手を考えろよ。考えることから逃げるという行為が悩み。打つ手がないと思うから悩む。でもそうじゃない。可能性、打つ手はいくらでもある。だから、悩んで自己嫌悪に陥るのはもうやめろ！戦えよ！悩むのは全ての打つ手がなくなった時に悩め！でも、打つ手は無限にある。つまり、いちいちちいち悩んでんじゃねぇってこと！！

【切羽詰まらせることが努力じゃない。もっと遊び心を入れるべき】
俺は自分が辛い、切羽詰まってると思った時に努力の実感をする。けど、それは違う。切羽詰まると、次やる時になかなか一歩が踏み出せない。だから、本当はもっと遊び心を入れるべき。遊び感覚で本気で努力すればいい。失敗したって死ぬわけじゃないんだから、もっと遊び心を持って本気で取り組めばいい。ブログも一緒。時間をかけたからいい記事というわけではない。苦労が多ければ必ず結果出るわけではない。遊び心を持ってもっと自由に本気で取り組むことが継続にもなるし、物事の理解にもつながる気がする。だから、何事も本気で悩むんじゃなくて、遊び感覚で、もっと軽い気持ちで本気で取り組むべき。

【何事もゲーム感覚で！遊び心を忘れるな】
切羽詰まる努力をすれば結果が出るわけではない。だし、そのメンタリティは本質から外れてる気がする。何か上達する時って上達したいと心から思う時。でも、努力が辛いものに感じるならそれは上達したいとは思えない。そうじゃなくて、もっと遊び心を持ってゲーム感覚でやればいい！ゲームは失敗してももっと上手くなりたいって思える。それとおんなじで、自分が叶えたいものこそ、遊び感覚でゲーム感覚で取り組むべき。これは手を抜いてやるってことじゃなくて、本気で遊び心を持って取り組むこと。

要するに、切羽詰まらせることがいい努力ではないよということ。辛い思いをすればいい結果が返ってくるわけじゃないよということ。もっと、本気で好きになって、本気で遊び心を持つことが大切。それは叶えたいものであればあるほどそうだと思う。たから、本気で遊び心を持ってゲーム感覚で取り組むべし！

【真面目すぎると、成功はない】
真面目すぎると、失敗したくないと思っちゃう。今まで真面目に努力すればするほど、失敗できなくなる。失敗できなくなると、人の真似しかできなくなる。そうなると成功はない。だから、やっぱり遊び心を持った方がいい。遊び感覚でやれば柔軟な発想も生まれるし、それを行動に通しやすくなる。だって失敗してもいいから。やらないよりも挑戦したいって気持ちの方が強い。上達したいって気持ちの方が強くなるから。だから、やっぱり、遊び感覚でゲーム感覚で本気で取り組むことが、柔軟な発想にもつながるし、人の真似事をしない成功者への道につながる。遊び感覚でやらなきゃ面倒くさいという感覚が生まれて、重要なタスクを省いてしまう。だから、義務ではなく遊び感覚でやった方が面倒くさいような作業も楽しんでやることができる。そして、それは結果的に良い成果につながる。

【いちいちできるかどうかを考えるのはやめろ】
やる前から、できるからやる。できないからやらない。じゃ、いつまで経っても成功はしない。やりたい、クリアしたと思うならやればいいだけ。別に達成しなきゃいけないっていう義務があるわけじゃないんだから、やめたくなったら気楽にやめればいいんだよ。だから、気楽な気持ちでいっぽふみだせばいい。で、クリアしたいって気持ちだけ持ってればそれでいい。あとは、楽しみながら遊び心を持って本気でやれば楽しくできる。変に義務付けるから一歩が踏み出せない。だから、クリアしたい、やりたいんだったら、それ以外は本当に考える必要はない。どうやってクリアしようかなって色々思考を巡らせる。で、それが当たった時はガッツポーズすればいい。それだけだよ。変に難しく考えたり義務付けたりする必要全然ないんだよ！だから、できるかどうかを考えるならそれは息苦しくなるだけだから。楽しめよ！挑戦を楽しめよ！

【時間は無限じゃない。有限なんだよ】
ゆっくりやろう。じゃねぇんだよ。お前はあと何秒生きれるの？絶対に人間にはタイムリミットがある。それを意識しないでダラダラ過ごすんじゃねぇよ。今しかねぇんだよ。今やれよ！

【闘え！できるかどうかじゃない。闘う力が残ってるかどうか】
できるかどうかに目を向けるな。いちいちそんなくだらないことを考える！成し遂げたいことがあるなら、闘え！目を向けるべきは自分ができるかどうかではなく、自分の中に闘う力が残ってるかどうか。闘う力が残ってると思えば闘えばいい。残ってるのに戦わないのはただのチキン野郎。そんなチキン野郎に大切な人と一緒になる権利はねぇよ。闘え！最後まで力を振り絞れ！からっからになるまで振り絞れ！闘いもしないのに諦めんじゃねぇよ！しょうもねぇ男になるんじゃねぇよ。

【お前ならできる！できるから！信じろ！】
できないかもって思うと、やる気が出なくなる。でも、それってしょーもなくない？たとえ、できないと思ってもやり続けた方がいい。できないと思って辞める。と、できなかったけど最後までやり続けた。この２つはどっちも達成には至ってないけど、漢の道を歩むなら後者が正解。どちらにしろしょーもないなら、挑戦した方が良くね？だし、成功する可能性も後者の方が圧倒的に高い。自分を信じろ！それが馬鹿と呼ばれてもいい。とにかく自分を信じてやり続けろ！そして、死ぬ気でやれよ！お前が諦める時はお前が死ぬ時。それ以外で諦める理由なんてない。無理な時は本気で泣くくらい悔しい思いができるからいい真剣にやれよ！どちらにしろしょーもないなら、漢として満足のいくしょーもない道を歩めよ！お前はできる。信じろ！絶対にできるから。

【NLP/実践】Janomeで単語分割しよう①【前処理

管理人 — Tue, 26 Mar 2024 13:27:23 +0000

はじめに
おわりに

はじめに

今回から、機械学習の一つである自然言語処理（NLP：Natural Language Processing）の実装やっていきます。機械学習と聞くと、難しそうですが実際はとても簡単です。このページを通してそれを実感してもらえたら嬉しいです。

【今日のゴール】

まずは、前処理をできるようにしたいです。そのため、今日のゴールは「文章から動詞だけを抽出する」に設定します。また、今回はJanomeと呼ばれるpythonライブラリを使ってやっていきます。

では、早速やっていきましょう！

仮想環境の作成

まずは仮想環境を作成していきましょう。このステップはお好みで判断してください。

python -m venv 仮想環境名　#仮想環境の作成

仮想環境名/Scripts/activate #仮想環境の有効化(Windows version)
source 仮想環境名/bin/activate #仮想環境の有効化(Mac/Linux　version)

cd 仮想環境名/Scripts #Scriptsディレクトリまで移動

echo. > ファイル名.py #Pythonファイルを作成

code . #vsCodeを開く

pythonファイルを作成する場所はactivate.batやactivateと同じディレクトリにしましょう。

仮想環境には以下のメリットがあります。

プロジェクトごとの環境の分離
クリーンアップの容易化

ライブラリのインストール

今回はjanomeというpythonライブラリを使っていきます。

cd Scripts #Scriptsディレクトリに移動
pip install janome　#janomeをインストール

【Janomeの特徴】

Pythonで書かれた自然言語処理（NLP）のライブラリです。
主に日本語のテキスト処理に特化しています。
また、テキストを形態素（単語やそれに類する単位）に分割するためのツールです。

テキストデータを準備

適当なテキストデータ（コーパス）がある方は適当にそれを使ってください。もし、無い人は以下に中二病前回なデータを載せておくので、それをコピペして使ってみてください。

自然言語処理・練習用データ

【感傷に浸るのは楽。そんなことよりもやれよ！】感傷に浸るのは誰にでもできる現実逃避の手段。そんなものに浸っていても何も起きない。だったら、やれよ。そんな暇はお前にはねぇよ。落ち込んでる時間が勿体無い。自分を奮い立たせろよ。できなかったぁー...

『ファイル名.txt』というファイルをScripts直下につくり、文章をそこにコピペすれば準備完了です。

プログラミング

では、実際にプログラミングしていきましょう！

Python

from janome.tokenizer import Tokenizer

# テキストファイルのパス
file_path = 'テキストデータが入ったファイル名.txt'

# JanomeのTokenizerオブジェクトを作成
tokenizer = Tokenizer()

# テキストデータを読み込み、形態素解析を行う関数
def analyze_text(text):
    tokens = tokenizer.tokenize(text)
    for token in tokens:
        print(token)

# テキストファイルを読み込み、形態素解析を行う
with open(file_path, 'r', encoding='utf-8') as file:
    text_data = file.read()
    analyze_text(text_data)

準備ができたら、cmdで実行してみましょう。実行をするには「ファイル名.py」と入力するだけで実行できます。

結果はこんな感じになりました。（長かったので、省略しています。）

【      記号,括弧開,*,*,*,*,【,【,【
感傷    名詞,一般,*,*,*,*,感傷,カンショウ,カンショー
に      助詞,格助詞,一般,*,*,*,に,ニ,ニ
浸る    動詞,自立,*,*,五段・ラ行,基本形,浸る,ヒタル,ヒタル
の      名詞,非自立,一般,*,*,*,の,ノ,ノ
は      助詞,係助詞,*,*,*,*,は,ハ,ワ
楽      名詞,形容動詞語幹,*,*,*,*,楽,ラク,ラク
。      記号,句点,*,*,*,*,。,。,。
そんな  連体詞,*,*,*,*,*,そんな,ソンナ,ソンナ
こと    名詞,非自立,一般,*,*,*,こと,コト,コト
より    助詞,格助詞,一般,*,*,*,より,ヨリ,ヨリ
も      助詞,係助詞,*,*,*,*,も,モ,モ
やれよ  動詞,自立,*,*,一段,命令ｙｏ,やれる,ヤレヨ,ヤレヨ
！      記号,一般,*,*,*,*,！,！,！
】      記号,括弧閉,*,*,*,*,】,】,】

        記号,空白,*,*,*,*,
,*,*
感傷    名詞,一般,*,*,*,*,感傷,カンショウ,カンショー
に      助詞,格助詞,一般,*,*,*,に,ニ,ニ
浸る    動詞,自立,*,*,五段・ラ行,基本形,浸る,ヒタル,ヒタル
の      名詞,非自立,一般,*,*,*,の,ノ,ノ
は      助詞,係助詞,*,*,*,*,は,ハ,ワ
誰      名詞,代名詞,一般,*,*,*,誰,ダレ,ダレ
に      助詞,格助詞,一般,*,*,*,に,ニ,ニ
でも    助詞,副助詞,*,*,*,*,でも,デモ,デモ
できる  動詞,自立,*,*,一段,基本形,できる,デキル,デキル
現実    名詞,一般,*,*,*,*,現実,ゲンジツ,ゲンジツ
逃避    名詞,サ変接続,*,*,*,*,逃避,トウヒ,トーヒ
の      助詞,連体化,*,*,*,*,の,ノ,ノ
手段    名詞,一般,*,*,*,*,手段,シュダン,シュダン
。      記号,句点,*,*,*,*,。,。,。
そんな  連体詞,*,*,*,*,*,そんな,ソンナ,ソンナ
もの    名詞,非自立,一般,*,*,*,もの,モノ,モノ
に      助詞,格助詞,一般,*,*,*,に,ニ,ニ
浸っ    動詞,自立,*,*,五段・ラ行,連用タ接続,浸る,ヒタッ,ヒタッ

janomeの応用

今までは、単語と品詞が同時にリストに格納されています。なので、『単語だけ』、『ある品詞だけ』のように、特定のものだけを抽出していく方法を紹介します。

単語だけ抽出

これはとても簡単です。７行名のTokenizer（）メソッドの引数にwakati=Trueと入れるだけです。

Python

from janome.tokenizer import Tokenizer

# テキストファイルのパス
file_path = 'テキストデータが入ったファイル名.txt'

# JanomeのTokenizerオブジェクトを作成
tokenizer = Tokenizer(wakati=True)

# テキストデータを読み込み、形態素解析を行う関数
def analyze_text(text):
    tokens = tokenizer.tokenize(text)
    for token in tokens:
        print(token)

# テキストファイルを読み込み、形態素解析を行う
with open(file_path, 'r', encoding='utf-8') as file:
    text_data = file.read()
    analyze_text(text_data)

結果を見てみましょう

Python

【
感傷
に
浸る
の
は
楽
。
そんな
こと
より
も
やれよ
！
】


感傷
に
浸る
の
は

しっかりと、単語だけリストに格納されていることが分かりますね。そうです！とっても簡単なんです！

特定の品詞だけを抽出する

Python

from janome.tokenizer import Tokenizer
from janome.analyzer import Analyzer
from janome.tokenfilter import POSKeepFilter

# テキストファイルのパス
file_path = 'テキストデータが入ったファイル名.txt'

# JanomeのTokenizerオブジェクトを作成
tokenizer = Tokenizer()

# POSKeepFilterを使って動詞のみを抽出する関数
def extract_verbs(text):
    # Tokenizerオブジェクトを使用して形態素解析を行い、POSKeepFilterで品詞を絞り込む
    token_filters = [POSKeepFilter(['動詞'])]
    analyzer = Analyzer(tokenizer=tokenizer, token_filters=token_filters)
    verbs = []

    # 形態素解析を行い、動詞を抽出する
    for token in analyzer.analyze(text):
        verbs.append(token.surface)
    
    return verbs

# テキストファイルを読み込み、動詞を抽出する
with open(file_path, 'r', encoding='utf-8') as file:
    text_data = file.read()
    verbs = extract_verbs(text_data)
    print("抽出された動詞:")
    print(verbs)

結果はこんな感じです。もし、他の品詞を抽出したい場合は14行目の引数を変えればいいだけです。

抽出された動詞:
['浸る', 'やれよ', '浸る', 'できる', '浸っ', 'い', '起き', 'やれ', '落ち込ん', 'でる', '奮い立た', 'せろ', 'でき', 'できる', 'なれ', '備わっ', 'てる', 'わかっ', 'てる', 'やれ', '頼む', '動い', 'くれ']


おまけ（名詞の場合）；
['感傷', 'の', '楽', 'こと', '感傷', 'の', '誰', '現実', '逃避', '手段', 'もの', '何', '暇', 'お前', '時間', '勿体', '自分', 'ぁ', ' ー', 'よう', 'お前', '力', 'メンタル', 'それ', '俺', '自信', '一番']

おわりに

今回は、機械学習の一つである自然言語処理（NLP：Natural Language Processing）における前処理をやってきました。また、JanomeというPythonライブリの機能も試しました。

単語を分割するスキルはとても大切なので、できるようになっておきましょう！継続してやっていけばそのうち慣れるので、どんどん実践を積んでいきましょう！

【AI/実装編】サイズの大きな画像を生成【衝撃簡単⑧】

管理人 — Sat, 09 Mar 2024 11:39:33 +0000

対象読者
おわりに

対象読者

前回は40×40のカラー画像を生成しました。しかし、今回は144×144の少し大き目な画像を生成していきましょう！あいかわらず、低品質ですが流れの大枠は正しいはずです。

p.s.もはや抽象画の域ですね。これ（笑）。まぁでも、流れは掴んだんでよしとしましょう！

今回の全コード

かなり、以前までのコードを多く使っているので、かなり解説は割愛させていただきます。というか、だんだん慣れてきましたよね。

Python

import matplotlib.pyplot as plt
import numpy as np
from keras.datasets import mnist
import os
from keras.layers import Dense, Flatten, Reshape, LeakyReLU, Dropout
from keras.models import Sequential
from keras.optimizers import Adam
from keras.layers import BatchNormalization, Activation
from keras.layers import Activation, BatchNormalization
from keras.layers import Conv2D, Conv2DTranspose
import cv2

width = 144
height = 144
channels = 1
shape = (width, height, channels)
noise_dim = 100



def generator_model(noise_dim):
    model = Sequential()
    model.add(Dense(256 * 18 * 18, input_dim=noise_dim))
    model.add(Reshape((18, 18, 256)))

    model.add(Conv2DTranspose(128, kernel_size=3, strides=2, padding='same'))
    model.add(LeakyReLU(alpha=0.01))

    model.add(Conv2DTranspose(64, kernel_size=3, strides=1, padding='same'))
    model.add(LeakyReLU(alpha=0.01))
    
    model.add(Conv2DTranspose(32, kernel_size=3, strides=2, padding='same'))
    model.add(LeakyReLU(alpha=0.01))

    model.add(Conv2DTranspose(1, kernel_size=3, strides=2, padding='same'))
    model.add(Activation('tanh'))
    
    return model


def discriminator_model(shape):
    model = Sequential()

    model.add(Conv2D(32, kernel_size=3, strides=2, input_shape=shape, padding="same"))
    model.add(LeakyReLU(alpha=0.2))

    model.add(Conv2D(64, kernel_size=3, strides=2, padding="same"))
    model.add(LeakyReLU(alpha=0.2))
    model.add(Dropout(0.25))

    model.add(Conv2D(128, kernel_size=3, strides=2, padding="same"))
    model.add(LeakyReLU(alpha=0.2))
    model.add(Dropout(0.25))

    model.add(Conv2D(256, kernel_size=3, strides=2, padding="same"))
    model.add(LeakyReLU(alpha=0.2))
    model.add(Dropout(0.25))

    model.add(Conv2D(512, kernel_size=3, strides=2, padding="same"))
    model.add(LeakyReLU(alpha=0.2))
    model.add(Dropout(0.25))

    model.add(Conv2D(1024, kernel_size=3, strides=2, padding="same"))
    model.add(LeakyReLU(alpha=0.2))
    model.add(Dropout(0.25))

    model.add(Flatten())
    model.add(Dense(1, activation='sigmoid'))

    return model



def gan_model(generator, discriminator):
    model = Sequential()
    model.add(generator)
    model.add(discriminator)
    return model

discriminator = discriminator_model(shape)
discriminator.compile(loss='binary_crossentropy',
                      optimizer=Adam(lr=0.0001, beta_1=0.5),#0.0001→0.0002,
                      metrics=['accuracy'])

generator = generator_model(noise_dim)
generator.compile(loss='binary_crossentropy', optimizer=Adam(lr=0.0007, beta_1=0.5))#0.0003→0.0004

discriminator.trainable = False

gan = gan_model(generator, discriminator)
gan.compile(loss='binary_crossentropy', optimizer=Adam(lr=0.0007, beta_1=0.5))

losses = []
accuracies = []
iteration_checkpoints = []

def train(iterations, batch_size, sample_interval):
    X_train = load_images("./gray_144_face")
    X_train = X_train / 127.5 - 1.0
    X_train=np.expand_dims(X_train,axis=3)#グレースケールだから
    real_label = np.ones((batch_size, 1))  # 修正
    fake_label = np.zeros((batch_size, 1))  # 修正

    for iteration in range(iterations):
        idx = np.random.randint(0, X_train.shape[0], batch_size)
        batch_images = X_train[idx]
        z = np.random.normal(0, 1, (batch_size, noise_dim))
        gene_imgs = generator.predict(z)

        d_loss_real = discriminator.train_on_batch(batch_images, real_label)
        d_loss_fake = discriminator.train_on_batch(gene_imgs, fake_label)
        d_loss, accuracy = 0.5 * np.add(d_loss_real, d_loss_fake)

        z = np.random.normal(0, 1, (batch_size, noise_dim))
        g_loss = gan.train_on_batch(z, real_label)


        if (iteration + 1) % sample_interval == 0:
            losses.append((d_loss, g_loss))
            accuracies.append(100.0 * accuracy)
            iteration_checkpoints.append(iteration + 1)

            print("%d [D loss: %f, acc.: %.2f%%] [G loss: %f]" % (iteration + 1, d_loss, 100.0 * accuracy, g_loss))
            save_images(generator, iteration + 1)


def save_images(generator, iteration, directory='144x144x_face_gray_images', image_grid_rows=4, image_grid_columns=4):
    if not os.path.exists(directory):
        os.makedirs(directory)

    z = np.random.normal(0, 1, (image_grid_rows * image_grid_columns, noise_dim))
    gene_imgs = generator.predict(z)
    gene_imgs = 0.5 * gene_imgs + 0.5
    fig, axs = plt.subplots(image_grid_rows, image_grid_columns, figsize=(4, 4), sharey=True, sharex=True)
    cnt = 0
    for row in range(image_grid_rows):
        for col in range(image_grid_columns):
            axs[row, col].imshow(gene_imgs[cnt, :, :, 0], cmap='gray')
            axs[row, col].axis('off')
            cnt += 1

    fig.savefig(f"{directory}/iteration_{iteration}.png")
    plt.close(fig)

def load_images(directory):#グレースケール用に変換する
    images = []
    for filename in os.listdir(directory):
        img = cv2.imread(os.path.join(directory, filename))
        if img is not None:  
            img = cv2.resize(img, (width, height))
            if len(img.shape) == 3:  # チャンネルが3の場合はグレースケールに変換
                img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
            images.append(img)
        else:
            print(f"Warning: Failed to load image {filename}")
    if len(images) == 0:
        print("Error: No images loaded")
        return None
    else:
        return np.array(images)



iterations = 20000
batch_size = 128
sample_interval = 1  

train(iterations, batch_size, sample_interval)
generator.save('Face-gene.keras')
discriminator.save('Face-dis.keras')
gan.save('Face-gan.keras')

カラー画像の収集＋前処理

では、早速やっていきましょう。まずは画像収集と前処理です。具体的なコードはこちらでやってみてください。↓

【AI/実践編】画像収集～画像前処理方法【衝撃簡単⑥】

対象読者ここでは、機械学習における画像収集～前処理（サイズ変更・ファイル名変更・グレースケール化）を扱います。このページで紹介する内容は機械学習のサブ的な技術なのでコードの細かな解説などは割愛させていただきます。あくまでも...

ここのタスクで私がやったことをまとめます。

独断と偏見から綺麗だと思う女性画像を100枚ずつ計400枚集める
（有村架純・長澤まさみ・橋本環奈・パクジヒョ）
集めれるならもっと多い方がいいです。
画像サイズを144×144に変更する
ファイル名を変更する

この３ステップをここではやりました。また、先ほど提供した記事でこれらすべてのプログラムコードをのせているので、誰でも簡単にできますよ。

モジュール準備

Python

import matplotlib.pyplot as plt
import numpy as np
from keras.layers import Dense, Flatten,Reshape, LeakyReLU 
from keras.models import Sequential
from keras.optimizers import Adam
import os
from keras.layers import Activation,Dropout,BatchNormalization
from keras.layers import Conv2D
from keras.layers import UpSampling2D
import cv2
#上記↑は『衝撃簡単7』と同じ
from keras.layers import Conv2DTranspose

from keras.layers import Conv2DTranspose
＃Conv2DTransposeは畳み込みの逆操作を行い、入力データをより大きな空間に逆畳み込みするために使用される。
＃通常の畳み込み層は、入力としてデータを受け取り、それをフィルター（カーネル）と畳み込んで、出力を生成します。しかし、Conv2DTransposeは逆の操作を行います。つまり、入力を受け取り、その情報を使用してより大きな出力を生成します。

前回は畳み込み層としてUpsampling2Dを使いました。では、ここで一旦、Conv2DTransposeとUpsampling2Dの違いをまとめておきましょう。

Conv2DTranspose：

畳み込みの逆操作を行う
入力をより大きな空間に逆畳み込みする
フィルターを使用して入力に重みを適用し、出力を生成する
フィルターサイズやストライドなどのパラメータを調整することで、出力のサイズや形状を制御することができる

UpSampling2D:

入力データのサイズを拡大する
重みはもたない
単純に入力の各ピクセルの間に新しいピクセルを挿入し、それらの値を元のピクセルの値と同じにする
補間法（nearest neighborやbilinearなど）を使用して、新しいピクセルの値を計算する
主なパラメータは拡大する倍率のみ。通常、2の累乗倍率を使用する

要するに、画像生成などのタスクではConv2DTransposeが使用され、データの拡大だけが必要な場合はUpSampling2Dが選択される。

リンク

生成画像の型を定義

生成する画像の型を定義します。幅と高さを自分の生成したい大きさに調整します。また、チャンネルはグレースケールなので１にします。

Python

width = 144
height = 144
channels = 1
shape = (width, height, channels)
noise_dim = 100

生成器（ジェネレーター）モデルを定義

Python

def generator_model(noise_dim):
    model = Sequential()
    model.add(Dense(256 * 18 * 18, input_dim=noise_dim))
    model.add(Reshape((18, 18, 256)))

    model.add(Conv2DTranspose(128, kernel_size=3, strides=2, padding='same'))
    model.add(LeakyReLU(alpha=0.01))

    model.add(Conv2DTranspose(64, kernel_size=3, strides=1, padding='same'))
    model.add(LeakyReLU(alpha=0.01))
    
    model.add(Conv2DTranspose(32, kernel_size=3, strides=2, padding='same'))
    model.add(LeakyReLU(alpha=0.01))

    model.add(Conv2DTranspose(1, kernel_size=3, strides=2, padding='same'))
    model.add(Activation('tanh'))
    
    return model

model.add(Dense(256 * 18 * 18, input_dim=noise_dim))
＃18はConv2DTransposeの数、ストライドから導く。
#ストライド２が３あるから、１８ｘ２ｘ２ｘ２＝１４４（画像サイズ）となるようにする。

model.add(Conv2DTranspose(128, kernel_size=3, strides=2, padding=’same’))
＃128個のフィルターを使用し、カーネルサイズが3×3で、ストライドが2の畳み込みの逆操作を行う。これにより、18×18の入力が36×36に拡大される。
＃ストライド：畳み込み演算においてフィルター（カーネル）が入力データをどのくらいのステップで移動するかを制御するパラメータ。
＃例：ストライドが1の場合→フィルターは1つのピクセルごとに移動→出力画像は入力と同じサイズ
＃例：ストライドが2の場合→フィルターは2つのピクセルごとに移動→出力は入力の２倍になる
このようにして、畳み込みの逆操作を行い、より大きな出力を生成することができる。

model.add(Conv2DTranspose(64, kernel_size=3, strides=1, padding=’same’))
＃stridesを１にしているため、画像サイズはキープされる。

＊以降の解説は前回までで沢山しているので割愛します。

【AI/実践編】DCGANで高画質化【衝撃簡単⑤】

衝撃簡単です。DCGANを使ってフェイク画像を作っていきましょう！ディープフェイクにも使われている技術を誰でも、簡単にできるようにまとめました。AI学習は座学よりも実践あるのみです！DCGANを体験していきましょう！

識別器（ディスクリミネーター）を定義

Python

def discriminator_model(shape):
    model = Sequential()

    model.add(Conv2D(32, kernel_size=3, strides=2, input_shape=shape, padding="same"))
    model.add(LeakyReLU(alpha=0.2))

    model.add(Conv2D(64, kernel_size=3, strides=2, padding="same"))
    model.add(LeakyReLU(alpha=0.2))
    model.add(Dropout(0.25))

    model.add(Conv2D(128, kernel_size=3, strides=2, padding="same"))
    model.add(LeakyReLU(alpha=0.2))
    model.add(Dropout(0.25))

    model.add(Conv2D(256, kernel_size=3, strides=2, padding="same"))
    model.add(LeakyReLU(alpha=0.2))
    model.add(Dropout(0.25))

    model.add(Conv2D(512, kernel_size=3, strides=2, padding="same"))
    model.add(LeakyReLU(alpha=0.2))
    model.add(Dropout(0.25))

    model.add(Conv2D(1024, kernel_size=3, strides=2, padding="same"))
    model.add(LeakyReLU(alpha=0.2))
    model.add(Dropout(0.25))

    model.add(Flatten())
    model.add(Dense(1, activation='sigmoid'))

    return model

このdiscriminatorの調整には理論はありません。
『実行しては修正して』を繰り返したら、こうなりました。これが正解ではないので、皆さんも増やしたり、減らしたり、カスタマイズして最適解を導いてみてください。

p.s.以下に私の経験則や一般論を置いておきます。微力ですがカスタマイズで困ったらどうぞ。

【AI/座学】GANパラメーター調整のコツ・極意書

GANモデルは学習が不安定になりがちです。それを見ると、私の心も不安定(なんちゃって)。ここでは、そんな学習も心も不安定になってしまった人に向けての、GANモデルパラメーター調整のコツを紹介します。私の過去からの経験から【これは効果あった】や一般論をまとめています。

DCGANモデルの定義とコンパイル

生成器と識別器を結合してDCGANモデルを作成しましょう！

Python

def gan_model(generator, discriminator):
    model = Sequential()
    model.add(generator)
    model.add(discriminator)
    return model

これも今までに何回も登場しました。もはや定型文ですね。

モデルのコンパイル

パラメーターの設定をしていきましょう。

Python

discriminator = discriminator_model(shape)
discriminator.compile(loss='binary_crossentropy',
                      optimizer=Adam(lr=0.0001, beta_1=0.5),metrics=['accuracy'])

generator = generator_model(noise_dim)
generator.compile(loss='binary_crossentropy', optimizer=Adam(lr=0.0007, beta_1=0.5))

discriminator.trainable = False

gan = gan_model(generator, discriminator)
gan.compile(loss='binary_crossentropy', optimizer=Adam(lr=0.0007, beta_1=0.5))

こちらも、トライアンドエラーの繰り返しです。強いて言うなら、１つずつ変えてみてください。複数を同時に変更すると、何が影響を与えたか判断できなくなってしまうので。

【AI/座学】GANパラメーター調整のコツ・極意書

モデルの訓練

Python

losses = []
accuracies = []
iteration_checkpoints = []

def train(iterations, batch_size, sample_interval):
    X_train = load_images("./gray_144_face")
    X_train = X_train / 127.5 - 1.0
    X_train=np.expand_dims(X_train,axis=3)#グレースケールだから
    real_label = np.ones((batch_size, 1))  # 修正
    fake_label = np.zeros((batch_size, 1))  # 修正

    for iteration in range(iterations):
        idx = np.random.randint(0, X_train.shape[0], batch_size)
        batch_images = X_train[idx]
        z = np.random.normal(0, 1, (batch_size, noise_dim))
        gene_imgs = generator.predict(z)

        d_loss_real = discriminator.train_on_batch(batch_images, real_label)
        d_loss_fake = discriminator.train_on_batch(gene_imgs, fake_label)
        d_loss, accuracy = 0.5 * np.add(d_loss_real, d_loss_fake)

        z = np.random.normal(0, 1, (batch_size, noise_dim))
        g_loss = gan.train_on_batch(z, real_label)


        if (iteration + 1) % sample_interval == 0:
            losses.append((d_loss, g_loss))
            accuracies.append(100.0 * accuracy)
            iteration_checkpoints.append(iteration + 1)

            print("%d [D loss: %f, acc.: %.2f%%] [G loss: %f]" % (iteration + 1, d_loss, 100.0 * accuracy, g_loss))
            save_images(generator, iteration + 1)

idx_real = np.random.randint(0, X_train.shape[0] , batch_size)
＃batch_size の数だけデータをランダムに抽出する
＃np.random.randint(a, b, size) 関数は、a 以上 b 未満の範囲からランダムに整数を size 個生成します。

z = np.random.normal(0, 1, (batch_size, noise_dim))
＃引数として、平均（0）、標準偏差（1）、および形状を指定しています。ここで、batch_sizeは生成される行列の行数（サンプル数）、noise_dimは列数（ノイズの次元数）を示しています。

d_loss_real = discriminator.train_on_batch(batch_images_real, real_label)
d_loss_fake = discriminator.train_on_batch(gene_imgs, fake_label)
＃Discriminatorを訓練。本物の画像と偽物の画像をそれぞれ使用して損失を計算。
＃train_on_batch メソッドは、バッチで訓練するために使用されます。このメソッドは、入力データと対応する正解ラベル（または目標値）を受け取り、モデルの重みを更新します。以下に、このメソッドの引数と使い方を説明します。

g_loss = gan.train_on_batch(z, real_label)
＃GANモデルを訓練。GANは、生成された画像を本物と誤認させるように学習します。
＃real_labelは、生成器（Generator）の訓練時に使用される目標値。目標値として本物の画像に対応するラベルが与えられます。

＊他は何回も解説していることなので、割愛します。

【AI/実践編】DCGANで高画質化【衝撃簡単⑤】

画像ロードの関数を定義する

今回は独自の画像データを使うので、モデルに画像を読み込ますためのロード関数が必要になります。ここでは、それを定義していきましょう！

Python

def load_images(directory):#グレースケール用に変換する
    images = []
    for filename in os.listdir(directory):
        img = cv2.imread(os.path.join(directory, filename))
        if img is not None:  
            img = cv2.resize(img, (width, height))
            if len(img.shape) == 3:  # チャンネルが3の場合はグレースケールに変換
                img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
            images.append(img)
        else:
            print(f"Warning: Failed to load image {filename}")
    if len(images) == 0:
        print("Error: No images loaded")
        return None
    else:
        return np.array(images)

これでモデルに独自の画像データを読み込むことができます。

生成画像の保存

画像を保存して目視できるようにしましょう！

Python

def save_images(generator, iteration, directory='144x144x_face_gray_images', image_grid_rows=4, image_grid_columns=4):
    if not os.path.exists(directory):
        os.makedirs(directory)

    z = np.random.normal(0, 1, (image_grid_rows * image_grid_columns, noise_dim))
    gene_imgs = generator.predict(z)
    gene_imgs = 0.5 * gene_imgs + 0.5
    fig, axs = plt.subplots(image_grid_rows, image_grid_columns, figsize=(4, 4), sharey=True, sharex=True)
    cnt = 0
    for row in range(image_grid_rows):
        for col in range(image_grid_columns):
            axs[row, col].imshow(gene_imgs[cnt, :, :, 0], cmap='gray')
            axs[row, col].axis('off')
            cnt += 1

    fig.savefig(f"{directory}/iteration_{iteration}.png")
    plt.close(fig)

引数のdirectory=を変えないと、以前の保存画像に上書きされてしまうので、これは変えておきましょう！

また、12行目のaxs[row, col].imshow(gene_imgs[cnt, :, :, 0], cmap=’gray’)はグレースケール用に変えています。

p.s.今まで、使ってきたメソッドなので細かい解説は割愛します。

リンク

モデルの実行＆保存

バッチサイズを変えると、学習に影響が出ます。それ以外のパラメーターはお好みでどうぞ！

Python

iterations = 20000
batch_size = 128
sample_interval = 100 

train(iterations, batch_size, sample_interval)
generator.save('144Face-gene.keras')
discriminator.save('144Face-dis.keras')
gan.save('144Face-gan.keras')

ファイルの実行

では、実行していきましょう。実行方法は人それぞれですが、私の場合はCMDでファイル名を入力することで実行しています。

ファイル名.py

これで、いい感じの出力がされたら完了です！

学習モデルで１枚ずつ確認してみよう！

今までは、4×4で画像を確認しましたが、サイズを大きく確認したいので１枚で出力されるようにしましょう。

Python

import numpy as np
import matplotlib.pyplot as plt
from keras.models import load_model
import os

noise_dim=100
def generate_and_save_images(generator, noise_dim, save_directory='generated_images', num_images=10):
    if not os.path.exists(save_directory):
        os.makedirs(save_directory)
    
    for i in range(num_images):
        noise = np.random.normal(0, 1, (1, noise_dim))
        generated_image = generator.predict(noise)
        generated_image = 0.5 * generated_image + 0.5  # 画像のスケーリングを元に戻す
        generated_image = np.squeeze(generated_image)  # 不要な次元を削除
        plt.imshow(generated_image, cmap='gray')
        plt.axis('off')
        plt.savefig(f"{save_directory}/generated_image_{i+1}.png")
        plt.close()

# 生成器モデルをロードする
generator = load_model('144Face-gene.keras')

# 10枚の画像を生成して保存する
generate_and_save_images(generator, noise_dim)

これで、大きなサイズで画像を確認できるようになりました。

おわりに

今回は大きなサイズの生成方法を紹介しました。もっと、質を高めたい方は、層を複雑にしたりパラメーターの値をカスタマイズしてみてください。

【AI/実装編】DCGANでカラー画像を生成【衝撃簡単⑦】

管理人 — Thu, 07 Mar 2024 10:40:01 +0000

対象読者
おわりに

対象読者

今回は、DCGANでカラー画像を生成していきます！あまり良い結果とは言えませんが、カラー画像自体は生成できているので、まぁよしとしてください💦

今回のゴール設定は『タイプを具現化する』ことです。綺麗だと思う女性の画像を集め、それらに共通する特徴をDCGANで生成してもらいます。これにより、自分のタイプという概念が具現化できます。
ちなみに下が結果です。

女性と思えば女性に見えるレベルの画像ですね（笑）
こんなレベルでもいいよ！と感じたら、読み進めてみてください。

今回のプロセス

では、まずはじめにDCGANでカラー画像生成プロセスを簡単に紹介しておきます。

画像収集
画像加工
プログラミング(モデル作成)
１.モジュール準備
２.生成画像の型
３.生成器・識別器・GANモデルの構築
４.コンパイル
５.訓練
６.追加の関数とか
７.実行
モデルの評価・改善
終了

簡単にまとめるとこんな感じです。コードは前回までのを使ったりするので、意外とすんなり終わります。

今回の全コード

半分以上はこれまでの『衝撃簡単シリーズ』で登場したものとなるので、新しいことは意外とありません。
p.s.前回まででの重複箇所の説明は割愛させていただきます

Python

from keras.layers import Input, Dense, Reshape, Flatten, Dropout
from keras.layers import BatchNormalization, Activation, ZeroPadding2D
from keras.layers import LeakyReLU
from keras.layers import UpSampling2D, Conv2D
from keras.models import Sequential, Model
from keras.optimizers import Adam
import matplotlib.pyplot as plt
import os
import cv2
import numpy as np

width = 40
height = 40
channels = 3
shape = (width, height, channels)
noise_dim = 100


def generator_model(noise_dim):
    model = Sequential()
    model.add(Dense(10 * 10 * 256, activation="relu", input_dim=noise_dim))
    model.add(Reshape((10, 10, 256)))
    model.add(BatchNormalization(momentum=0.8))
    model.add(UpSampling2D())

    model.add(Conv2D(128, kernel_size=3, padding="same"))
    model.add(Activation("relu"))
    model.add(BatchNormalization(momentum=0.8))
    model.add(UpSampling2D())


    model.add(Conv2D(64, kernel_size=3, padding="same"))
    model.add(Activation("relu"))
    model.add(BatchNormalization(momentum=0.8))

    model.add(Conv2D(3, kernel_size=3, padding="same"))
    model.add(Activation("tanh"))
    return model



def discriminator_model(shape):
    model = Sequential()
    model.add(Conv2D(32, kernel_size=3, strides=2, input_shape=shape, padding="same"))
    model.add(LeakyReLU(alpha=0.2))
    model.add(Dropout(0.25))
    model.add(Conv2D(64, kernel_size=3, strides=2, padding="same"))
    model.add(LeakyReLU(alpha=0.2))
    model.add(Dropout(0.25))
    model.add(Conv2D(128, kernel_size=3, strides=2, padding="same"))
    model.add(LeakyReLU(alpha=0.2))
    model.add(Dropout(0.25))
    model.add(Flatten())
    model.add(Dense(1, activation='sigmoid'))
    return model




def gan_model(generator, discriminator):
    model = Sequential()
    model.add(generator)
    model.add(discriminator)
    return model


discriminator = discriminator_model(shape)
discriminator.compile(loss='binary_crossentropy',
                      optimizer=Adam(lr=0.0001, beta_1=0.5),
                      metrics=['accuracy'])

generator = generator_model(noise_dim)
generator.compile(loss='binary_crossentropy', optimizer=Adam(lr=0.0003, beta_1=0.5))

discriminator.trainable = False

gan = gan_model(generator, discriminator)
gan.compile(loss='binary_crossentropy', optimizer=Adam(lr=0.0003, beta_1=0.5))



losses = []
accuracies = []
iteration_checkpoints = []



def train(iterations, batch_size, sample_interval):
    X_train = load_images("./resized_images_40")
    X_train = X_train / 127.5 - 1.0
    real_label = np.ones((batch_size, 1))  # 修正
    fake_label = np.zeros((batch_size, 1))  # 修正

    for iteration in range(iterations):
        idx_real = np.random.randint(0, X_train.shape[0] - 1, batch_size)  # 修正
        idx_fake = np.random.randint(0, X_train.shape[0] - 1, batch_size)  # 修正
        batch_images_real = X_train[idx_real]
        batch_images_fake = X_train[idx_fake]
        
        # ノイズの生成時に正しい次元数を使用する
        z = np.random.normal(0, 1, (batch_size, noise_dim))  # 修正
        gene_imgs = generator.predict(z)

        d_loss_real = discriminator.train_on_batch(batch_images_real, real_label)  # 修正
        d_loss_fake = discriminator.train_on_batch(gene_imgs, fake_label)
        d_loss, accuracy = 0.5 * np.add(d_loss_real, d_loss_fake)

        z = np.random.normal(0, 1, (batch_size, noise_dim))
        g_loss = gan.train_on_batch(z, real_label)

        if (iteration + 1) % sample_interval == 0:
            losses.append((d_loss, g_loss))
            accuracies.append(100.0 * accuracy)
            iteration_checkpoints.append(iteration + 1)

            print("%d [D loss: %f, acc.: %.2f%%] [G loss: %f]" % (iteration + 1, d_loss, 100.0 * accuracy, g_loss))
            save_images(generator, iteration + 1)


def save_images(generator, iteration, directory='face-gan_images', image_grid_rows=4, image_grid_columns=4):
    if not os.path.exists(directory):
        os.makedirs(directory)

    z = np.random.normal(0, 1, (image_grid_rows * image_grid_columns, noise_dim))
    gene_imgs = generator.predict(z)
    gene_imgs = 0.5 * gene_imgs + 0.5
    fig, axs = plt.subplots(image_grid_rows, image_grid_columns, figsize=(4, 4), sharey=True, sharex=True)
    cnt = 0
    for row in range(image_grid_rows):
        for col in range(image_grid_columns):
            axs[row, col].imshow(gene_imgs[cnt])
            axs[row, col].axis('off')
            cnt += 1

    fig.savefig(f"{directory}/iteration_{iteration}.png")
    plt.close(fig)


def load_images(directory):
    images = []
    for filename in os.listdir(directory):
        img = cv2.imread(os.path.join(directory, filename))
        if img is not None:  # 画像の読み込みが成功した場合のみ処理を続行
            img = cv2.resize(img, (width, height))
            images.append(img)
        else:
            print(f"Warning: Failed to load image {filename}")
    if len(images) == 0:
        print("Error: No images loaded")
        return None
    else:
        return np.array(images)


iterations = 20000
batch_size = 128
sample_interval = 1  
train(iterations, batch_size, sample_interval)
generator.save('40x40color-Face-gene.keras')
discriminator.save('40x40color-Face-dis.keras')
gan.save('40x40color-Face-gan.keras')

カラー画像の収集＋前処理

では、早速やっていきましょう。まずは画像収集と前処理です。具体的なコードはこちらでやってみてください。↓

【AI/実践編】画像収集～画像前処理方法【衝撃簡単⑥】

ここのタスクで私がやったことをまとめます。

独断と偏見から綺麗だと思う女性画像を100枚ずつ計400枚集める
（有村架純・長澤まさみ・橋本環奈・パクジヒョ）
画像サイズを40×40に変更する
ファイル名を変更する

モジュール準備

Python

import matplotlib.pyplot as plt
import numpy as np
from keras.layers import Dense, Flatten,Reshape, LeakyReLU 
from keras.models import Sequential
from keras.optimizers import Adam
import os
from keras.layers import Activation,Dropout,BatchNormalization
#上記↑は『衝撃簡単５』と同じ
from keras.layers import Conv2D
from keras.layers import UpSampling2D
import cv2

from keras.layers import Conv2D
＃Conv2Dは入力データ（通常は画像や特徴マップ）に対して畳み込み演算を適用し、新しい特徴マップを生成するライブラリ

from keras.layers import UpSampling2D
＃Upsampling2Dはアップサンプリングプロセスを行うためのライブラリ。
＃Conv2DTransposeを使いたいが、計算量が大きくなってしまうのでやめました。

import cv2
＃cv2は画像処理に使われるライブラリ

生成画像の型を定義

生成する画像の型を定義します。幅と高さを自分の生成したい大きさに調整します。また、チャンネルはカラーなので３にします。

Python

width = 40
height = 40
channels = 3
shape = (width, height, channels)
noise_dim = 100

生成器（ジェネレーター）モデルを定義

Python

def generator_model(noise_dim):
    model = Sequential()
    model.add(Dense(10 * 10 * 256, activation="relu", input_dim=noise_dim))
    model.add(Reshape((10, 10, 256)))
    model.add(BatchNormalization(momentum=0.8))
    model.add(UpSampling2D())

    model.add(Conv2D(128, kernel_size=3, padding="same"))
    model.add(Activation("relu"))
    model.add(BatchNormalization(momentum=0.8))
    model.add(UpSampling2D())


    model.add(Conv2D(64, kernel_size=3, padding="same"))
    model.add(Activation("relu"))
    model.add(BatchNormalization(momentum=0.8))

    model.add(Conv2D(3, kernel_size=3, padding="same"))
    model.add(Activation("tanh"))
    return model

model.add(Dense(10 * 10 * 256, activation=”relu”, input_dim=noise_dim))
＃10 * 10 * 256は、出力の次元数を指定しており、10 * 10 * 256個のニューロンを持つ層を定義している。
＃10は、アップサンプリングの数から導く。もし、アップサンプリング数が１つなら20を設定する。。

model.add(Reshape((10, 10, 256)))
＃直前の全結合層からの出力を(10, 10, 256)の形状に変更している。→テンソルを3次元の画像形式に変換できる

model.add(BatchNormalization(momentum=0.8))
＃:学習を安定化し、収束を加速するための手法を用いる
＃momentum=0.8は、モーメンタムの値を指定する。更新において、ほぼ前回の更新の80％を保持して次のステップに反映させる。
＃モーメンタム：収束速度を向上させ、局所的最適解からの脱出を助ける効果。一般的な値は0.9。

model.add(UpSampling2D())
# アップサンプリングは、画像のサイズを拡大する操作であり、ここでは画像を拡大している。デフォルトでは2倍に拡大される。→Dense層の入力はアップサンプリングを考慮する必要がある。

model.add(Conv2D(128, kernel_size=3, padding="same"))
＃Conv2Dは、2次元の畳み込みを行う層。画像データの処理において、畳み込み層はフィルター（カーネル）を用いて画像の特徴を抽出する
＃引数は、畳み込み演算に使用するフィルターの数を指定している。ここでは128個のフィルターを使用している→128個は、モデルが十分な表現力を持ちつつも、計算コストを抑えつつ、多様な特徴を捉えるためのバランスの取れた選択肢
＃kernel_size=3は、畳み込み演算に使用するフィルターのサイズを指定しています。ここでは3×3のフィルター
＃padding="same"は、入力と出力のサイズを同じに保つために、入力画像の周囲にパディングを追加することを指定してる

＊以降は、繰り返しなので割愛

model.add(Activation(“tanh”))
＃tanh関数は、入力が無限に広がる範囲の実数を、 -1 から 1 の範囲にマッピングする関数→生成された画像のピクセル値を調整し、モデルが学習しやすくするために役立つ
＃tanh関数は0 を中心とした対称的な出力を持つ→勾配の効率的な伝播を可能にする

リンク

識別器（ディスクリミネーター）を定義

Python

def discriminator_model(shape):
    model = Sequential()
    model.add(Conv2D(32, kernel_size=3, strides=2, input_shape=shape, padding="same"))
    model.add(LeakyReLU(alpha=0.2))
    model.add(Dropout(0.25))
    model.add(Conv2D(64, kernel_size=3, strides=2, padding="same"))
    model.add(LeakyReLU(alpha=0.2))
    model.add(Dropout(0.25))
    model.add(Conv2D(128, kernel_size=3, strides=2, padding="same"))
    model.add(LeakyReLU(alpha=0.2))
    model.add(Dropout(0.25))
    model.add(Flatten())
    model.add(Dense(1, activation='sigmoid'))
    return model

＃生成器と逆に、カーネルサイズの増加は、特徴の抽象化の階層を作成する一つの方法。
①最初の層は画像の低レベルの特徴を取得し、
②その後の層はより抽象的な特徴を取得します。
このような階層的な抽象化は、識別器が画像の本質的な特徴を理解するのに役立つ

＊このdiscriminatorコードは今までに何回も使っているので説明は割愛します。

【AI/実践編】DCGANで高画質化【衝撃簡単⑤】

DCGANモデルの定義とコンパイル

生成器と識別器を結合してDCGANモデルを作成しましょう！

Python

def gan_model(generator, discriminator):
    model = Sequential()
    model.add(generator)
    model.add(discriminator)
    return model

これも今までに何回も登場しました。もはや定型文ですね。

モデルのコンパイル

パラメーターの設定をしていきましょう。

Python

discriminator = discriminator_model(shape)
discriminator.compile(loss='binary_crossentropy',
                      optimizer=Adam(lr=0.0001, beta_1=0.5),
                      metrics=['accuracy'])

generator = generator_model(noise_dim)
generator.compile(loss='binary_crossentropy', optimizer=Adam(lr=0.0003, beta_1=0.5))

discriminator.trainable = False

gan = gan_model(generator, discriminator)
gan.compile(loss='binary_crossentropy', optimizer=Adam(lr=0.0003, beta_1=0.5))

こちらは、前回と一緒です。最初に見せたゴール画像よりも良質な画像を生成したい場合はカスタマイズして最適解を導いてみてください。

【AI/実践編】DCGANで高画質化【衝撃簡単⑤】

モデルの訓練

Python

losses = []
accuracies = []
iteration_checkpoints = []

def train(iterations, batch_size, sample_interval):
    X_train = load_images("./resized_images_40")
    X_train = X_train / 127.5 - 1.0
    real_label = np.ones((batch_size, 1))  # 修正
    fake_label = np.zeros((batch_size, 1))  # 修正

    for iteration in range(iterations):
        idx_real = np.random.randint(0, X_train.shape[0] - 1, batch_size)  # 修正
        idx_fake = np.random.randint(0, X_train.shape[0] - 1, batch_size)  # 修正
        batch_images_real = X_train[idx_real]
        batch_images_fake = X_train[idx_fake]
        
        # ノイズの生成時に正しい次元数を使用する
        z = np.random.normal(0, 1, (batch_size, noise_dim))  # 修正
        gene_imgs = generator.predict(z)

        d_loss_real = discriminator.train_on_batch(batch_images_real, real_label)  # 修正
        d_loss_fake = discriminator.train_on_batch(gene_imgs, fake_label)
        d_loss, accuracy = 0.5 * np.add(d_loss_real, d_loss_fake)

        z = np.random.normal(0, 1, (batch_size, noise_dim))
        g_loss = gan.train_on_batch(z, real_label)

        if (iteration + 1) % sample_interval == 0:
            losses.append((d_loss, g_loss))
            accuracies.append(100.0 * accuracy)
            iteration_checkpoints.append(iteration + 1)

            print("%d [D loss: %f, acc.: %.2f%%] [G loss: %f]" % (iteration + 1, d_loss, 100.0 * accuracy, g_loss))
            save_images(generator, iteration + 1)

losses = []、accuracies = []、iteration_checkpoints = []
＃損失、精度、およびイテレーションごとのチェックポイントを格納するためのリストを初期化。

def train(iterations, batch_size, sample_interval):
＃train 関数を定義。この関数は、訓練のメインループ

X_train = load_images("./resized_images_40")
＃画像データを読み込む。load_images 関数は、指定されたディレクトリから画像を読み込む。(以降で定義)

X_train = X_train / 127.5 - 1.0
＃画像のピクセル値を正規化。通常、画像のピクセル値は0から255の範囲だが、これを-1から1の範囲に変換。

real_label = np.ones((batch_size, 1))
fake_label = np.zeros((batch_size, 1))
＃本物の画像と偽物の画像のラベルを定義。

for iteration in range(iterations):
＃指定されたイテレーション数だけ訓練を繰り返す

idx_real = np.random.randint(0, X_train.shape[0] - 1, batch_size)
idx_fake = np.random.randint(0, X_train.shape[0] - 1, batch_size)
＃ランダムなインデックスを生成し、本物の画像と偽物の画像のバッチを選択。
＃np.random.randint(a, b, size) 関数は、a 以上 b 未満の範囲からランダムに整数を size 個生成する。

z = np.random.normal(0, 1, (batch_size, noise_dim))
＃正規分布からランダムなノイズを生成。これはGeneratorの入力として使用。

gene_imgs = generator.predict(z)
＃Generatorを使用して、ノイズから偽の画像を生成。

d_loss, accuracy = 0.5 * np.add(d_loss_real, d_loss_fake)
＃Discriminatorの損失と精度を計算します。

g_loss = gan.train_on_batch(z, real_label)
＃GANモデルを訓練。GANは、生成された画像を本物と誤認させるように学習します。
＃real_labelは、生成器（Generator）の訓練時に使用される目標値。目標値として本物の画像に対応するラベルが与えられます。

(iteration + 1) % sample_interval == 0
＃サンプル間隔ごとに、損失や精度を保存して結果を表示

save_images(generator, iteration + 1)
＃生成された画像を保存

リンク

画像ロードの関数を定義する

今回は独自の画像データを使うので、モデルに画像を読み込ますためのロード関数が必要になります。ここでは、それを定義していきましょう！

Python

def load_images(directory):
    images = []
    for filename in os.listdir(directory):
        img = cv2.imread(os.path.join(directory, filename))
        if img is not None:  # 画像の読み込みが成功した場合のみ処理を続行
            img = cv2.resize(img, (width, height))
            images.append(img)
        else:
            print(f"Warning: Failed to load image {filename}")
    if len(images) == 0:
        print("Error: No images loaded")
        return None
    else:
        return np.array(images)

def load_images(directory):
＃load_images 関数を定義。この関数は、指定されたディレクトリから画像を読み込む

images = []
＃画像を格納するための空のリスト images

for filename in os.listdir(directory):
＃指定されたディレクトリ内のファイルを1つずつ反復処理する。

img = cv2.imread(os.path.join(directory, filename))
＃os.path.join を使用して、ディレクトリとファイル名を組み合わせてファイルのパスを作成
＃cv2.imread を使用して画像を読み込む。

if img is not None:
＃画像が正常に読み込まれたかどうかをチェック

img = cv2.resize(img, (width, height))
＃読み込まれた画像を指定された幅と高さにリサイズ

images.append(img)
＃リサイズされた画像を images リストに追加します。

else:
＃画像が読み込まれなかった場合（img が None の場合）に実行されるブロック

print(f"Warning: Failed to load image {filename}")
＃警告メッセージを出力し、どの画像が読み込めなかったかを表示

if len(images) == 0:
＃読み込まれた画像がない場合をチェックします。

print("Error: No images loaded")
＃エラーメッセージを出力します。

return None
＃画像が読み込まれなかった場合は None を返す

else:
＃それ以外の場合（画像が1つ以上読み込まれた場合）

return np.array(images)
＃images リストをNumPy配列に変換して返す。 NumPy配列は、後続の処理で使用できる形式にデータを整形する。

これでモデルに独自の画像データを読み込むことができます。

生成画像の保存

画像を保存して目視できるようにしましょう！

Python

def save_images(generator, iteration, directory='face-gan_images', image_grid_rows=4, image_grid_columns=4):
    if not os.path.exists(directory):
        os.makedirs(directory)

    z = np.random.normal(0, 1, (image_grid_rows * image_grid_columns, noise_dim))
    gene_imgs = generator.predict(z)
    gene_imgs = 0.5 * gene_imgs + 0.5
    fig, axs = plt.subplots(image_grid_rows, image_grid_columns, figsize=(4, 4), sharey=True, sharex=True)
    cnt = 0
    for row in range(image_grid_rows):
        for col in range(image_grid_columns):
            axs[row, col].imshow(gene_imgs[cnt])
            #カラーなので前回までのgene_imgs[cnt, :, :, 0], cmap='gray'は不要
            axs[row, col].axis('off')
            cnt += 1

    fig.savefig(f"{directory}/iteration_{iteration}.png")
    plt.close(fig)

引数のdirectory=を変えないと、以前の保存画像に上書きされてしまうので、これは変えておきましょう！

モデルの実行＆保存

バッチサイズを変えると、学習に影響が出ます。それ以外のパラメーターはお好みでどうぞ！

Python

iterations = 20000
batch_size = 128
sample_interval = 100 
train(iterations, batch_size, sample_interval)
generator.save('40x40color-Face-gene.keras')
discriminator.save('40x40color-Face-dis.keras')
gan.save('40x40color-Face-gan.keras')

これもよく登場するので割愛します。

【AI/実践編】DCGANで高画質化【衝撃簡単⑤】

ファイルの実行

では、実行していきましょう。実行方法は人それぞれですが、私の場合はCMDでファイル名を入力することで実行しています。

Python

ファイル名.py

これで、いい感じの出力がされたら完了です！

学習モデルで１枚ずつ確認してみよう！

今までは、4×4で画像を確認しましたが、サイズを大きく確認したいので１枚で出力されるようにしましょう。

Python

import numpy as np
import matplotlib.pyplot as plt
from keras.models import load_model
import os
import cv2
noise_dim=100
# 保存したGANモデルの読み込み
generator = load_model('40x40color-Face-gene.keras')

def generate_images(generator, save_directory, num_images=10):
    if not os.path.exists(save_directory):
        os.makedirs(save_directory)

    noise = np.random.normal(0, 1, (num_images, noise_dim))
    generated_images = generator.predict(noise)

    for i in range(num_images):
        img = (generated_images[i] + 1) / 2  # 画像のスケーリングを元に戻す
        plt.imshow(img)
        plt.axis('off')
        plt.savefig(f"{save_directory}/generated_image_{i+1}.png")
        plt.close()

# 画像を保存するディレクトリと生成する画像の枚数を指定して実行
generate_images(generator, "generated_images", num_images=40)

generator = load_model(’40x40color-Face-gene.keras’)
＃括弧内には各自の学習済み生成器ファイル名を入れてください。

generate_images(generator, “generated_images”, num_images=40)
＃手動generated_imagesを作って、それを保存先ディレクトリに指定します。
＃num_images=40は保存する画像数です。

これで、大きなサイズで画像を確認できるようになりました。

おわりに

今回はカラー画像の生成方法を紹介しました。もっと、質を高めたい方は、層を複雑にしたりパラメーターの値をカスタマイズしてみてください。

では、次回はグレースケール画像で、サイズの大きな画像を生成できるようにします。流れは、今までやってきたことと同じなので、ササっとやっていきましょう！

【AI/実装編】サイズの大きな画像を生成【衝撃簡単⑧】

【衝撃簡単】でDCGANモデルで大きな画像を生成していきます。流れはMNISTと同じです。初心者でもできるレベルの学習になので簡単にやっていきましょう。

【AI/実践編】画像収集～画像前処理方法【衝撃簡単⑥】

管理人 — Thu, 07 Mar 2024 07:06:57 +0000

対象読者
おわりに

対象読者

ここでは、機械学習における画像収集～前処理（サイズ変更・ファイル名変更・グレースケール化）を扱います。

このページで紹介する内容は機械学習のサブ的な技術なのでコードの細かな解説などは割愛させていただきます。あくまでも道具として使えれば、細かなところは理解してなくてもOKですもんね。

では、前置きはここまでにして早速やっていきましょう！

画像収集(Webスクレイピング）

画像収集にはWebスクレイピングという技術を使います。これを使うことで、膨大な画像データを自動で収集できるようになります。

しかしこの技術の取り扱いは色々と複雑です。禁止されているサイトやページがあったり、個人情報の問題があったりします。なので以下に載せるコードはあくまでも参考としてのみ提供する形をとらせていただきます。

Python= num_images: break image_data = requests.get(image_url).content with open(f'{save_dir}/{query}_{downloaded}.jpg', 'wb') as f: f.write(image_data) print(f"Downloaded image {downloaded+1}/{num_images}") downloaded += 1 except Exception as e: print(f"Error downloading image {downloaded+1}: {e}") time.sleep(1) # Googleへの負荷を軽減するために1秒待つ # 使用例 query = "ジヒョ　高画質" # 検索キーワード num_images = 100 # ダウンロードする画像の数 download_images(query, num_images) " style="color:#F8F8F2;display:none" aria-label="Copy" class="code-block-pro-copy-button">

import os
import requests
from bs4 import BeautifulSoup
from urllib.parse import urlparse, parse_qs
import time

def is_valid_url(url):
    # URLが有効なHTTPまたはHTTPSスキームを持っているかどうかを確認する
    return url.startswith("http://") or url.startswith("https://")

def download_images(query, num_images):
    save_dir = './woman_images'#収集した画像の保存先ディレクトリ
    if not os.path.exists(save_dir):
        os.makedirs(save_dir)
    
    headers = {'User-Agent': 'Mozilla/5.0'}
    downloaded = 0
    while downloaded < num_images:
        # キーワードを含むURLを構築
        url = f"https://www.google.com/search?q={query}&tbm=isch&start={downloaded}"
        # ヘッダーを設定してGoogleにリクエストを送信
        response = requests.get(url, headers=headers)
        # HTMLをパース
        soup = BeautifulSoup(response.text, 'html.parser')
        # 画像のURLを抽出
        image_urls = []
        for img in soup.find_all('img'):
            image_url = img.get('src')
            if image_url and is_valid_url(image_url):
                image_urls.append(image_url)
        # 画像をダウンロード
        for i, image_url in enumerate(image_urls):
            try:
                if downloaded >= num_images:
                    break
                image_data = requests.get(image_url).content
                with open(f'{save_dir}/{query}_{downloaded}.jpg', 'wb') as f:
                    f.write(image_data)
                print(f"Downloaded image {downloaded+1}/{num_images}")
                downloaded += 1
            except Exception as e:
                print(f"Error downloading image {downloaded+1}: {e}")
        time.sleep(1)  # Googleへの負荷を軽減するために1秒待つ

# 使用例
query = "ジヒョ　高画質"  # 検索キーワード
num_images = 100  # ダウンロードする画像の数
download_images(query, num_images)

12行目: 画像の保存先ディレクトリを指定

20行目: 参考用としてGoogleにしましたが、規約などを確認し自己責任で実行してください。

43行目: サーバーの負荷を考えるともっと大きな数字でもいいかも

46行目: 人名(スペース)高画質とする→不純な画像が入ることを極力減らせる

47行目: 自分が欲しい枚数を指定してください。

これらの行をカスタマイズしPythonファイルを実行すれば画像の自動収集ができます。しかし、実行する前には必ず以下の免責事項を一読してください。

免責事項

このブログ記事に記載されているプログラムコードは、あくまでも参考として提供されています。このプログラムコードを使用する場合は、自己責任でご利用ください。作者は、プログラムコードの使用によって発生したいかなる問題や損害に対しても一切の責任を負いません。また、このプログラムコードの使用に関して、Googleの規約や法律に違反しないよう十分に注意してください。利用者は、自らの責任においてプログラムコードを使用し、適切な規則や法律に従うことを義務付けられます。

画像のサイズ変更

PythonのPILライブラリは画像の読み込み、変換、保存などのさまざまな操作を行うことができます。これを使うことで、画像のサイズ変更を自動化できるようになります。

Python

from PIL import Image
import os

def resize_images(input_folder, output_folder, target_size):
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)

    for filename in os.listdir(input_folder):
        try:
            # 画像を開く
            img_path = os.path.join(input_folder, filename)
            img = Image.open(img_path)
            # 画像を指定されたサイズにリサイズする
            resized_img = img.resize(target_size)
            # リサイズした画像を保存する
            output_path = os.path.join(output_folder, filename)
            resized_img.save(output_path)
            print(f"Resized image: {output_path}")
        except Exception as e:
            print(f"Error resizing image {filename}: {e}")

# 使用例
input_folder = './woman_images'  # 元の画像が保存されているフォルダ
output_folder = './resized_images_144'    # リサイズされた画像を保存するフォルダ
target_size=(144,144)# 目標の画像サイズ (幅, 高さ)
resize_images(input_folder, output_folder, target_size)

23~26行目はご自分の環境に合わせてカスタマイズしてください。あとは、変更不要です。

ファイル名変更

これは、次のグレースケール化の前準備となります。cv2ライブラリを使うときに、ファイル名が日本語などの特殊文字だとエラーが起きます。それを防ぐためにファイル名をランダムな数字に変更していきます。

p.s.カラー画像で学習する場合には、このタスクと次のタスクは不要です。

Python

import os
import random
import string

# ディレクトリのパスを指定
directory = './resized_images_144'

# ディレクトリ内のファイルを取得
files = os.listdir(directory)

# ファイルごとにループ
for filename in files:
    # 拡張子を取得
    _, ext = os.path.splitext(filename)
    
    # 新しいファイル名を生成
    new_filename = ''.join(random.choices(string.digits, k=8)) + ext
    
    # 新しいファイル名のパスを作成
    new_filepath = os.path.join(directory, new_filename)
    
    # ファイル名を変更
    os.rename(os.path.join(directory, filename), new_filepath)

６行目を自分の環境にあうように変えてください。あとは変更不要です。

グレースケール化

cv2にライブラリを使ってグレースケール化していきます。ただしファイル名が日本語などの特殊文字だとエラーが起きます。しっかりと、前のタスクでファイル名を適切な形にしておいてくださいっ。

Python

import cv2
import os

# 入力画像が保存されているフォルダパス
input_folder = 'resized_images_144'

# 出力フォルダパス
output_folder = 'gray_144_face'

# 入力フォルダ内のすべての画像ファイルを処理
for filename in os.listdir(input_folder):
    # 画像ファイルのパスを取得
    input_path = os.path.join(input_folder, filename)
    
    # 画像をグレースケールで読み込む
    img = cv2.imread(input_path)
    gray_img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    
    # 出力ファイルのパスを指定
    output_path = os.path.join(output_folder, filename)
    
    # グレースケール画像を保存
    cv2.imwrite(output_path, gray_img)

print("変換が完了しました。")

５、８行目を自分用にカスタマイズすれば、他は変更不要です。

おわりに

今回は、画像収集と画像処理方法を紹介しました。これらの技術は当サイトのAI学習タスクで頻繁に使います。

これらの技術を用いた機械学習タスクの実践編を置いておく↓ので、実践を試したい方は自由に利用してください。(只今調整中)

【AI/実践編】DCGANで高画質化【衝撃簡単⑤】

管理人 — Sat, 02 Mar 2024 08:07:09 +0000

対象読者
おわりに

対象読者

今回はGANに畳み込み層を追加して、よりリアルな偽物画像を生成していきます（DCGAN）。

DCGANモデルを使って、MNISTデータに似た画像（偽物）を生成して、前回よりも、より鮮明で、本物と見分けがつかないレベルまで学習することをやっていきましょう！

DCGANを使ったイテレーション遷移

では、ただのGAN(前回)とDCGAN(今回)と本物のMNIST画像を比較してみましょう。

GANとDCGANと本物ラベルの比較

どうですか？もう、本物と見分けがつきませんよね。たまにニュースで聞くディープフェイクなんかもこの技術が使われたりします。そんなすごい技術を今日は簡単に構築していきます。

また、今日はほとんど前回とコーディングが被っているので楽にできますよ～。
そのため、細かい解説などは割愛させていただきます。

【AI/実践編】生成AI-GANを実装【衝撃簡単④】

AIの深い原理が分からなくても作れます！今日はそんなAI技術を実践していきます。GANと呼ばれる画像生成AIを構築していきます。深い原理や、複雑な数学的思考は必要ありません。いまや、AIはパズル間隔でできる技術になっています。原理が分からなくても、実践でどんどん原理なんて補ってやりましょう！

前回

今回の全コード

Python

import matplotlib.pyplot as plt
import numpy as np
from keras.datasets import mnist
import os
from keras.layers import Dense, Flatten, Reshape, LeakyReLU, Dropout
from keras.models import Sequential
from keras.optimizers import Adam

from keras.layers import Activation, BatchNormalization
from keras.layers import Conv2D, Conv2DTranspose

width = 28
height = 28
channels = 1
shape = (width, height, channels)
noise_dim = 100

def generator_model(noise_dim):
    model = Sequential()
    model.add(Dense(256 * 7 * 7, input_dim=noise_dim))
    model.add(Reshape((7, 7, 256)))
    model.add(Conv2DTranspose(128, kernel_size=3, strides=2, padding='same'))
    model.add(BatchNormalization())

    model.add(LeakyReLU(alpha=0.01))

    model.add(Conv2DTranspose(64, kernel_size=3, strides=1, padding='same'))
    model.add(BatchNormalization())
    model.add(LeakyReLU(alpha=0.01))
    model.add(Conv2DTranspose(1, kernel_size=3, strides=2, padding='same'))
    model.add(Activation('tanh'))
    return model



def discriminator_model(shape):
    model = Sequential()
    model.add(Conv2D(32, kernel_size=3, strides=2, input_shape=shape, padding='same'))
    model.add(LeakyReLU(alpha=0.01))
    
    model.add(Dropout(0.25))
    model.add(Conv2D(64, kernel_size=3, strides=2, padding='same'))
    model.add(LeakyReLU(alpha=0.01))
    model.add(Conv2D(128, kernel_size=3, strides=2, padding='same'))
    model.add(LeakyReLU(alpha=0.01))
    model.add(Flatten())
    model.add(Dense(1, activation='sigmoid'))
    return model

def gan_model(generator, discriminator):
    model = Sequential()
    model.add(generator)
    model.add(discriminator)
    return model

discriminator = discriminator_model(shape)
discriminator.compile(loss='binary_crossentropy',
                      optimizer=Adam(lr=0.0001, beta_1=0.5),
                      metrics=['accuracy'])

generator = generator_model(noise_dim)
generator.compile(loss='binary_crossentropy', optimizer=Adam(lr=0.0003, beta_1=0.5))

discriminator.trainable = False

gan = gan_model(generator, discriminator)
gan.compile(loss='binary_crossentropy', optimizer=Adam(lr=0.0003, beta_1=0.5))

losses = []
accuracies = []
iteration_checkpoints = []

def train(iterations, batch_size, sample_interval):
    (X_train, _), (_, _) = mnist.load_data()
    X_train = X_train / 127.5 - 1.0
    X_train = np.expand_dims(X_train, axis=3)
    real_label = np.ones((batch_size, 1))
    fake_label = np.zeros((batch_size, 1))

    for iteration in range(iterations):
        idx = np.random.randint(0, X_train.shape[0], batch_size)
        batch_images = X_train[idx]
        z = np.random.normal(0, 1, (batch_size, noise_dim))
        gene_imgs = generator.predict(z)

        d_loss_real = discriminator.train_on_batch(batch_images, real_label)
        d_loss_fake = discriminator.train_on_batch(gene_imgs, fake_label)
        d_loss, accuracy = 0.5 * np.add(d_loss_real, d_loss_fake)

        z = np.random.normal(0, 1, (batch_size, noise_dim))
        g_loss = gan.train_on_batch(z, real_label)


        if (iteration + 1) % sample_interval == 0:
            losses.append((d_loss, g_loss))
            accuracies.append(100.0 * accuracy)
            iteration_checkpoints.append(iteration + 1)

            print("%d [D loss: %f, acc.: %.2f%%] [G loss: %f]" % (iteration + 1, d_loss, 100.0 * accuracy, g_loss))
            save_images(generator, iteration + 1)



def save_images(generator, iteration, directory='dcgan_images', image_grid_rows=4, image_grid_columns=4):
    if not os.path.exists(directory):
        os.makedirs(directory)

    z = np.random.normal(0, 1, (image_grid_rows * image_grid_columns, noise_dim))
    gene_imgs = generator.predict(z)
    gene_imgs = 0.5 * gene_imgs + 0.5
    fig, axs = plt.subplots(image_grid_rows, image_grid_columns, figsize=(4, 4), sharey=True, sharex=True)
    cnt = 0
    for row in range(image_grid_rows):
        for col in range(image_grid_columns):
            axs[row, col].imshow(gene_imgs[cnt, :, :, 0], cmap='gray')
            axs[row, col].axis('off')
            cnt += 1

    fig.savefig(f"{directory}/iteration_{iteration}.png")
    plt.close(fig)

iterations = 20000
batch_size = 128
sample_interval = 50  

train(iterations, batch_size, sample_interval)
generator.save('DC_generator.keras')
discriminator.save('DC_discriminator.keras')
gan.save('dcgan_model.keras')

モジュールの準備

必要な素材をまずは準備しましょう！

Python

import matplotlib.pyplot as plt
import numpy as np
from keras.datasets import mnist

from keras.layers import Dense, Flatten, Reshape,LeakyReLU
from keras.models import Sequential
from keras.optimizers import Adam
import os
#上記↑は前回と同じ
from keras.layers import Activation, Dropout,BatchNormalization
from keras.layers import Conv2D, Conv2DTranspose

from keras.layers import Activation, Dropout, BatchNormalization
＃KerasのlayersモジュールからActivation、Dropout、BatchNormalizationクラスをインポートしています。
＃Activationは活性化関数を定義するために使用されます。ニューラルネットワークの各層で活性化関数が適用され、モデルの非線形性を導入します。
＃Dropoutは、過学習を防ぐためにランダムにノードを無効にすることによって、ネットワークの一部を無効にします。これにより、モデルが特定のパターンに過度に適合するのを防ぎます。
＃BatchNormalizationは、トレーニングプロセス中に層の出力を標準化することによって、学習を安定化させ、収束を早めます。各バッチごとに平均と分散を計算することで、モデルが訓練データに過剰に適合する（過学習）リスクを軽減します。

from keras.layers import Conv2D, Conv2DTranspose
＃KerasのlayersモジュールからConv2DとConv2DTransposeクラスをインポートしています。
＃Conv2Dは、2次元の畳み込み層を表します。畳み込み演算は、画像や音声などのデータで局所的なパターンを検出するのに使用されます。
＃Conv2DTransposeは、転置畳み込みと呼ばれる操作を行います。これは、畳み込み演算の逆操作であり、入力の次元を増やすために使用されます。一般的には、画像のアップサンプリングやセグメンテーションなどのタスクで使用されます。

【AI/座学】GANパラメーター調整のコツ・極意書

生成画像の型を定義

出力される画像の型を定義しておきましょう！

Python

width=28
height=28
channels=1
shape=(width,height,channels)
noise_dim=100

前回と同じのため解説は割愛します。

生成器（ジェネレーター）モデルを定義

ここで、畳み込み技術を用いてよりリアルな画像を生成できる仕組みを作っていきましょう！

Python

def generator_model(noise_dim):
    model = Sequential()
    model.add(Dense(256 * 7 * 7, input_dim=noise_dim))
    model.add(Reshape((7, 7, 256)))
    model.add(Conv2DTranspose(128, kernel_size=3, strides=2, padding='same'))
    model.add(BatchNormalization())

    model.add(LeakyReLU(alpha=0.01))

    model.add(Conv2DTranspose(64, kernel_size=3, strides=1, padding='same'))
    model.add(BatchNormalization())
    model.add(LeakyReLU(alpha=0.01))
    model.add(Conv2DTranspose(1, kernel_size=3, strides=2, padding='same'))
    model.add(Activation('tanh'))
    return model

def generator_model(noise_dim):
＃generator_modelという関数を定義しています。この関数は、ノイズの次元数（noise_dim）を引数として受け取ります。

model = Sequential()
＃Sequentialモデルを作成します。Sequentialモデルは、層を積み重ねてシーケンシャルにネットワークを構築するためのKerasの一般的な方法です。

model.add(Dense(256*7*7, input_dim=noise_dim))
＃全結合層（Dense層）を追加します。入力次元はnoise_dimで指定されたノイズの次元数です。出力次元は256 * 7 * 7であり、これは後続の畳み込み層に適した形状です。

model.add(Reshape((7, 7, 256)))
＃Reshape層を追加して、出力を3次元テンソルに変形します。ここでは、出力を (7, 7, 256) の形状に変形しています。

model.add(Conv2DTranspose(128, kernel_size=3, strides=2, padding='same'))
＃転置畳み込み層（Conv2DTranspose層）を追加します。これにより、特徴マップのサイズが拡大されます。128個のフィルターを使用し、カーネルサイズは3×3です。また、ストライドは2で、パディングは’same’です。

model.add(BatchNormalization())
＃BatchNormalization層を追加して、ネットワークの安定化と学習の収束を改善します。

model.add(LeakyReLU(alpha=0.01))
＃LeakyReLU活性化関数を追加します。これは、通常のReLU関数に比べて負の領域でわずかに傾いた特性を持ち、勾配消失問題を緩和します。

model.add(Conv2DTranspose(64, kernel_size=3, strides=1, padding=’same’))
#64
: 出力フィルター数。つまり、このレイヤーが出力する特徴マップの数です。

＃kernel_size=3
: カーネル（フィルター）のサイズ。この場合、3×3のカーネルが使用されます。

strides=1
: ストライドのサイズ。畳み込み操作を適用する際の移動量を指定します。この場合、ストライドは1となります。

padding=’same’
: パディングの種類を指定します。’same’を指定することで、入力と同じサイズの出力が得られるように入力にパディングが追加されます。

model.add(BatchNormalization())
model.add(LeakyReLU(alpha=0.01))
#上記で解説済み

model.add(Conv2DTranspose(1, kernel_size=3, strides=2, padding='same'))
＃最後の転置畳み込み層では、1つのチャンネルの画像が生成されます（kernel_size、strides、paddingによってサイズが調整されます）。

model.add(Activation('tanh'))
＃tanh活性化関数が適用されます。これにより、出力が[-1, 1]の範囲にスケーリングされます。これは、一般的に画像のピクセル値がこの範囲に収まるようにするためです。

return model
#完成した生成器モデルを返します。

識別器(ディスクリミネーター)モデルを定義

識別器も作っていきましょう。また、識別器は生成器よりも強くなりやすいので、Dropoutを追加したり、正規化は行わず性能を上げ過ぎないようにします。

Python

def discriminator_model(shape):
    model = Sequential()
    model.add(Conv2D(32, kernel_size=3, strides=2, input_shape=shape, padding='same'))
    model.add(LeakyReLU(alpha=0.01))
    model.add(Dropout(0.25))
    model.add(Conv2D(64, kernel_size=3, strides=2, padding='same'))
    model.add(LeakyReLU(alpha=0.01))
    model.add(Conv2D(128, kernel_size=3, strides=2, padding='same'))
    model.add(LeakyReLU(alpha=0.01))
    model.add(Flatten())
    model.add(Dense(1, activation='sigmoid'))
    return model

def discriminator_model(shape):
＃discriminator_modelという関数を定義しています。この関数は、入力画像の形状（shape）を引数として受け取ります。

model = Sequential()
＃Sequentialモデルを作成します。

model.add(Conv2D(32, kernel_size=3, strides=2, input_shape=shape, padding='same'))
＃畳み込み層（Conv2D層）を追加します。32個のフィルターを使用し、カーネルサイズは3×3です。ストライドは2で、パディングは’same’です。input_shapeは、入力画像の形状を指定します。

model.add(LeakyReLU(alpha=0.01))
＃LeakyReLU活性化関数を追加します。これは、通常のReLU関数に比べて負の領域でわずかに傾いた特性を持ち、勾配消失問題を緩和します。

model.add(Dropout(0.25))
# Dropoutを追加することで、過学習を抑制できる。

model.add(Conv2D(64, kernel_size=3, strides=2, padding=’same’))
＃上記で解説済み
model.add(LeakyReLU(alpha=0.01))
＃上記で解説済み
model.add(Conv2D(128, kernel_size=3, strides=2, padding=’same’))
＃上記で解説済み
model.add(LeakyReLU(alpha=0.01))
＃上記で解説済み

model.add(Flatten())
＃Flatten層を追加して、畳み込み層からの出力をフラットなベクトルに変換します。これにより、全結合層に接続することができます。

model.add(Dense(1, activation='sigmoid'))
＃全結合層（Dense層）を追加します。1つのノードがあり、出力の活性化関数としてシグモイド関数が使用されています。これにより、識別器は入力画像が本物である確率を出力します（0から1の間の値）。

DCGANモデルの定義とコンパイル

生成器と識別器を結合してDCGANモデルを作成しましょう！

Python

def gan_model(generator,discriminator):
    model=Sequential()
    model.add(generator)
    model.add(discriminator)
    return model

これは、前回と全く一緒です。

モデルのコンパイル

GANモデルはパラメーターに敏感に反応するので、慎重にパラメーターを設定していきましょう！

Python

discriminator = discriminator_model(shape)#前回と同じ
discriminator.compile(loss='binary_crossentropy',
                      optimizer=Adam(lr=0.0001, beta_1=0.5),
                      metrics=['accuracy'])#追加コード

generator = generator_model(noise_dim)#前回と同じ
generator.compile(loss='binary_crossentropy', optimizer=Adam(lr=0.0003, beta_1=0.5))#追加コード

discriminator.trainable = False#前回と同じ

gan = gan_model(generator, discriminator)#前回と同じ
gan.compile(loss='binary_crossentropy', optimizer=Adam(lr=0.0003, beta_1=0.5))#追加コード

こちらも、大枠では前回とほぼ同じです。しかし、今回は細かな設定を変えたり、追加したりしています。前回と同じコードは基本、解説は割愛します。

discriminator = discriminator_model(shape)
#前回と同じ

discriminator.compile(loss=’binary_crossentropy’,optimizer=Adam(lr=0.0001, beta_1=0.5),metrics=[‘accuracy’])
#Adam()の学習率を0.0001にしている。ちなみにデフォルト値は0.001です。
#beta_1はDCGANでは0.5が一般的な選択肢
＃それ以外は前回と共通

generator = generator_model(noise_dim)
#前回と同じ

generator.compile(loss=’binary_crossentropy’, optimizer=Adam(lr=0.0003, beta_1=0.5))
＃Adam()での生成器の学習率は識別器よりも大きくするのが一般的。生成器の方が最初は不利なので、その分プラスさせている。

discriminator.trainable = False
#前回と同じ
＃trainable属性を使用して、特定のモデルまたはレイヤーのトレーニング可能なパラメータを無効にする操作です。識別器のすべてのトレーニング可能なパラメータ（重み）を「フリーズ」することを意味します。つまり、この行以降で行われる識別器へのバックプロパゲーションによる更新は、識別器の重みには反映されません。この操作により、生成器のみが更新され、識別器の重みは固定された状態でトレーニングが行われます。

gan = gan_model(generator, discriminator)
#前回と同じ

gan.compile(loss=’binary_crossentropy’, optimizer=Adam(lr=0.0003, beta_1=0.5))
#Adam()での生成器の学習率は識別器よりも大きくするのが一般的。識別器の方が強すぎると、ほとんどが偽とはじかれてどれを修正したらいいか分からなくなる。→学習が進まなくなる

リンク

モデルの訓練

ここも、前回と全く同じでも動作します。しかし、今回は少しだけ遊び心で変えてみました。

Python

losses = []
accuracies = []
iteration_checkpoints = []

def train(iterations, batch_size, sample_interval):
    (X_train, _), (_, _) = mnist.load_data()
    X_train = X_train / 127.5 - 1.0
    X_train = np.expand_dims(X_train, axis=3)
    real_label = np.ones((batch_size, 1))
    fake_label = np.zeros((batch_size, 1))

    for iteration in range(iterations):
        idx = np.random.randint(0, X_train.shape[0], batch_size)
        batch_images = X_train[idx]
        z = np.random.normal(0, 1, (batch_size, noise_dim))
        gene_imgs = generator.predict(z)

        d_loss_real = discriminator.train_on_batch(batch_images, real_label)
        d_loss_fake = discriminator.train_on_batch(gene_imgs, fake_label)
        d_loss, accuracy = 0.5 * np.add(d_loss_real, d_loss_fake)

        z = np.random.normal(0, 1, (batch_size, noise_dim))#前回と違って今回はこれを追加する
        #前回はここにdiscriminator.trainable = Falseを入れたが今回は削除

        g_loss = gan.train_on_batch(z, real_label)
        #前回はここにdiscriminator.trainable = True を入れたが今回は削除

        if (iteration + 1) % sample_interval == 0:
            losses.append((d_loss, g_loss))
            accuracies.append(100.0 * accuracy)
            iteration_checkpoints.append(iteration + 1)

            print("%d [D loss: %f, acc.: %.2f%%] [G loss: %f]" % (iteration + 1, d_loss, 100.0 * accuracy, g_loss))
            save_images(generator, iteration + 1)

discriminator.trainable = Falseとdiscriminator.trainable = Trueはあってもなくても結果が変わらないことに気づいたので、今回は削除して訓練をすることにした。

z = np.random.normal(0, 1, (batch_size, noise_dim))
＃このコードは２回使われている(15行と22行）。１回目は偽の画像を生成するためにつかわれ、２回目はGeneratorを訓練するために使われます。
＃同じノイズを使い回すと、Generatorが学習するデータの多様性が制限されます。つまり、同じノイズから生成された画像は似通ってしまい、多様な画像を生成する能力が制限される可能性があります。→モード崩壊につながる

要するに、今回やったことはdiscriminator.trainable = Falseとdiscriminator.trainable = Trueを削除した代わりに、z = np.random.normal(0, 1, (batch_size, noise_dim))で補ったということです。

紛らわしくしてすみません！でも、どうしても試してみたくなってしまいました。

生成画像の保存

画像を保存して目視できるようにしましょう！

Python

def save_images(generator, iteration, directory='dcgan_directory', image_grid_rows=4, image_grid_columns=4):
    if not os.path.exists(directory):
        os.makedirs(directory)

    z = np.random.normal(0, 1, (image_grid_rows * image_grid_columns, noise_dim))
    gene_imgs = generator.predict(z)
    gene_imgs = 0.5 * gene_imgs + 0.5
    fig, axs = plt.subplots(image_grid_rows, image_grid_columns, figsize=(4, 4), sharey=True, sharex=True)
    cnt = 0
    for row in range(image_grid_rows):
        for col in range(image_grid_columns):
            axs[row, col].imshow(gene_imgs[cnt, :, :, 0], cmap='gray')
            axs[row, col].axis('off')
            cnt += 1

    fig.savefig(f"{directory}/iteration_{iteration}.png")
    plt.close(fig)

保存されるデフォルトディレクトリの名前をdcganにしました。それ以外は前回と同じです。

モデルの実行

バッチサイズを変えると、学習に影響が出ます。それ以外のパラメーターはお好みでどうぞ！

Python

iterations=20000
batch_size=128
sample_interval=1000
train(iterations,batch_size,sample_interval)

sample_interval=1000
＃画像や評価が出力される間隔です。
＃この数を変化させても、学習には影響はありません。適度にみたいのなら、500などの小さい数字にしてもいいかもです。

モデルの保存とロード方法

今回学習したモデルを再利用するために、保存しておきましょう！

Python

#モデルの保存
generator.save('DCGAN_generator.keras')
discriminator.save('DCGAN_discriminator.keras')
gan.save('DCGAN_model.keras')

Python

#モデルのロード方法
from keras.models import load_model

# 保存されたモデルをロード
loaded_model = load_model('DCGAN_generator.keras')

上書きを防ぐために前回とファイル名を変えました。
それ以外はすべて同じ流れです。

ファイルの実行

では、実行していきましょう。実行方法は人それぞれですが、私の場合はCMDでファイル名を入力することで実行しています。

ファイル名.py

これで、いい感じの出力がされたら完了です！

p.s.　1000イテレーションで8分です。つまり20000イテレーションは160分くらいかかります。(=2.6時間)

出力例

50 [D loss: 0.000624, acc.: 100.00%] [G loss: 0.007994]
100 [D loss: 0.694652, acc.: 54.69%] [G loss: 1.168186]
150 [D loss: 0.732862, acc.: 40.23%] [G loss: 0.726937]
200 [D loss: 0.756426, acc.: 33.20%] [G loss: 0.835835]
300 [D loss: 0.711406, acc.: 36.33%] [G loss: 0.747646]
350 [D loss: 0.703592, acc.: 44.53%] [G loss: 0.748230]
400 [D loss: 0.679182, acc.: 60.55%] [G loss: 0.719221]
500 [D loss: 0.684259, acc.: 54.30%] [G loss: 0.721480]
600 [D loss: 0.685240, acc.: 57.42%] [G loss: 0.719235]
700 [D loss: 0.695925, acc.: 49.61%] [G loss: 0.702438]
800 [D loss: 0.696105, acc.: 50.00%] [G loss: 0.697281]
900 [D loss: 0.688253, acc.: 56.25%] [G loss: 0.704283]
1000 [D loss: 0.687551, acc.: 56.25%] [G loss: 0.706025]
1350 [D loss: 0.697760, acc.: 48.44%] [G loss: 0.717108]
1400 [D loss: 0.686100, acc.: 53.91%] [G loss: 0.708159]
2000 [D loss: 0.659652, acc.: 60.16%] [G loss: 0.790444]
3000 [D loss: 0.645585, acc.: 62.50%] [G loss: 0.880491]
4000 [D loss: 0.553337, acc.: 74.22%] [G loss: 1.089478]
～
14000 [D loss: 0.467627, acc.: 78.12%] [G loss: 1.328423]
15000 [D loss: 0.543287, acc.: 69.92%] [G loss: 1.445801]
19000 [D loss: 0.486697, acc.: 75.00%] [G loss: 1.706172]
20000 [D loss: 0.515853, acc.: 72.27%] [G loss: 1.522569]

Python機械学習プログラミング PyTorch＆scikit-learn編【電子書籍】[ Sebastian Raschka ]
価格：4,620円 (2024/3/4時点)

おわりに

お疲れさまでした。時間があったら、自分でパラメータをいじってみて動向の変化を確かめてみるのも勉強になったりします。

次回は、カラー画像の生成をGANでやっていきます。
p.s.CPU性能の限界があるので、大した画像は生成できません🙇

【AI/座学】GANパラメーター調整のコツ・極意書

【AI/実践編】生成AI-GANを実装【衝撃簡単④】

管理人 — Tue, 27 Feb 2024 05:43:45 +0000

対象読者
おわりに

対象読者

今日はGAN(敵対生成ネットワーク)を実装していきます。

やることは、GAN（敵対生成ネットワーク）モデルを使って、MNISTデータに似た画像（偽物）を生成していきます。ノイズからMNISTっぽい画像を生成できるのはなかなか感動ものですよ！（笑）

p.s.学習には約40分くらいかかります。（1000イテレーションに約２分かかる）

【AI/座学編】GAN-敵対生成ネットワーク

ここではGAN(敵対生成ネットワーク)について解説していきます。また、解説は複雑な概念理解には重きを置かず、【すぐに実践できるレベル】の知識のみを提供しています。座学で時間を浪費しないように必要最低限の重要な知識のみに絞って提供しています。これを読み終えたらすぐにＧＡＮを使った実装に移ってワクワクするような体験を積んでいきましょう。【実践編あり】

実践の前にササっと見てみてください

【AI/実践編】MNISTでAIを体験【衝撃簡単①】

AIの深い原理が分からなくても作れます！MNISTを使ったとっても簡単な実装をやっていきます。AIの概要は学んだけど何から作ればいいんだろう。という悩みをお持ちのあなたにピッタリのタスクです。また、始めたばかりで100％の理解を求める必要はありません。50%理解できたらいいや程度の軽い気持ちで学習を進めましょう。その方が挫折することなく長期間続けられ、結果的にいつか50%の理解が90%以上の理解になる時がきます。

AIの基本はこちらからどうぞ

今回の流れ

では、まずはプログラムの流れ・全体像を把握しておきましょう。

データの準備: まず、MNISTデータセットなどの画像データを準備します。各画像は28×28ピクセルのグレースケール画像です。
モデルの定義:
- 生成器（Generator）モデル: ランダムノイズから画像を生成します。generator_model() 関数で定義されます。
- 識別器（Discriminator）モデル: 画像が本物か偽物かを判定します。discriminator_model() 関数で定義されます。
- GANモデル: 生成器と識別器を結合し、生成器がより良い偽の画像を生成できるようにトレーニングします。gan_model() 関数で定義されます。
モデルのコンパイル:
- 識別器: 二値分類の問題なので、binary_crossentropy 損失関数を使用してコンパイルします。また、Adamオプティマイザを使用します。
- GAN: 生成器をトレーニングするので、生成器が生成した画像が本物に見えるように識別器を騙すようにします。生成器のみをトレーニングするため、識別器の重みは固定されます。
トレーニング: トレーニングループを実行してGANをトレーニングします。
- 本物の画像を識別器に渡してラベル1でトレーニングします。
- 生成器にノイズを入力し、偽の画像を生成します。この偽の画像にはラベル0が付けられます。
- 生成器が生成した偽の画像とラベル0を識別器に渡してトレーニングします。
- これらのステップを繰り返し、GANをトレーニングします。
画像の保存: 一定の間隔で生成器によって生成された画像を保存します。これにより、トレーニング中の生成器の進行状況を視覚的に確認できます。
モデルの保存: トレーニングが完了したら、生成器、識別器、およびGANモデルを保存します。これにより、将来の使用や再トレーニングが容易になります。

この手順に従うことで、GANモデルをトレーニングして新しい画像を生成することができます。

p.s.見ての通り長いので、一気にやろうとせず休憩しながら、ゆっくりやっていきましょう！

今回の全コード

では、ここに今日使ったコードを全部張っておきます。説明が前後することがあるので、不安に感じたらこちらで確認してください。

Python

import matplotlib.pyplot as plt
import numpy as np
import os
from keras.datasets import mnist
from keras.layers import Dense, Flatten, Reshape, LeakyReLU
from keras.models import Sequential
from keras.optimizers import Adam

width = 28
height = 28
channels = 1
shape = (width, height, channels)
noise_dim = 100

def generator_model(shape, noise_dim):
    model = Sequential()
    model.add(Dense(128, input_dim=noise_dim))
    model.add(LeakyReLU(alpha=0.01))
    model.add(Dense(28 * 28 * 1, activation='tanh'))
    model.add(Reshape(shape))
    return model

def discriminator_model(shape):
    model = Sequential()
    model.add(Flatten(input_shape=shape))
    model.add(Dense(128))
    model.add(LeakyReLU(alpha=0.01))
    model.add(Dense(1, activation='sigmoid'))
    return model

def gan_model(generator, discriminator):
    model = Sequential()
    model.add(generator)
    model.add(discriminator)
    return model

discriminator = discriminator_model(shape)
discriminator.compile(loss='binary_crossentropy', optimizer=Adam(), metrics=['accuracy'])
generator = generator_model(shape, noise_dim)
discriminator.trainable = False
gan = gan_model(generator, discriminator)
gan.compile(loss='binary_crossentropy', optimizer=Adam())

losses = []
accuracies = []
iteration_checkpoints = []

def train(iterations, batch_size, sample_interval):
    #前処理
    (X_train, _), (_, _) = mnist.load_data()
    X_train = X_train / 127.5 - 1.0
    X_train = np.expand_dims(X_train, axis=3)
    real_label = np.ones((batch_size, 1))
    fake_label = np.zeros((batch_size, 1))

    #訓練
    for iteration in range(iterations):
        idx = np.random.randint(0, X_train.shape[0], batch_size)
        batch_images = X_train[idx]
        z = np.random.normal(0, 1, (batch_size, noise_dim))
        gene_imgs = generator.predict(z)
        d_loss_real = discriminator.train_on_batch(batch_images, real_label)
        d_loss_fake = discriminator.train_on_batch(gene_imgs, fake_label)
        d_loss, accuracy = 0.5 * np.add(d_loss_real, d_loss_fake)
        discriminator.trainable = False
        g_loss = gan.train_on_batch(z, real_label)
        discriminator.trainable = True

        #データ確認
        if (iteration + 1) % sample_interval == 0:
            losses.append((d_loss, g_loss))
            accuracies.append(100.0 * accuracy)
            iteration_checkpoints.append(iteration + 1)

            print("%d [D loss: %f, acc.: %.2f%%] [G loss: %f]" % (iteration + 1, d_loss, 100.0 * accuracy, g_loss))
            save_images(generator, iteration + 1)

def save_images(generator, iteration, directory='gan_directory', image_grid_rows=4, image_grid_columns=4):
    if not os.path.exists(directory):
        os.makedirs(directory)

    z = np.random.normal(0, 1, (image_grid_rows * image_grid_columns, noise_dim))
    gene_imgs = generator.predict(z)
    gene_imgs = 0.5 * gene_imgs + 0.5
    fig, axs = plt.subplots(image_grid_rows, image_grid_columns, figsize=(4, 4), sharey=True, sharex=True)
    cnt = 0
    for row in range(image_grid_rows):
        for col in range(image_grid_columns):
            axs[row, col].imshow(gene_imgs[cnt, :, :, 0], cmap='gray')
            axs[row, col].axis('off')
            cnt += 1

    fig.savefig(f"{directory}/iteration_{iteration}.png")
    plt.close(fig)

iterations = 40000
batch_size = 128
sample_interval = 500
train(iterations, batch_size, sample_interval)

generator.save('generator.keras')
discriminator.save('discriminator.keras')
gan.save('gan_model.keras')

モジュールの準備

必要なモジュールをインポートします。もし、エラーが出たら『pip install ○○』インストールしてください。

Python

import matplotlib.pyplot as plt
import numpy as np
from keras.datasets import mnist
from keras.layers import Dense, Flatten, Reshape
from keras.layers import LeakyReLU
from keras.models import Sequential
from keras.optimizers import Adam
import os

import matplotlib.pyplot as plt
＃Matplotlib ライブラリをインポートし、plt という別名で使用できるようにしています。Matplotlib は Python のデータ可視化ライブラリで、グラフや図を描画する際によく使用されます。

import numpy as np
＃NumPy ライブラリをインポートし、np という別名で使用できるようにしています。NumPy は Python の数値計算ライブラリであり、多次元配列や行列演算などの高度な数値計算をサポートしています。

from keras.datasets import mnist
＃Keras ライブラリの中から、MNIST データセットをダウンロードするための mnist モジュールをインポートしています。MNIST データセットは手書き数字画像データセットであり、機械学習のベンチマークとして広く使用されています。

from keras.layers import Dense, Flatten, Reshape
Keras ライブラリの中から、ニューラルネットワークの層を定義するための Dense、データの平坦化を行う Flatten、データの形状を変更する Reshape 層をインポートしています。

from keras.layers import LeakyReLU
#LeakyReLU は、ニューラルネットワークの中間層や出力層に適用される非線形の活性化関数の一つです。LeakyReLU は、特に深層ニューラルネットワークや生成モデルなどの多くの場面で使用されます。

from keras.models import Sequential
＃Keras ライブラリの中から、Sequential モデルを定義するための Sequential クラスをインポートしています。Sequential モデルは、層を直線的に積み重ねて構築されるシンプルなモデルです。

from keras.optimizers import Adam
＃Keras ライブラリの中から、Adam 最適化アルゴリズムを定義するための Adam クラスをインポートしています。Adam は勾配降下法の一種であり、ニューラルネットワークの学習時に使用される最適化アルゴリズムの一つです。

import os
#ファイルシステムの操作を行うためのモジュールをインポートしています。

物体検出とGAN、オートエンコーダー、画像処理入門　PyTorch/TensorFlow2による発展的・実装ディープラーニング [ チーム・カルポ ]
価格：3,520円（税込、送料無料) (2024/3/4時点)

生成画像を定義

ここでは、生成する画像の形状を定義します。今回はMNISTデータをもとに画像を生成するため、生成画像の形状をMNISTに合わせます。

Python

width = 28
height = 28
channels = 1
shape = (width, height, channels)
noise_dim = 100

width=28, height=28, channels=1
＃これらの変数は、生成される画像の形状を定義します。MNIST データセットの画像サイズは 28×28 ピクセルで、チャンネル数は 1 です。チャンネルのグレースケールは１、RGB画像は3です。

shape=(width,height,channels)
＃shape は生成される画像の形状を表すタプルです。

noise_dim=100
＃生成器の入力となる潜在空間の次元数を定義します。生成器のの入力はランダムなノイズから構成されるベクトルであり、その次元数を定義します。MNISTのような単純なデータセットでは、一般的には100次元のランダムノイズベクトルでも十分な情報を持つことができます。

p.s.ちなみにdimはdimention（次元）の略です。

生成器（ジェネレータ―）モデルを定義

ここでは、画像を生成する機能を持つ関数を定義していきます。具体的には、ランダムな潜在空間のベクトルを入力として受け取り、それを MNIST のような手書き数字の画像に変換する役割をもつ関数を作っていきます。また、AIにおいてこのような関数を生成器、またはジェネレータと呼びます。

Python

def generator_model(shape, noise_dim):
    model = Sequential()
    model.add(Dense(128, input_dim=noise_dim))
    model.add(LeakyReLU(alpha=0.01))
    model.add(Dense(28 * 28 * 1, activation='tanh'))
    model.add(Reshape(shape))
    return model

def generator_model(shape, noise_dim):
#この関数は、Generator モデルを構築するために使用されます。引数として shape（生成される画像の形状）と noise_dim（潜在空間の次元数）を受け取ります。

model=Sequential()
#Sequential クラスのインスタンスを作成し、model 変数に代入しています。これにより、新しいSequentialモデルが作成されます。このモデルは、層を順番に追加していくことで構築されます。

model.add(Dense(128,input_dim=noise_dim))
#最初の層として、全結合層（Dense）を追加します。この層は、入力として潜在空間のベクトルを受け取り、128 個のニューロンを持ちます。
＃ニューロンは多いほど、より複雑な関数を学習することができますが、計算コストも高くなります。そのため一般的な選択肢である128を選択しました。

model.add(LeakyReLU(alpha=0.01))
#LeakyReLU 活性化関数を追加します。LeakyReLU は、負の入力に対して微小な勾配を持ち、勾配消失問題を緩和する役割があります。
＃alpha=0.01は、Leaky ReLU（Rectified Linear Unit）関数の負の領域における勾配の傾きを制御するパラメータです。通常のReLU関数では、負の入力に対して勾配が0になりますが、Leaky ReLUでは負の入力に対して小さな勾配を持ちます。これにより、勾配が0になることを防ぎ、勾配消失問題を緩和します。
＃勾配の傾きを0.01に設定することは一般的な選択肢の一つであり、負の領域での勾配がゼロになることを防ぎつつ、その影響を抑えるために小さな値が選ばれます。

model.add(Dense(28*28*1,activation='tanh'))
#全結合層を追加します。Dense層は入力には１次元しか受け取れませんが、出力は何次元でもＯＫ。
＃28*28*1はMNISTデータセットの画像のサイズ（28×28ピクセル）に合わせた出力層のニューロン数を表しています。
＃ tanh 関数は出力値を [-1, 1] の範囲にスケーリングします。GANではsigmoid(0~1)よりもtanhを使うことが一般的です。

model.add(Reshape(shape))
＃Reshape 層を追加して、直前の全結合層の出力を指定された画像形状に変形します。これにより、画像の形状に合わせたデータ構造が得られます。

return model
#構築した Generator モデルを返します。

実践GAN 敵対的生成ネットワークによる深層学習（Compass Booksシリーズ） [ Jakub Langr ]
価格：4,048円（税込、送料無料) (2024/3/4時点)

識別器（ディスクリミネーター）モデルを定義

識別器というものを定義していきます。識別器とは、生成器が生成した偽の画像と本物の画像を区別する役割を持ちます。

Python

def discriminator_model(shape):
    model = Sequential()
    model.add(Flatten(input_shape=shape))
    model.add(Dense(128))
    model.add(LeakyReLU(alpha=0.01))
    model.add(Dense(1, activation='sigmoid'))
    return model

def discriminator_model(shape)：
＃この関数は、識別器モデルを構築するために使用されます。引数として shape（画像の形状）を受け取ります。

model=Sequential()
＃Sequential モデルを初期化します。モデル構築の開始合図だと思ってください。

model.add(Flatten(input_shape=shape))
＃入力画像の形状を平滑化する Flatten 層を追加します。画像データは、2次元のグリッド（幅x高さ）なのでDesnse層に通すには１次元に直す必要がある。

model.add(Dense(128))
＃全結合層を追加します。この層は、128 個のニューロンを持ちます。

model.add(LeakyReLU(alpha=0.01))
＃生成器で説明済み

model.add(Dense(1,activation='sigmoid'))
＃sigmoid関数は出力を0から1の範囲にマッピングするため、識別器の出力を確率として解釈することができます。出力が0に近いほど偽物である確率が高く、1に近いほど本物である確率が高いと解釈できます。
＃与えられた画像が本物か偽物かを判断することです。これが、生成器ではtanhを使い識別器ではsigmoidを使う理由です。生成器では出力を画像のピクセル値として解釈するためにtanh関数が使用されます。tanh関数は、出力を-1から1の範囲にマッピングするため、生成される画像のピクセル値を適切な範囲に収めるのに適しています。

return model
＃構築した Discriminator モデルを返します。

GANモデルの定義

生成器（generator）と識別器（discriminator）を組み合わせて、GAN（Generative Adversarial Network）モデルを構築するための関数を作っていきましょう。

Python

def gan_model(generator, discriminator):
    model = Sequential()
    model.add(generator)
    model.add(discriminator)
    return model

def gan_model(generator, discriminator)：
＃この関数は、生成器と識別器を組み合わせて GAN モデルを構築するために使用されます。引数として後に登場するgenerator=generator_model(shape,noise_dim)とdiscriminator=discriminator_model(shape)の値が入ります。

model = Sequential()
＃Sequential モデルを初期化します。

model.add(generator)
＃Generator モデルを追加します。Generator は偽の画像を生成する役割を持ちます。

model.add(discriminator)
＃Discriminator モデルを追加します。Discriminator は生成された偽の画像と本物の画像を区別する役割を持ちます。

return model
＃構築した GAN モデルを返します。このモデルは、Generator と Discriminator を組み合わせています。

モデルのコンパイル

では、モデルをコンパイルしていきましょう。コンパイルとはモデルの損失関数、最適化アルゴリズム、評価指標などを設定する作業のことです。

Python

discriminator = discriminator_model(shape)
discriminator.compile(loss='binary_crossentropy', optimizer=Adam(), metrics=['accuracy'])
generator = generator_model(shape, noise_dim)
discriminator.trainable = False
gan = gan_model(generator, discriminator)
gan.compile(loss='binary_crossentropy', optimizer=Adam())

discriminator = discriminator_model(shape)
＃Discriminator モデルを構築します。discriminator_model 関数は、画像の形状 shape を引数として受け取り、それに基づいて Discriminator モデルを構築します。

discriminator.compile(loss='binary_corssentropy', optimizer=Adam(), metrics=['accuracy'])
＃Discriminator モデルをコンパイルします。ここで、損失関数として binary_crossentropy を指定し、最適化アルゴリズムとして Adam を使用します。また、精度（accuracy）を評価指標として指定します。
＃binary_crossentropyは2つのクラス（本物または偽物）の確率分布間の距離を測定するための損失関数です。GANでは一般的な選択肢です。
＃Adamは高速な収束を実現するため、GANのような大規模かつ複雑なモデルのトレーニングに適しています。逆に小さなデータセットでは過剰適合のリスクが高くなってしまう。MNISTは60000枚の画像なので、Adamが適していると言える。
＃accuracyは二値分類のモデルの性能を簡潔に評価するための良い指標です。識別器は、本物のサンプルと生成されたサンプルの2つのクラスを分類するタスクを行うため適していると言えます。

【AI/座学編】AIの損失関数３選！

機械学習の初心者向けに解説。カテゴリカルクロスエントロピー＆バイナリクロスエントロピー＆平均二乗誤差について解説します。この次は、知識を使って、誰でもできる、実践編（プログラミング）を一緒にやっていきましょう！

generator = generator_model(shape, noise_dim)
＃Generator モデルを構築します。generator_model 関数は、画像の形状 shape と潜在空間の次元数 noise_dim を引数として受け取り、それに基づいて Generator モデルを構築します。

discriminator.trainable = False
＃trainable属性を使用して、特定のモデルまたはレイヤーのトレーニング可能なパラメータを無効にする操作です。識別器のすべてのトレーニング可能なパラメータ（重み）を「フリーズ」することを意味します。つまり、この行以降で行われる識別器へのバックプロパゲーションによる更新は、識別器の重みには反映されません。この操作により、生成器のみが更新され、識別器の重みは固定された状態でトレーニングが行われます。

gan = gan_model(generator, discriminator)
＃Generator と Discriminator を組み合わせて GAN モデルを構築します。gan_model 関数は、Generator モデルと Discriminator モデルを引数として受け取り、それらを組み合わせて GAN モデルを構築します。

gan.compile(loss='binary_crossentropy', optimizer=Adam())
＃GAN モデルをコンパイルします。損失関数として binary_crossentropy を指定し、最適化アルゴリズムとして Adam を使用します。

p.s.識別機はコンパイルするのに、生成器はコンパイルしない理由は、GANの学習プロセスにおいて、生成器の更新はGANモデル全体で行われるためです。

モデルの訓練

指定した反復回数だけ生成器と識別器を訓練し、一定の間隔でサンプル画像を生成して訓練の進行状況を表示していく準備をしましょう。

Python

losses=[]
accuracies=[]
iteration_checkpoints=[]

def train(iterations, batch_size,sample_interval):
    (X_train,_),(_,_)=mnist.load_data()

    X_train=X_train/127.5-1.0
    X_train=np.expand_dims(X_train,axis=3)

    real_label=np.ones((batch_size,1))

    fake_label=np.zeros((batch_size,1))
    for iteration in range(iterations):
        idx=np.random.randint(0,X_train.shape[0],batch_size)
        batch_images=X_train[idx]

        z=np.random.normal(0,1,(batch_size,noise_dim))
        gene_imgs=generator.predict(z)

        d_loss_real=discriminator.train_on_batch(batch_images,real_label)
        d_loss_fake=discriminator.train_on_batch(gene_imgs,fake_label)
        d_loss,accuracy=0.5*np.add(d_loss_real,d_loss_fake)

        z=np.random.normal(0,1,(batch_size,100))
        gene_imgs=generator.predict(z)

        g_loss=gan.train_on_batch(z,real_label)

        if(iteration+1)%sample_interval==0:

            losses.append((d_loss,g_loss))
            accuracies.append(100.0*accuracy)
            iteration_checkpoints.append(iteration+1)

            print("%d [D loss; %f, acc.; %.2f%%][G loss: %f]"%
                  (iteration+1,d_loss,100.0*accuracy,g_loss))
            
            save_images(generator, iterations)

losses=[], accuracies=[], iteration_checkpoints=[]
＃損失と精度の履歴を保存するための空のリストを定義します。

train(iterations, batch_size, sample_interval)
＃iterations: 1つのイテレーションは、生成器と識別器の両方が1度ずつトレーニングされるサイクル
＃batch_size: バッチサイズ
＃sample_interval: 何イテレーションごとに損失と精度が記録されるかを示します。この間隔に基づいて、トレーニング中の進行状況が監視され、結果が記録されます。

(X_train,_),(_,_)=mnist.load_data()
＃ mnistデータセットからトレーニング用の画像データをロードします。mnist.load_data()は、トレーニング用とテスト用の画像データを返しますが、ここではトレーニング用のデータのみを利用しています。ロードされたデータはX_trainに格納されます。(_, _)は、ラベルデータは使用しないことを示します。

X_train=X_train/127.5-1.0
＃画像のピクセル値を[-1, 1]の範囲に正規化します。確認してみると、255÷127.5-1.0=1になり0.000001(≒0)÷127.5-1=-0.99999~(≒-1)になりますよね。
＃データセットの平均を0にすることで、モデルの学習を安定化させ、収束を高速化することが期待できます。

np.expand_dims(X_train, axis=3)
＃画像データの次元を変更します。元々の画像データは(num_samples, width, height)の形状をしていますが、これを(num_samples, width, height, channels)の形状に変更します。ここでchannelsは画像のチャンネル数で、グレースケール画像の場合は1です。
＃要するに画像データの次元を画像の情報を保持したまま拡張しています。
＃ニューラルネットワークは画像を入力する際には、チャンネルの情報が必要です。しかし、画像データはチャンネル数を持ちません。そのため、次元を追加します。ニューラルネットワークは入力データの次元数からチャンネル数を判断するので、次元を増やせばチャンネルを表現できるのです。これは、グレースケール画像に限らず、RGB画像でも同じことです。

p.s.　num_samplesは枚数を表しているよ！

例えば、
＃２ｘ２のグレースケール画像
[[[10, 20],
  [30, 40]],

これだとチャンネル数を表現できないので、

[[[[10],
   [20]],

  [[30],
   [40]]],
   
このように次元を増やすことが、ニューラルネットワークのチャンネル数の判断に使われるのです。


＃RGBでも同様で3x3のRGB画像の場合は
[[[255, 0, 0], [0, 255, 0], [0, 0, 255]],
 [[255, 255, 0], [255, 0, 255], [0, 255, 255]],
 [[128, 128, 128], [0, 0, 0], [255, 255, 255]]]
 
 次元数を増やして、ニューラルネットワークにチャンネル数の判断材料を与えてあげる。
 
 [[[[255], [0], [0]], [[0], [255], [0]], [[0], [0], [255]]],
 [[[255], [255], [0]], [[255], [0], [255]], [[0], [255], [255]]],
 [[[128], [128], [128]], [[0], [0], [0]], [[255], [255], [255]]]]

real_label=np.ones((batch_size,1))
#指定されたサイズの要素が全て1の配列を生成しています。具体的には、realはバッチサイズ分の要素を持つ列ベクトルで、各要素が1です。
＃識別器が本物の画像と偽物の画像を区別するために使用されます。ここで生成されたreal_labelは、識別器に対して本物の画像を表すためのラベルとして使用されます。
＃要するに本物の画像に対するラベルを作成しています。本物の画像に対しては1を、偽の画像に対しては0を表すラベルをGANでは用います。

fake_label=np.zeros((batch_size,1))
＃指定されたサイズの要素が全て0の配列を生成しています。具体的には、fake_labelはバッチサイズ分の要素を持つ列ベクトルで、各要素が0です。
＃ここで生成されたfake_labelは、識別器に対して偽の画像を表すラベルとして使用されます。
＃要するに偽の画像に対するラベルを作成しています。本物の画像に対しては1を、偽の画像に対しては0を表すラベルをGANでは用います。

for iteration in range(iterations):
＃指定されたイテレーション数（学習の反復回数）の範囲でループを開始します。これにより、モデルは複数回の学習を行います。

idx=np.random.randint(0,X_train.shape[0],batch_size)
＃ランダムにX_trainからバッチサイズ分のインデックスを選択します。
＃np.random.randint(下限値、上限値、取得数）を表すから、０以上X_trainの枚数未満の中からbatch_sizeの数だけランダムにとりだす。
＃要するにトレーニングデータからランダムにバッチを取得します。

batch_images=X_train[idx]
＃上のコードで、選択されたインデックスを使用して、X_trainから対応する本物の画像のバッチを取得します。

z=np.random.normal(0,1,(batch_size,noise_dim))
＃平均が0で標準偏差が1の正規分布（標準正規分布）からランダムな値を持つノイズベクトルを生成しています。生成されたノイズベクトルの形状は(batch_size, noise_dim)であり、batch_sizeは1つのバッチ内のノイズベクトルの数を表し、noise_dimは1つのノイズベクトルの次元数を表します。
＃標準正規分布は最も一般的で汎用的な確率分布の1つであり、さまざまなデータセットや問題に適用できます。また、パラメータが少なく単純な形をしており、扱いやすいです。そして、ランダムなノイズが標準正規分布に従うことで、生成される画像の多様性が確保されるという特性を持ちます。
＃要するに正規分布からランダムなノイズを生成しています。で、このノイズは生成器に入力され、偽の画像を生成する際に使用されます。

gene_imgs=generator.predict(z)
＃生成器にノイズベクトル z を入力として与え、生成器がその入力を元に偽の画像を生成する操作を行います。

d_loss_real=discriminator.train_on_batch(batch_images,real_label)
#識別器モデルを1バッチ分の実際の画像データ batch_images とそれに対応する正解ラベル real_label でトレーニングする操作を行います。
＃train_on_batchにおける第一引数は入力データのバッチです。Numpy配列またはリストの形式で指定します。第二引数は入力データに対応する目標（正解ラベル）のバッチです。Numpy配列またはリストの形式で指定します。通常、教師あり学習の場合に使用されます。
＃要するに、識別器を使用して、本物の画像のバッチに対する損失と精度を計算しています。train_on_batchメソッドは、入力データ（batch_images）と正解ラベル(real_lbel)を使用して、1つのバッチに対する損失と精度を計算しています。そして、d_loss_realにはこのトレーニングの結果得られる損失が格納されます。

d_loss_fake=discriminator.train_on_batch(gene_imgs,fake_label)
＃上のコードと同様の流れで、識別器を使用して、生成された偽の画像のバッチに対する損失と精度を計算します。そして、d_loss_fakeにはこのトレーニングの結果得られる損失が格納されます。

d_loss, accuracy=0.5*np.add(d_loss_real, d_loss_fake)
＃np.add(d_loss_real, d_loss_fake)は、本物の画像と偽の画像の損失を要素ごとに加算します。つまり、各バッチでの本物の画像と偽の画像に関する損失を合計します。
＃0.5 * np.add(d_loss_real, d_loss_fake)は、合計された損失を0.5倍しています。これは、本物の画像と偽の画像の損失を等しく重み付けするためです。GANのトレーニングでは、識別器の目標は本物の画像と偽の画像を区別することであり、両方のタスクが均等に重要であるため、損失を均等に重み付けすることが一般的です。
#要するに本物の画像と偽の画像の両方に対する損失と精度を組み合わせて、識別器の全体的な損失と精度を計算します。

discriminator.trainable = False
＃生成器の訓練を行うため、識別器の訓練を一時停止します。これにより、生成器が訓練される間、識別器の重みが固定されます。
g_loss = gan.train_on_batch(z, real_label)
＃生成器の訓練を行います。生成器は、生成された偽の画像を本物と見なすように学習します。
discriminator.trainable = True
＃生成器の訓練が終了した後、識別器の訓練を再開します。これにより、識別器のパラメータが更新され、次のイテレーションで使用されます。

if(iteration+1)%sample_interval==0：
＃イテレーション数がsample_intervalの倍数の場合に、以下の処理を実行します。つまり、指定された間隔ごとにこのブロックの中の処理が実行されます。
＃iterationは0から始まるので１を足しています。

losses.append((d_loss,g_loss))
＃識別器と生成器の損失をlossesリストに追加します。これにより、各イテレーションでの損失の推移を記録することができます。
＃このようにして、トレーニング中に損失を記録することで、モデルの収束やトレーニングの安定性を評価したり、後で損失の推移を可視化することができます。

accuracies.append(100.0*accuracy)
＃識別器の精度をaccuraciesリストに追加します。この精度はパーセンテージで表され、識別器が正確に本物と偽物を区別できる割合を示します。

iteration_checkpoints.append(iteration+1)
＃現在のイテレーション数をiteration_checkpointsリストに追加します。これにより、どのイテレーションで何が行われたかを追跡することができます。イテレーション数に1を加えているのは、イテレーション数が０から始まるためです。

print(“%d [D loss; %f, acc.; %.2f%%][G loss: %f]”%( iteration+ 1 ,d _ loss , 100.0* accuracy,g_loss))
＃現在のイテレーション数、識別器の損失と精度、生成器の損失を表示します。これにより、コンソールに学習の進行状況が表示されます。
＃ %d と %fとかは文字列フォーマットです。
・%d : 整数を埋め込むための指定子です。この場合、iteration + 1 の値が整数として挿入されます。
・%f : 浮動小数点数を埋め込むための指定子です。この場合、d_loss、accuracy、g_loss の値が浮動小数点数として挿入されます。
・%.2f のように .2 のような小数点以下の桁数を指定することもできます。これにより、表示される浮動小数点数の桁数が制限できます。

save_images(generator, iterations+1)
＃生成器を使用して、指定されたイテレーションでの生成された画像を保存します。これにより、生成された画像の品質を確認することができます。
＃save_images関数は以下で定義します。

図解即戦力　AIのしくみと活用がこれ1冊でしっかりわかる教科書【電子書籍】[ 高橋海渡 ]
価格：2,200円 (2024/3/4時点)

生成画像の保存

Generator を使用して生成された画像を指定されたサイズのグリッドに保存していきます。デフォルトでは、4×4 のグリッドに画像が配置されます。

Python

def save_images(generator, iteration, directory='gan_images', image_grid_rows=4, image_grid_columns=4):
    if not os.path.exists(directory):
        os.makedirs(directory)

    for i in range(iterations):
        z = np.random.normal(0, 1, (image_grid_rows * image_grid_columns, noise_dim))
        gene_imgs = generator.predict(z)
        gene_imgs = 0.5 * gene_imgs + 0.5
        fig, axs = plt.subplots(image_grid_rows, image_grid_columns, figsize=(4, 4), sharey=True, sharex=True)
        cnt = 0
        for row in range(image_grid_rows):
            for col in range(image_grid_columns):
                axs[row, col].imshow(gene_imgs[cnt, :, :, 0], cmap='gray')
                axs[row, col].axis('off')
                cnt += 1

        plt.savefig(f"{directory}/gan_generated_image_{i}.png")
        plt.close()

def save_images(generator, iteration, directory='gan_images', image_grid_rows=4, image_grid_columns=4):
＃generator は、画像を生成するために使用される Generator モデルです。
＃iterations は、保存される画像の数を決定します。各イテレーションごとに1つの画像が保存されます。
＃directory＝は、画像が保存されるディレクトリのパスを指定します。デフォルトは ‘gan_images’ 。お好きな名前でどうぞ！
＃image_grid_rows は、保存される画像のグリッドの行数を決定します。デフォルトは 4 です。
＃image_grid_columns は、保存される画像のグリッドの列数を決定します。デフォルトは 4 です。

if not os.path.exists(directory):
　os.makedirs(directory)
#指定されたディレクトリが存在しない場合は、デフォルトで設定したディレクトリを作成します。このディレクトリは、生成された画像が保存される場所です。

z = np.random.normal(0, 1, (image_grid_rows * image_grid_columns, noise_dim))
#0：正規分布の平均を指定します。
＃1：正規分布の標準偏差を指定します。
＃正規分布からランダムなノイズを生成します。これは、生成器に入力する際に、画像を生成する際のランダム性を与えます。

gene_imgs = generator.predict(z)
＃生成器にノイズを入力し、画像を生成します。

gene_imgs = 0.5 * gene_imgs + 0.5
＃生成された画像のピクセル値を[-1, 1]から[0, 1]に変換します。これにより、画像が正規化されます。
＃以下で用いるmatplotlib の imshow 関数を使用する場合、ピクセル値が [0, 1] の範囲にあることが前提とされます。

fig, axs = plt.subplots(image_grid_rows, image_grid_columns, figsize=(4, 4), sharey=True, sharex=True)
＃画像を表示するための図（figure）と軸（axes）を作成します。
＃plt.subplots() 関数は、指定された行数と列数のグリッド状の図を作成します。
＃image_grid_rows：グリッドの行数を指定します。これは画像のグリッドの縦のセル数を表します。
＃image_grid_columns：グリッドの列数を指定します。これは画像のグリッドの横のセル数を表します。
＃figsize=(4, 4)：生成される図のサイズを指定します。ここでは、幅と高さがともに 4 インチの正方形に設定されています。
＃sharey=True：すべてのサブプロットが縦軸を共有するように設定します。つまり、すべてのサブプロットが同じ縦軸のスケールを持ちます。複数のサブプロット間でデータを比較したり、パターンを識別したりする場合に便利です。
＃sharex=True：すべてのサブプロットが横軸を共有するように設定します。あとは、shareyと同じ。
＃fig, axs：plt.subplots() 関数は、作成された図とそれに含まれるすべてのサブプロットを返します。このコードでは、fig は図全体を表し、axs はすべてのサブプロットを含む配列です。
＃要するにこの行の結果として、fig には指定されたサイズと行数・列数に基づいてグリッド状に配置されたサブプロットが含まれ、axs にはそれらのサブプロットへの参照が格納されます。これらのサブプロットは、後で画像を描画するために使用されます。

cnt=0
＃表示する画像のカウンターを初期化します。
#この行は、サブプロットのインデックスを追跡するための変数 cnt を初期化しています。通常、画像のグリッドなどの複数のサブプロットを配置する場合、各サブプロットに対してループを行い、それぞれのサブプロットに対して特定の操作を行います。この変数 cnt は、そのようなループ内で各サブプロットのインデックスを追跡するために使用されます。各サブプロットのインデックスを cnt で表現することで、そのインデックスに基づいてサブプロットに対する操作を行うことができます。

for row in range(image_grid_rows):
　for col in range(image_grid_columns):
　axs[row, col].imshow(gene_imgs[cnt, :, :, 0], cmap='gray')
　axs[row, col].axis(‘off’)
　cnt += 1
＃ループを使用して、生成された画像をグリッド状に表示します。imshowメソッドを使用して画像を表示し、axis('off')を使用して軸を非表示にします。
＃row と col のインデックスを使用して、指定された行と列の位置にあるサブプロットに画像を表示するために imshow() 関数を呼び出しています。
#axs[row, col]：axs は plt.subplots() 関数で生成されたサブプロットの配列です。row と col のインデックスを使用して、特定の行と列の位置にあるサブプロットにアクセスしています。
#.imshow(gene_imgs[cnt, :, :, 0], cmap='gray')：imshow() 関数は、画像を表示するための Matplotlib の関数です。指定された画像をサブプロットに表示します。
#gene_imgs[cnt, :, :, 0]：gene_imgs は生成された画像の行列です。cnt は、現在の画像のインデックスを表します。:, :, :, 0 は、RGB チャンネルがある場合でも、最初のチャンネル（グレースケール画像の場合は唯一のチャンネル）を取得します。
#cmap='gray'：画像のカラーマップを指定します。'gray' は、グレースケールの画像を表示するためのカラーマップです。
#Matplotlib の axis() 関数は、軸の表示を制御するために使用されます。'off' を指定することで、軸を非表示にします。これにより、画像が表示されるだけで、周囲に軸が表示されなくなります。一般的に、画像を表示する際には軸を非表示にすることが多いため、この設定が使用されます。
#cnt += 1：サブプロット内で処理される画像のインデックスを更新するために、cnt 変数に 1 を加算しています。これにより、画像が正しい順序でグリッドに配置されることが保証されます。

fig.savefig(f”{directory}/iteration_{iteration}.png”)
＃生成された図を指定されたディレクトリに保存します。イテレーション番号が含まれたファイル名で保存されます。
＃savefig() 関数は、現在の図を指定されたファイル名で保存します。

plt.close(fig)
＃生成した図を閉じます。これにより、メモリの使用量が減少し、プログラムが効率的に実行されます。
＃close() 関数は、現在の図を閉じてメモリを解放します。図を閉じることで、プログラムがメモリを効率的に管理し、リソースの無駄な使用を防ぎます。→メモリリークを防ぐ

p.s.メモリリークとは使い終わった不要なメモリを開放しないことで、メモリの使用量が増加し続ける現象を指します。

Pythonで機械学習入門深層学習から敵対的生成ネットワークまで / 大関真之【本】
価格：2,640円（税込、送料別) (2024/3/4時点)

モデルの実行

GANモデルは時間がかかります。自分の時間と相談しながら、パラメーターを設定してください。

p.s.以下の設定だと１０時間以上はかかります。

iterations = 20000
batch_size = 128
sample_interval = 1000
train(iterations, batch_size, sample_interval)

iterations=20000
＃訓練のイテレーション数を指定します。生成モデルと識別モデルの訓練プロセスが 20000 回の反復で行われることを示しています。

batch_size=256
＃バッチサイズを指定します。一度にモデルに渡される訓練サンプルの数です。
＃GPUを使用する場合はバッチサイズの選択肢は、32、64、128、256などの2の冪乗にするのが一般的です。CPUの場合はあまり関係ありません。（この実践はCPUでやっています。）

sample_interval=1000
＃進捗を表示するために、途中経過を確認する頻度を示しています。何回のイテレーションごとに進捗を表示するかを示します。
＃この場合、1000イテレーションごとに損失と精度を記録し、画像を保存します。

train(iterations,batch_size,sample_interval)
＃train関数を呼び出して、GANの訓練を開始します。指定された反復回数（iterations）、バッチサイズ（batch_size）、サンプル間隔（sample_interval）で訓練が行われます。

モデルの保存とロード方法

それでは、モデルを保存しましょう。

generator.save('gene_mod.keras')
discriminator.save('disc_mod.keras')
gan.save('gan_model.keras')

generator.save(‘gene_mod.keras’)
＃訓練が完了した後、生成器のモデルをファイルに保存します。ここでは、gene_mod.kerasという名前で保存されます。
discriminator.save(‘disc_mod.keras’)
#訓練が完了した後、識別器のモデルをファイルに保存します。ここでは、disc_mod.kerasという名前で保存されます。
gan.save(‘gan_mode.keras’)
＃訓練が完了した後、GANモデル全体をファイルに保存します。ここでは、gan_model_りおちゃん.kerasという名前で保存されます。

p.s.前回まではh5を使っていましたがKeras 形式を使用すると、モデルの保存とロードがより柔軟で効率的になることが判明したのでこうしました。
＃HDF5 形式では、モデルのアーキテクチャ、重み、トレーニング設定などが単一のファイルに保存されます。

生成 Deep Learning 絵を描き、物語や音楽を作り、ゲームをプレイする [ David Foster ]
価格：4,180円（税込、送料無料) (2024/3/4時点)

モデルのロード

モデルをロードする時はh5と同じ流れです。

  from keras.models import load_model
  
  # 保存されたモデルをロード
  loaded_model = load_model('generator_model.keras')

これで、学習したモデルを再利用できます。

おわりに

ふーっ。やっと終わりました。ちょっと長かったですね。

偽画像が生成されるのは感動したけど、思ったより精度は高くなかったですよね。

次回はこの課題を克服していきます。層を少しだけ変えてやるだけで精度を劇的に高められます。また、そこ以外は今回と同じコードを使用するので、労力は少ないです。今日頑張ったので次回は楽に実装していきましょう！

【AI/実践編】DCGANで高画質化【衝撃簡単⑤】

本物と見分けがつかない偽物をつくろう！

【AI/実践編】WebカメラとAIを連携【衝撃簡単③】

管理人 — Sun, 25 Feb 2024 08:00:33 +0000

対象読者
おわりに

対象読者

AIで何をつくっていいかわからない。そんな人に『衝撃簡単シリーズ』はおすすめです。今回はその３回目です。

前回はCNNを使ってよりディープラーニングらしいものを作りました。今回はそこから少しだけレベルアップしてリアルタイムでカメラに映し出された画像データを分析するということをやっていきます。

もし分からないところがあっても、そのうち絶対分かるので気長に気楽にやっていきましょう！

【AI/実践編】MNISTでAIを体験【衝撃簡単①】

前前回↑

【AI/実践編】CNNを構築【衝撃簡単②】

CNNを簡単に構築していきましょう！ＡＩ実装初心者にとても適した内容となっています。AIの概要は学んだけど何から作ればいいんだろう。という悩みをお持ちの方にピッタリです。今回はＣＮＮ（畳み込みニューラルネットワーク）を構築していきます。今日も気楽にやっていきましょう！

前回↑

今日のゴール

今日はカメラで数字を認識させて、その数字を学習したモデルに通して数字を当てさせるところをゴールとしてやっていきます。

また、今回もこちらのサイト（https://qiita.com/Ka-k/items/b9da86a3dfaac104aa02）を参考に進めさせてもらいます。こちらはAI初心者にはとても参考になるサイトですが、少し古い部分があったりします。なので、本ページでは今風にアレンジしつつ誰でも実装できるように解説していきます。

今日使うコード

これが今日の全コードです。理解のために、コードと説明の順番が上下するので、もし迷ったらこちらを参考にしてください。

Python

import cv2
from keras.models import load_model
import numpy as np

cap = cv2.VideoCapture(0)

while(True):
    ret, frame = cap.read()

    h, w, _ = frame.shape[:3] 

    w_center = w//2 
    h_center = h//2 

    cv2.rectangle(frame, (w_center-71, h_center-71),  
                 (w_center+71, h_center+71),(255, 0, 0)) 
    cv2.imshow("frame",frame) 

    k =  cv2.waitKey(1) & 0xFF
    prop_val = cv2.getWindowProperty("frame", cv2.WND_PROP_ASPECT_RATIO)

    if k == ord("q") or (prop_val < 0):
        break
    elif k == ord("s"):
        im = frame[h_center-70:h_center+70, w_center-70:w_center+70] 
        im = cv2.cvtColor(im, cv2.COLOR_BGR2GRAY) 

        _, th = cv2.threshold(im, 0, 255, cv2.THRESH_OTSU) 
        th = cv2.bitwise_not(th)
        th = cv2.GaussianBlur(th,(9,9), 0) 
        cv2.imwrite("capture.jpg", th)
        break

cap.release()
cv2.destroyAllWindows()


#-----------------------------------------


Xt = []
img = cv2.imread("capture.jpg", 0)
img = cv2.resize(img,(28, 28), cv2.INTER_CUBIC)

Xt.append(img)
Xt = np.array(Xt)/255




model = load_model("ai-third.h5")

result = model.predict(Xt)#モデルの予測を抽出
top3_probs = np.sort(result, axis=1)[:, ::-1][:, :3]
top3_classes = np.argsort(result, axis=1)[:, ::-1][:, :3]

# 結果を出力
for i in range(len(top3_probs)):
    print(f"サンプル {i+1} の上位3つのクラスと確率:")
    for j in range(3):
        print(f"クラス {top3_classes[i][j]}: 確率 {top3_probs[i][j]}")

カメラ入力の設定

前提として、今回はMNISTデータで学習したモデルを使います。そのため、学習モデルを適応するには入力をMNISTと同じ形式にする必要があります。ということで、MNISTの形式に直しつつ、カメラの入力設定をやっていきたいと思います。

カメラの映像を映し出す

映し出した映像に正方形の領域を描画する
描画した領域内に手書きの数字を映す
撮影する
撮影した画像の正方形部分(数字が映ってる部分)だけを切り取る
切り取った画像を白黒にする
白黒にした画像の白と黒を反転させる(黒背景に白文字にする)
28×28サイズに圧縮する

カメラを起動させる

Python

import cv2

cap = cv2.VideoCapture(0) 

while(True):
    ret, frame = cap.read()

    cv2.imshow("frame",frame)

    k =  cv2.waitKey(100) & 0xFF

    if k == ord("q"): #qを押したら終了
        break

cap.release()
cv2.destroyAllWindows()

このコードは、OpenCVを使用してウェブカメラからビデオをキャプチャし、フレームをリアルタイムで表示するプログラムです。以下に、コードの各部分の解説をします。
import cv2
＃OpenCVライブラリをcv2という名前でインポートします。

cap = cv2.VideoCapture(0)
＃VideoCaptureクラスを使用して、ウェブカメラからのビデオキャプチャを開始します。引数の0は、デフォルトのカメラデバイスを指定しています。複数のカメラが接続されている場合は、0以外の番号を指定して切り替えることができます。

while(True):
＃無限ループを開始します。

ret, frame = cap.read()
＃cap.read()メソッドを使用して、カメラから1フレームをキャプチャします。retは、フレームの取得が成功したかどうかを示すブール値です。frameは、キャプチャされたフレームの画像データです。

cv2.imshow("frame", frame)
＃imshow()関数を使用して、キャプチャされたフレームをウィンドウに表示します。第1引数はウィンドウの名前を指定し、第2引数には表示する画像データを指定します。

k = cv2.waitKey(100) & 0xFF
＃waitKey()関数を使用して、ユーザーからのキーボード入力を待ちます。引数は、入力を待つ時間（ミリ秒）です。ここでは100ミリ秒です。& 0xFFは、64ビットマシンでの処理のために追加されたビットマスクです。

if k == ord("q"):
＃ユーザーがキーボードのqを押すと、無限ループを抜けてプログラムを終了します。ｑキーを押さないと閉じれないので、しっかりとｑキーを押しましょう！

cap.release()
＃カメラリソースを解放します。

cv2.destroyAllWindows()
＃すべてのOpenCVウィンドウを閉じます。

Pythonによる医用画像処理入門（医療AIとディープラーニングシリーズ） [ 藤田広志 ]
価格：3,740円（税込、送料無料) (2024/3/4時点)

キャプチャ機能を追加

sキーを押すと現在のフレームが保存されてプログラムが終了するようにしましょう。

p.s.コメント(#)は既に書いたコードを表します。

Python

# import cv2

# cap = cv2.VideoCapture(0) 
# while(True):
#     ret, frame = cap.read()
#     cv2.imshow("frame",frame)
#     k =  cv2.waitKey(100) & 0xFF 

#    if k == ord("q"):
#      break
    elif k == ord("s"): 
        cv2.imwrite("./frame.jpg", frame) 
        break 

# cap.release()
# cv2.destroyAllWindows()

elif k == ord("s"):
　cv2.imwrite("./frame.jpg", frame)
　break
＃もしsキーが押されたら、フレームを保存し、ループを抜けてプログラムを終了します。保存するファイル名は”frame.jpg”です。

無限ループ対策を追加

プログラム内で無限ループを使用するときは、しっかりとした終了操作も追加しておく必要があります。これをしないと、コンピュータに過度な負荷がかかってしまいます。

カメラからの映像をリアルタイムで表示し、qを押すかウィンドウのアスペクト比が変更された場合に終了できるようにします。

Python

# import cv2

# cap = cv2.VideoCapture(1) 

# while(True):
#     ret, frame = cap.read()
#     cv2.imshow("frame",frame)
#     k =  cv2.waitKey(100) & 0xFF
    　prop_val = cv2.getWindowProperty("frame", cv2.WND_PROP_ASPECT_RATIO)

     　if k == ord("q") or (prop_val < 0):
#         break
#     elif k == ord("s"): 
#         cv2.imwrite("frame.jpg", frame)
#         break
# cap.release()
# cv2.destroyAllWindows()

prop_val = cv2.getWindowProperty("frame", cv2.WND_PROP_ASPECT_RATIO)
＃ウィンドウのアスペクト比を取得します。ウィンドウを閉じると-1が返される。

if k == ord("q") or (prop_val < 0):
#もしqが押されたか、ウィンドウのアスペクト比が負の値になった場合に、無限ループを抜けてプログラムを終了します。

対象領域をカメラ内に表示

フレームの中心に青い矩形を描画して、数字を読み込むための対象領域を明確化しましょう。

Python

# import cv2

# cap = cv2.VideoCapture(0) 


# while(True):
#   ret, frame = cap.read()
    h, w, _ = frame.shape[:3]
    w_center = w//2
    h_center = h//2
    cv2.rectangle(frame, (w_center-71, h_center-71), (w_center+71, h_center+71),(255, 0, 0))
    cv2.imshow("frame",frame)

#     k =  cv2.waitKey(100) & 0xFF 
#     prop_val = cv2.getWindowProperty("frame", cv2.WND_PROP_ASPECT_RATIO)

#     if k == ord("q") or (prop_val < 0):
#         break
#     elif k == ord("s"): 
#         cv2.imwrite("frame.jpg", frame)
#         break

# cap.release()
# cv2.destroyAllWindows()

h, w, _ = frame.shape[:3]
＃フレームの高さと幅を取得します。OpenCVのshapeメソッドは、画像の高さ、幅、チャンネル数などの情報を返します。ここでは、高さと幅のみを取得しています。

w_center = w//2
＃フレームの中心の横座標を計算します。

h_center = h//2
＃フレームの中心の縦座標を計算します。

cv2.rectangle(frame, (w_center-71, h_center-71), (w_center+71, h_center+71), (255, 0, 0))
＃cv2.rectangle()関数を使用して、フレームに矩形を描画します。矩形の左上の座標と右下の座標を指定し、色を指定します。ここでは青色((255, 0, 0))の矩形を描画しています。順番は（青,緑,赤）を表します。

cv2.imshow("frame", frame)
＃キャプチャされたフレームをウィンドウに表示します。

画像データの前処理

では、画像データの前処理をしていきましょう。

ここではキャプチャされたフレームに描画された短形を切り取って、白黒反転させた後、二値化とガウシアンブラーを適用していきます。

Python

# import cv2

# cap = cv2.VideoCapture(0) 


# while(True):
#     ret, frame = cap.read()

#     h, w, _ = frame.shape[:3]
#     w_center = w//2
#     h_center = h//2
#     cv2.rectangle(frame, (w_center-71, h_center-71), (w_center+71, h_center+71),(255, 0, 0))


#     cv2.imshow("frame",frame)

#     k =  cv2.waitKey(100) & 0xFF
#     prop_val = cv2.getWindowProperty("frame", cv2.WND_PROP_ASPECT_RATIO)

#     if k == ord("q") or (prop_val < 0):
#         break
#     elif k == ord("s"): 
        im = frame[h_center-70:h_center+70, w_center-70:w_center+70]
        im = cv2.cvtColor(im, cv2.COLOR_BGR2GRAY) 
        _, th = cv2.threshold(im, 0, 255, cv2.THRESH_OTSU)
        th = cv2.bitwise_not(th)
        th = cv2.GaussianBlur(th,(9,9), 0)
        cv2.imwrite("capture.jpg", th)
#         break

# cap.release()
# cv2.destroyAllWindows()

im = frame[h_center-70:h_center+70, w_center-70:w_center+70]
＃frameから、縦方向には中央から±70ピクセル、横方向には中央から±70ピクセルの領域を切り取ります。h_centerとw_centerは、フレームの高さと幅の中心座標です。

im = cv2.cvtColor(im, cv2.COLOR_BGR2GRAY)
＃切り取られた領域をカラーからグレースケールに変換します。グレースケールに変換することで、画像の明るさ情報のみを残します。

_, th = cv2.threshold(im, 0, 255, cv2.THRESH_OTSU)
＃大津の二値化法を使用して、画像を二値化します。大津の二値化法は、画像の輝度ヒストグラムから自動的に適切な閾値を計算し、画像を黒と白の二値画像に変換します。この関数の返り値は、使用された閾値と二値化された画像ですが、このコードでは_に代入しているため、閾値は使用されません。

th = cv2.bitwise_not(th)
＃二値化された画像を反転させます。つまり、黒い部分と白い部分が入れ替わります。

th = cv2.GaussianBlur(th, (9,9), 0)
#二値化された画像にガウシアンフィルタを適用します。ガウシアンフィルタは、画像のノイズを軽減するために使用され、画像の平滑化を行います。(9,9)はカーネルサイズを示し、それぞれの次元におけるフィルタの幅と高さを指定します。0はX軸方向の標準偏差を示しています。0の場合、カーネルサイズから自動的に計算されます。

cv2.imwrite(“capture.jpg”, th)
#もろもろの処理を施した、thをcapture.jpgとして保存します。

入力サイズの変形

Python

# import cv2
import numpy as np

# cap = cv2.VideoCapture(0) 
# while(True):
#     ret, frame = cap.read()

#     h, w, _ = frame.shape[:3]
#     w_center = w//2
#     h_center = h//2
#     cv2.rectangle(frame, (w_center-71, h_center-71), (w_center+71, h_center+71),(255, 0, 0))

#     cv2.imshow("frame",frame)

#     k =  cv2.waitKey(100) & 0xFF
#     prop_val = cv2.getWindowProperty("frame", cv2.WND_PROP_ASPECT_RATIO)

#     if k == ord("q") or (prop_val < 0):
#         break
#     elif k == ord("s"): 
#         im = frame[h_center-70:h_center+70, w_center-70:w_center+70]
#         im = cv2.cvtColor(im, cv2.COLOR_BGR2GRAY)

#         _, th = cv2.threshold(im, 0, 255, cv2.THRESH_OTSU)
#         th = cv2.bitwise_not(th) 
#         th = cv2.GaussianBlur(th,(9,9), 0) 
#         cv2.imwrite("./capture.jpg", th)
#         break

# cap.release()
# cv2.destroyAllWindows()

Xt = []
img = cv2.imread("capture.jpg", 0)
img = cv2.resize(img,(28, 28), cv2.INTER_CUBIC)

Xt.append(img)
Xt = np.array(Xt)/255

import numpy as np
＃NumPyライブラリをnpとしてインポートします。NumPyはPythonで数値計算を行うための基本的なライブラリです。

Xt = []
: 画像データを格納するための空のリストXtを作成します。

img = cv2.imread("capture.jpg", 0)
＃”capture.jpg”というファイルをグレースケールで読み込みます。cv2.imread()関数は、指定したファイルから画像を読み込みます。2番目の引数で0を指定することで、グレースケールとして読み込みます。

img = cv2.resize(img, (28, 28), cv2.INTER_CUBIC)
＃読み込んだ画像を28×28ピクセル（MNISTのサイズ）にリサイズします。cv2.resize()関数は、画像を指定したサイズにリサイズします。cv2.INTER_CUBICは、リサイズ時の補間方法を指定します。

Xt.append(img)
＃リサイズされた画像をリストXtに追加します。

Xt = np.array(Xt) / 255
＃リストXtをNumPy配列に変換し、それぞれの要素を0から1の範囲に正規化します。画像のピクセル値は通常、0から255の範囲になりますが、ニューラルネットワークに入力する際には0から1の範囲に正規化することが一般的です。

PythonによるAIプログラミング入門ディープラーニングを始める前に身につけておくべき15の基礎技術 [ Prateek Joshi ]
価格：3,740円（税込、送料無料) (2024/3/4時点)

モデルをロード

前回作って保存したモデルのニューラルネットワークモデルロードして、使用して画像データの予測を行い、上位3つのクラスとその確率を出力します。

p.s.前回のモデルがない場合は、ここを一旦飛ばして次の「前回のモデルがない場合」のコードを実行してください。

Python


# import cv2
# import numpy as np
from keras.models import load_model

# cap = cv2.VideoCapture(0)

# while(True):
#     ret, frame = cap.read()

#     h, w, _ = frame.shape[:3] 

#     w_center = w//2 
#     h_center = h//2 

#     cv2.rectangle(frame, (w_center-71, h_center-71),  
#                  (w_center+71, h_center+71),(255, 0, 0)) 
#     cv2.imshow("frame",frame) 

#     k =  cv2.waitKey(1) & 0xFF
#     prop_val = cv2.getWindowProperty("frame", cv2.WND_PROP_ASPECT_RATIO)

#     if k == ord("q") or (prop_val < 0):
#         break
#     elif k == ord("s"):
#         im = frame[h_center-70:h_center+70, w_center-70:w_center+70] 
#         im = cv2.cvtColor(im, cv2.COLOR_BGR2GRAY) 

#         _, th = cv2.threshold(im, 0, 255, cv2.THRESH_OTSU) 
#         th = cv2.bitwise_not(th)
#         th = cv2.GaussianBlur(th,(9,9), 0) 
#         cv2.imwrite("capture.jpg", th)
#         break

# cap.release()
# cv2.destroyAllWindows()

# Xt = []
# img = cv2.imread("capture.jpg", 0)
# img = cv2.resize(img,(28, 28), cv2.INTER_CUBIC)

# Xt.append(img)
# Xt = np.array(Xt)/255

model = load_model("ai-third.h5")

result = model.predict(Xt)#モデルの予測を抽出

#ここ↓はお好みでどうぞ。面倒くさかったらprint(result[0])だけでも出力できます。
top3_probs = np.sort(result, axis=1)[:, ::-1][:, :3]
top3_classes = np.argsort(result, axis=1)[:, ::-1][:, :3]
for i in range(len(top3_probs)):
    print(f"サンプル {i+1} の上位3つのクラスと確率:")
    for j in range(3):
        print(f"位 {top3_classes[i][j]}: 確率 {top3_probs[i][j]}")

model = load_model("ai-third.h5")
＃load_model()関数を使用して、指定されたファイル（”ai-third.h5″）から事前にトレーニングされたモデルをロードします。このファイルは、Kerasで保存されたモデルの重みやアーキテクチャなどの情報を含んでいます。

result = model.predict(Xt)
＃model.predict()メソッドを使用して、ロードしたモデルを使って入力データ Xt の予測を行います。このメソッドは、入力データをモデルに渡し、各クラスに属する確率の配列を返します。

top3_probs = np.sort(result, axis=1)[:, ::-1][:, :3]
＃np.sort()関数を使用して、各サンプルのクラスに属する確率をソートします。
＃axis=1は行方向（各サンプル）に対してソートを行うことを意味し、
＃:,-1は降順でソートすることを示します。
＃:,:3で各サンプルの上位3つの確率を取得します。

top3_classes = np.argsort(result, axis=1)[:, ::-1][:, :3]
＃np.argsort()関数を使用して、各サンプルのクラスに属する確率のインデックスをソートします。
＃axis=1は行方向（各サンプル）に対してソートを行うことを意味します。
＃:,-1は降順でソートすることを示します。
＃:,:3で各サンプルの上位3つのクラスのインデックスを取得します。

forループを使用して、各サンプルの上位3つのクラスと確率を出力します。各サンプルに対して、上位から3つのクラスとそれに対応する確率が出力されます。

p.s.正解率が良くなかったら、前回のモデルのエポック数を調整してみてください。

前回のモデルがない場合

このコードを実行することでai-third.h5にモデルの訓練データが格納されます。
これが実行し終わったら、上の『モデルをロードする』のコードを実行してください。

Python

from keras.models import Sequential
from keras.layers import Dense, Activation, Flatten
from keras.layers import Conv2D,Reshape, MaxPooling2D,Dropout

from keras.datasets import mnist
from keras.utils import to_categorical
import numpy as np

(X_train, y_train), (X_test, y_test) = mnist.load_data()

X_train = np.array(X_train)/255
X_test = np.array(X_test)/255

y_train = to_categorical(y_train)
y_test = to_categorical(y_test)



model = Sequential()

model.add(Reshape((28,28,1), input_shape=(28,28)))
model.add(Conv2D(32,(3,3)))
model.add(Activation("relu"))

model.add(Conv2D(32,(3,3)))
model.add(Activation("relu"))
model.add(MaxPooling2D((2,2)))
model.add(Dropout(0.5))

model.add(Conv2D(16,(3,3)))
model.add(Activation("relu"))
model.add(MaxPooling2D((2,2)))
model.add(Dropout(0.5))

model.add(Flatten())
model.add(Dense(784))
model.add(Activation("relu"))
model.add(Dropout(0.5))

model.add(Dense(10))
model.add(Activation("softmax"))


model.compile(loss="categorical_crossentropy", optimizer="sgd", metrics=["accuracy"])


hist = model.fit(X_train, y_train, batch_size=200, verbose=1, 
                 epochs=15, validation_split=0.1)

score = model.evaluate(X_test, y_test, verbose=1)

model.save("./ai-third.h5")

おわりに

これで、今回の学習は終わりです。参考書でせっせこやるよりも、やっぱり実践的に手を動かした方が楽しいですよね。

また、今回で最初の１歩シリーズは完成になります。意外と、自分でも作れるんだと思ってもらえたら幸いです。

これからも、誰でも簡単に作れるAIをモットーにどんどん記事を更新していくので、AIで何か作ってみたい場合は是非、当サイトを利用してみてください。

【AI/実践編】生成AI-GANを実装【衝撃簡単④】

次回

【AI/実践編】MNISTでAIを体験【衝撃簡単①】

最初の１歩　①

【AI/実践編】CNNを構築【衝撃簡単②】

最初の1歩　②

【AI/実践編】CNNを構築【衝撃簡単②】

管理人 — Sat, 24 Feb 2024 12:58:21 +0000

対象読者
まとめ

対象読者

AIの概要は学んだけど何から作ればいいんだろう。という悩みをお持ちではありませんか？

この記事はそんな悩みにピッタリなものになっています。AI初心者でも簡単に形あるものを作ることを目標にしています。

前回はMNISTを使って簡単に正解率を導出しました。今回やることは、そこから少しだけレベルアップしてＣＮＮ（畳み込みニューラルネットワーク）を構築していきましょう。前回に引き続き、ＡＩ実装初心者にとても適した内容となっています。

今回も気楽にやっていきましょう！

【AI/実践編】MNISTでAIを体験【衝撃簡単①】

前回

【AI/実践編】WebカメラとAIを連携【衝撃簡単③】

AIの深い原理が分からなくても作れます！今回は、AI素人でも実装可能なWebカメラを使ったニューラルネットワークを構築していきます。リアルタイムで画像を読み込み、それをMNISTデータで判別できるようにしましょう。AI初心者はとりあえず、実践あるのみですからね。机上の空論より、手を動かしていきましょう！それがAsend-Beyond式です！

次回

今日のゴール

CNNをモデルに追加して、よりディープラーニングらしくしていきましょう。そもそもCNNとは全結合層の欠点を補える技術です。

全結合層
・空間的な構造や局所的なパターンを考慮できない→画像分析には不向き
・その代わり、言語処理や時系列データなどの系列データのパターン分析に向いている

CNN
・位置的な情報を保持したまま学習を進められる→画像分析に向く

また、今回もこちらのサイト（https://qiita.com/Ka-k/items/deb59b20f3e622028455）を参考に進めさせてもらいます。こちらはAI初心者にはとても参考になるサイトですが、少し古い部分があったりします。なので、本ページでは今風にアレンジしつつ誰でも実装できるように解説していきます。

今日使うコード

これが今日の全コードです。理解のために、コードと説明の順番が上下するので、もし迷ったらこちらを参考にしてください。

Python

from keras.models import Sequential
from keras.layers import Dense, Activation, Flatten
from keras.layers import Conv2D,Reshape, MaxPooling2D,Dropout

from keras.datasets import mnist
from keras.utils import to_categorical
import numpy as np

(X_train, y_train), (X_test, y_test) = mnist.load_data()

X_train = np.array(X_train)/255
X_test = np.array(X_test)/255

y_train = to_categorical(y_train)
y_test = to_categorical(y_test)



model = Sequential()

model.add(Reshape((28,28,1), input_shape=(28,28)))
model.add(Conv2D(32,(3,3)))
model.add(Activation("relu"))

model.add(Conv2D(32,(3,3)))
model.add(Activation("relu"))
model.add(MaxPooling2D((2,2)))
model.add(Dropout(0.5))

model.add(Conv2D(16,(3,3)))
model.add(Activation("relu"))
model.add(MaxPooling2D((2,2)))
model.add(Dropout(0.5))

model.add(Flatten())
model.add(Dense(784))
model.add(Activation("relu"))
model.add(Dropout(0.5))

model.add(Dense(10))
model.add(Activation("softmax"))


model.compile(loss="categorical_crossentropy", optimizer="sgd", metrics=["accuracy"])


hist = model.fit(X_train, y_train, batch_size=200, verbose=1, 
                 epochs=15, validation_split=0.1)

score = model.evaluate(X_test, y_test, verbose=1)

model.save("./ai-first.h5")

基本モデルの構築

まずは、全結合層のみでニューラルネットワークモデルを構築しましょう。

Python

from keras.models import Sequential
from keras.layers import Dense, Activation

model = Sequential()

model.add(Dense(784))
model.add(Activation("relu"))
model.add(Dropout(0.5))

model.add(Dense(10))
model.add(Activation("softmax"))

from keras.models import Sequential
＃KerasのSequentialモデルクラスをインポートします。Sequentialモデルは、レイヤーを順番に重ねてモデルを定義するためのものです。

from keras.layers import Dense, Activation
＃Dense層とActivation層を含む必要なモジュールをインポートします。Dense層は、全結合層を表し、Activation層は活性化関数を適用するために使用されます。

from keras.layers import Dropout
#過学習を防ぐために使用される正則化手法の1つであるDropoutをインポートしています。

model = Sequential()
＃Sequentialモデルのインスタンスを作成します。これは、ニューラルネットワークモデルを構築するための土台となるものです。

model.add(Dense(784))
＃全結合層(Dense層)を追加します。この層は784個(28×28)のユニット（ニューロン）を持ち、画像データの特徴を抽出し、平坦化します。

model.add(Activation(“relu”))
#ReLU(Rectified Linear Unit)活性化関数を適用します。これにより、非線形性が導入されます。

【AI/座学編】高頻出な活性化関数まとめ

ここでは、AIを実装する上で使用頻度の高い活性化関数を解説します。また、解説はAscendBeyond式にのっとり、複雑な概念理解には重きを置かず実装に必要な最低限の重要な知識のみを提供しています。座学で時間を浪費していては、AIを作るという本来の目的から離れるばかりですからね。やはり、座学よりも実践に時間を多く費やしてほしいので、座学は軽く頭に入れる程度にしてどんどん実践を積んでください。

ReLUについて知りたい方はどうぞ

model.add(Dropout(0.5))
＃Dropout率が0.5であるDropoutレイヤーを追加しています。ここでのDropout率0.5は、ランダムに選択された50%のニューロンを無効にし、それ以外のニューロンを活性化させることを意味します。

model.add(Dense(10))
#出力層として全結合層を追加します。この層は、モデルが10クラスの分類を行うことを示します。

model.add(Activation(“softmax”))
#最後に、ソフトマックス活性化関数を適用します。これにより、出力は各クラスに属する確率として解釈されます。softmax関数は、クラス分類問題において一般的に使用されます。

【AI/座学】GANパラメーター調整のコツ・極意書

Dropoutなどのパラメータの特徴をまとめられています

畳み込み層を追加

では、実際に畳み込み層を追加していきましょう。コード量が多く感じるかもしれませんが、実質は同じメソッドを使いまわしているだけなので、恐れることはありません。

p.s.コメント部分は既に書いたコードを表しています。

Python

#from keras.models import Sequential
#from keras.layers import Dense, Activation
#from keras.layers import Dropout
from keras.layers import Conv2D,MaxPooling2D

#model = Sequential()

model.add(Conv2D(32,(3,3)))
model.add(Activation("relu"))

model.add(Conv2D(32,(3,3)))
model.add(Activation("relu"))
model.add(MaxPooling2D((2,2)))
model.add(Dropout(0.5))

model.add(Conv2D(16,(3,3)))
model.add(Activation("relu"))
model.add(MaxPooling2D((2,2)))
model.add(Dropout(0.5))

#model.add(Dense(784))
#model.add(Activation("relu"))
#model.add(Dropout(0.5))
#model.add(Dense(10))
#model.add(Activation("softmax"))

from keras.layers import Conv2D
＃2次元畳み込み層(Convolutional Layer)を使用するためのモジュールをインポートします。

from keras.layers import MaxPooling2D
＃畳み込みニューラルネットワーク（CNN）内で使用されるプーリング層の1つであるMaxPooling2Dをインポートしています。

model.add(Conv2D(32,(3,3)))
＃32個の3×3のフィルタを持つ畳み込み層を追加しています。この層は、画像データの特徴を抽出します。

model.add(Activation("relu"))
＃ReLU(Rectified Linear Unit)活性化関数を適用します。これにより、非線形性が導入されます。

model.add(Conv2D(32,(3,3)))
＃32個の3×3のフィルタを持つ畳み込み層を追加しています。この層も、画像データの特徴を抽出します。

model.add(Activation("relu"))
＃再びReLU活性化関数を適用します。

model.add(MaxPooling2D((2,2)))
＃MaxPooling2D層を追加します。2×2のウィンドウ内の最大値を取得し、画像を圧縮します。これにより、特徴マップのサイズが削減されます。

model.add(Dropout(0.5))
＃Dropoutレイヤーを追加します。50%のドロップアウト率で、ランダムに一部のニューロンを無効にします。過学習を防止するために使用されます。

以上のプロセスを繰り返し、さらに畳み込み層とプーリング層、Dropoutレイヤーを追加しています。3つ目の畳み込み層は16個の3×3のフィルタを持ち、その後にReLU活性化関数が適用され、MaxPooling2Dで画像が圧縮され、最後にDropoutが適用されます。

直感 Deep Learning Python×Kerasでアイデアを形にするレシピ [ Antonio Gulli ]
価格：3,740円（税込、送料無料) (2024/3/4時点)

Conv2Dのルール

Conv２Dを使用するためにはいくつかのルールがあります。そのルールに従わないと学習を進めることができません。そのため、ここでは上のコードをConv２Dに合うように必要なコードを追加していきます。

Conv２D入力編

Conv2D()の入力は３次元(width,height,channel)でなけらばなりません。しかし、今回入力とするMNISTはチャンネルを持たない２次元です。なので、この入力を３次元に変換していきましょう。

Python

# from keras.models import Sequential
# from keras.layers import Dense, Activation
# from keras.layers import Conv2D,MaxPooling2D,Dropout
from keras.layers import Reshape

#model = Sequential()

model.add(Reshape((28,28,1), input_shape=(28,28)))
# model.add(Conv2D(32,(3,3)))
# model.add(Activation("relu"))

# model.add(Conv2D(32,(3,3)))
# model.add(Activation("relu"))
# model.add(MaxPooling2D((2,2)))
# model.add(Dropout(0.5))

# model.add(Conv2D(16,(3,3)))
# model.add(Activation("relu"))
# model.add(MaxPooling2D((2,2)))
# model.add(Dropout(0.5))

# model.add(Dense(784))
# model.add(Activation("relu"))
# model.add(Dropout(0.5))
# model.add(Dense(10))
# model.add(Activation("softmax"))

from keras.layers import Reshape
＃Reshapeレイヤーを使用するために必要なモジュールをインポートします。Reshapeレイヤーは、入力データの形状を変更するために使用されます。

model.add(Reshape((28,28,1), input_shape=(28,28)))
＃Reshapeレイヤーを追加します。このレイヤーは、入力データの形状を変更します。具体的には、入力データの形状を (28, 28) から (28, 28, 1) に変更します。これは、入力データがグレースケールの画像であり、1つのチャンネル（色）のみを持つことを示しています。このような形状のデータは、通常、畳み込みニューラルネットワーク（CNN）の入力として多々使用されています。

Conv2D出力編

Conv2Dで出力されたデータは２次元配列です。しかし、それと結合する全結合層は１次元配列しか受け付けません。そのため、全結合層(Dense)に渡す前には２次元配列を１次元に変形する必要があります。

Python

# from keras.models import Sequential
# from keras.layers import Dense, Activation
# from keras.layers import Conv2D,MaxPooling2D,Dropout
#from keras.layers import Reshape
from keras.layers import Flatten

#model = Sequential()
# model.add(Reshape((28,28,1), input_shape=(28,28)))
# model.add(Conv2D(32,(3,3)))
# model.add(Activation("relu"))

# model.add(Conv2D(32,(3,3)))
# model.add(Activation("relu"))
# model.add(MaxPooling2D((2,2)))
# model.add(Dropout(0.5))

# model.add(Conv2D(16,(3,3)))
# model.add(Activation("relu"))
# model.add(MaxPooling2D((2,2)))
# model.add(Dropout(0.5))

model.add(Flatten())

# model.add(Dense(784))
# model.add(Activation("relu"))
# model.add(Dropout(0.5))
# model.add(Dense(10))
# model.add(Activation("softmax"))

from keras.layers import Flatten
#Flattenをインポートしています。Flattenレイヤーは入力を平滑化するために使用されます。

model.add(Flatten())
＃畳み込み層やプーリング層などで処理された2次元の特徴マップを、その後の全結合層に入力するために、１次元に変換するためにFlatten()レイヤーが使います。

MNISTデータを読み込む

前回同様、今回もMNISTを使って分析していきます。MNISTデータセットを読み込み、画像データとラベルデータを前処理してニューラルネットワークのトレーニングに適した形式に変換していきましょう。

Python

#~~~省略~~~~~~~~~~~~~~~~~~~~~~~
from keras.datasets import mnist
from keras.utils import to_categorical
import numpy as np

(X_train, y_train), (X_test, y_test) = mnist.load_data()

X_train = np.array(X_train)/255
X_test = np.array(X_test)/255

y_train = to_categorical(y_train)
y_test = to_categorical(y_test)

#~~~省略~~~~~~~~~~~~~~~~~~~~~~~

from keras.datasets import mnist
＃KerasのmnistモジュールからMNISTデータセットを読み込むためのモジュールをインポートします。MNISTデータセットは、手書き数字（0から9までの数字）の画像データセットです。

from keras.utils import to_categorical
＃Kerasのto_categorical関数を使用するためのモジュールをインポートします。この関数は、クラスラベルをone-hotエンコーディング形式に変換するのに使用されます。

import numpy as np
＃NumPyライブラリをnpとしてインポートします。NumPyはPythonで数値計算を行うための基本的なライブラリです。

(X_train, y_train), (X_test, y_test) = mnist.load_data()
＃ mnist.load_data()関数を使用してMNISTデータセットを読み込みます。この関数は、トレーニング用の画像データとラベル、テスト用の画像データとラベルを返します。それぞれを(X_train, y_train)と(X_test, y_test)に代入します。

X_train = np.array(X_train)/255
X_test = np.array(X_test)/255
＃トレーニング用とテスト用の画像データをNumPy配列に変換し、値を0から1の範囲に正規化します。これは、画像のピクセル値を0から255の範囲から0から1の範囲にスケーリングすることで、ニューラルネットワークの学習を効率的に行うためです。

y_train = to_categorical(y_train)
y_test = to_categorical(y_test)
＃トレーニング用とテスト用のラベルデータをone-hotエンコーディング形式に変換します。これにより、各サンプルのラベルがクラスの数だけの次元を持つベクトルに変換されます。例えば、数字3の場合、[0, 0, 0, 1, 0, 0, 0, 0, 0, 0]となります。これは、多クラス分類のタスクにおいて、出力層でソフトマックス活性化関数を使用するために必要です。

モデルをコンパイル

モデルが学習するための損失関数や最適化アルゴリズム、および評価指標を設定していきましょう。

Python

#~~~省略~~~~~~~~~~~~~~~~~~~~~~~
model.compile(loss="categorical_crossentropy", optimizer="sgd", metrics=["accuracy"])

model.compile
＃モデルをコンパイルします。このメソッドを使用して、モデルの学習プロセスを設定します。

loss="categorical_crossentropy"
＃損失関数(loss function)として、カテゴリカルクロスエントロピーを指定しています。カテゴリカルクロスエントロピーは、多クラス分類問題において使用される損失関数であり、モデルの予測と真のラベルの間の差異を評価します。

optimizer="sgd"
＃オプティマイザ(optimizer)として、確率的勾配降下法（Stochastic Gradient Descent、SGD）を指定しています。SGDは、ミニバッチごとに勾配を計算し、モデルのパラメータを更新する際に使用される最適化アルゴリズムです。

metrics=["accuracy"]
＃モデルの性能評価指標(metrics)として、正解率(accuracy)を指定しています。正解率は、モデルが正しく分類したサンプルの割合を示します。訓練や評価の際に、この指標を監視することでモデルの性能を評価することができます。

TensorFlow2 TensorFlow＆Keras対応プログラミング実装ハンドブック【電子書籍】[ チーム・カルポ ]
価格：2,772円 (2024/3/4時点)

モデルの訓練

訓練が開始されると、各エポックごとに訓練データと検証データの損失と評価指標が計算され、hist オブジェクトに保存されるようにします。

Python

#~~~省略~~~~~~~~~~~~~~~~~~~~~~~
hist = model.fit(X_train, y_train, batch_size=200, verbose=1, 
                 epochs=1, validation_split=0.1)

hist = model.fit(X_train, y_train, batch_size=200, verbose=1,
epochs=10, validation_split=0.1)

＃hist = model.fit　
: モデルの訓練を開始するためのメソッドです。model は訓練するニューラルネットワークモデルを指します

＃X_train, y_train　
: 訓練用の入力データ X_train とそのラベルデータ y_train を指定しています。このデータはモデルの学習に使用されます。

＃batch_size=200　
: ミニバッチのサイズを指定しています。ミニバッチ学習では、全データセットを小さなバッチに分割し、各バッチごとにモデルのパラメータを更新します。batch_size は1回のパラメータ更新に使用するデータのサンプル数を指定します。

＃verbose=1　
: 訓練中にログメッセージを表示するかどうかを制御します。verbose=1 の場合、進捗バーが表示されます。表示した方がカッコいいですよ。（笑）

＃epochs=3　
: エポック数を指定しています。1つのエポックとは、全ての訓練データを1回学習することを指します。epochs パラメータは、モデルが訓練データを何回反復して学習するかを指定します。

#validation_split=0.1　
：検証データの割合を指定しています。訓練データの一部を検証に使用します。この場合、訓練データの10%が検証に使用されます。訓練中にモデルの性能を監視し、過学習を防ぐために使用されます

モデルの評価

先ほど訓練したモデルをテストデータを使って評価していきます。

Python

#~~~省略~~~~~~~~~~~~~~~~~~~~~~~

score = model.evaluate(X_test, y_test, verbose=1)
print("正解率(acc)：", score[1])

score = model.evaluate(X_test, y_test, verbose=1)
＃evaluate() 　：モデルの性能を評価するためのメソッドです。evaluatte()メソッドは、指定されたデータセットでモデルを評価し、損失と評価指標（ここでは正解率）を返します。
＃引数 X_test はテストデータの入力、y_test はテストデータの出力（正解ラベル）を表します。
＃verbose=1 は評価の進捗状況を表示する設定です。

print(“正解率(acc)：”, score[1])
＃テストデータでの評価結果を出力しています。score[1] は、evaluate メソッドが返す評価指標のうち、正解率（accuracy）に対応する値を取得しています。この値は、モデルがテストデータで正確に予測できた割合を示します。

学習の実行

では、実行していきましょう。実行方法は人それぞれですが、私の場合はCMDでファイル名を入力することで実行しています。

Python

ファイル名.py

モデルの保存

訓練されたニューラルネットワークモデルを”MNIST.h5″ という名前のファイルに保存しましょう。このファイルを後で読み込むことで、モデルを再利用したり、別のプログラムで使用したりすることができます。

Python

#~~~省略~~~~~~~~~~~~~~~~~~~~~~~

model.save("MNIST.h5")

model.save(“MNIST.h5”)
＃model は保存するKerasモデルを指します。
＃.save() メソッドは、指定されたファイル名でモデルを保存します。ここでは、”MNIST.h5″ という名前のファイルにモデルが保存されます。拡張子 .h5 は、HDF5形式で保存されることを示しています。

保存したモデルを使うには

Python

from keras.models import load_model 

model = load_model("MNIST.h5")

hist = model.fit(X_train, y_train, batch_size=200, verbose=1, 
                 epochs=3, validation_split=0.1)

from keras.models import load_model
＃Kerasの models モジュールから load_model 関数をインポートしています。load_model 関数は、保存されたモデルを読み込むために使用されます。

model = load_model(“MNIST.h5”)
＃load_model 関数を使って、”MNIST.h5″ というファイルからモデルを読み込んでいます。読み込まれたモデルは、model 変数に格納されます。

hist = model.fit(X_train, y_train, batch_size=200, verbose=1,
epochs=3, validation_split=0.1)
＃続きから学習を再開することができます。
＃先ほどのコードと同じなので細かい説明は割愛します。

現場で使える！TensorFlow開発入門 Kerasによる深層学習モデル構築手法（AI & TECHNOLOGY） [ 太田満久 ]
価格：2,948円（税込、送料無料) (2024/3/4時点)

まとめ

しゅうりょーー。お疲れさまでした。書籍で原理を学ぶよりも、やっぱり動かしながら学んだ方が楽しいし、頭に入りますよね。

ということで、これからもどんどん実践を積んでいきましょう！

【AI/実践編】WebカメラとAIを連携【衝撃簡単③】

次回

【AI/実践編】MNISTでAIを体験【衝撃簡単①】

管理人 — Fri, 23 Feb 2024 15:05:44 +0000

対象読者
まとめ

対象読者

AIの概要は学んだけど何から作ればいいんだろう。という悩みをお持ちではありませんか？

今日はそんなあなたにピッタリのタスクを紹介します。コーディング自体は数分で終わります。

また、始めたばかりで100％の理解を求める必要はありません。AIはとても深い分野なので、50%理解できたらいいや程度の軽い気持ちで学習を進めましょう。その方が挫折することなく長期間続けられ、結果的にいつか50%の理解が90%以上の理解になる時がきます。

今日は気楽にやっていきましょう！

【AI/実践編】CNNを構築【衝撃簡単②】

次回

【AI/実践編】WebカメラとAIを連携【衝撃簡単③】

次々回

今日のゴール

今日のゴールは下の写真のようにMNISTデータを使って、実際に正解率を出すところまでやっていきます。

また、当ページは@Ka-k(KAI Kenzo)という方の環境構築とMNISTチュートリアルの２ページを参考に書きました。KAIさんは初心者にとても良質な教材を提供されている方です。しかし、結構前に書かれているということもあり、コードが少しだけ古くなっています。

なので、今日はこのサイトを参考にしつつも今風にアレンジしつつ誰でも実装できるように解説していきます。
p.s.赤太字は当サイトで座学として解説済み&解説予定のワードです。

今日使うコード

これが今日の全コードです。理解のために、コードと説明の順番が上下するので、もし迷ったらこちらを参考にしてください。

Python

from keras.datasets import mnist
from keras.models import Sequential
from keras.layers import Dense, Activation
from keras.utils import to_categorical

(X_train, y_train), (X_test, y_test) = mnist.load_data()

model = Sequential()

model.add(Dense(512, input_dim=(784)))
model.add(Activation("relu"))

model.add(Dense(10))
model.add(Activation("softmax"))


model.compile(loss="categorical_crossentropy", optimizer="sgd", metrics=["accuracy"])

X_train = X_train.reshape(60000, 784)/255
X_test = X_test.reshape(10000, 784)/255



y_train = to_categorical(y_train)
y_test = to_categorical(y_test)


hist = model.fit(X_train, y_train, batch_size=200, verbose=1, 
                 epochs=10, validation_split=0.1)　#epoch数はお好みで

score = model.evaluate(X_test, y_test, verbose=1)
print("正解率(acc)：", score[1])

model.save("./ai-first.h5")

仮想環境の構築

まずは仮想環境を作っていきましょう。作れればなんでもいいので、お好みのやり方でやってください。今回、私はコマンドプロンプト（cmd）から作る方法でやっていきます。

python -m venv 仮想環境名　#仮想環境の作成

仮想環境名/Scripts/activate #仮想環境の有効化(Windows version)
source 仮想環境名/bin/activate #仮想環境の有効化(Mac/Linux　version)

cd 仮想環境名/Scripts #Scriptsディレクトリまで移動

echo. > ファイル名.py #Pythonファイルを作成

code . #vsCodeを開く

pythonファイルを作成する場所はactivate.batやactivateと同じディレクトリにしましょう。

仮想環境には以下のメリットがあります。

プロジェクトごとの環境の分離
クリーンアップの容易化

ライブラリのインストール

では、次に必要なライブラリをインストールしていきましょう。これもcmdでやっていきます。

＃ニューラルネットワークやディープラーニングモデルの構築やトレーニングに使用されるライブラリ
pip install tensorflow

＃大規模なデータセットを使うときに用いるパッケージ
pip install h5py

＃モデルの構築、トレーニング、評価、デプロイメントなどを簡素化するライブラリ
pip install keras

＃画像やビデオのキャプチャ、変換、フィルタリング、特徴抽出、物体検出、画像の編集などに使う
pip install opencv-python

MNISTを読み込む

Python

from keras.datasets import mnist

(X_train, y_train), (X_test, y_test) = mnist.load_data()

from keras.datasets import mnist
＃Kerasライブラリの datasets モジュールから mnist データセットをインポートする

(X_train, y_train), (X_test, y_test) = mnist.load_data()
＃mnist データセットから訓練用データとテスト用データを読み込む
＃load_data() メソッドは、MNISTデータセットを読み込み、訓練用の画像データとラベル、テスト用の画像データとラベルをそれぞれ返す
＃訓練用の画像データは X_train に、訓練用のラベルは y_train に、テスト用の画像データは X_test に、テスト用のラベルは y_test にそれぞれ代入される

モデルの準備

空のSequentialモデルを作成して、後で層を追加してニューラルネットワークモデルを構築するための準備を整えます。

Python

from keras.models import Sequential

model = Sequential()

from keras.models import Sequential
＃Kerasライブラリの models モジュールから Sequential クラスをインポートしています。Sequential クラスは、ニューラルネットワークモデルを作成するためのクラスであり、層を直線的に積み重ねて構築されるシンプルなモデルです。

model = Sequential()
＃Sequential クラスのインスタンスを作成し、model 変数に代入しています。これにより、新しいSequentialモデルが作成されます。このモデルは、層を順番に追加していくことで構築されます。

ディープラーニング　学習する機械　ヤン・ルカン、人工知能を語る（KS科学一般書） [ ヤン・ルカン ]
価格：2,750円（税込、送料無料) (2024/3/4時点)

モデルの構築

3層のニューラルネットワークモデルを構築しています。入力層から隠れ層（ReLU）への接続、隠れ層から出力層（Softmax）への接続があります。

【AI/座学編】高頻出な活性化関数まとめ

Python

from keras.layers import Dense, Activation

model.add(Dense(512, input_dim=(784)))
model.add(Activation("relu"))

model.add(Dense(10))
model.add(Activation("softmax"))

from keras.layers.core import Dense, Activation
＃Kerasの layers モジュールから Dense クラスと Activation クラスをインポートしています。Dense クラスは全結合層（密な層）を定義するためのクラスであり、Activation クラスは活性化関数を適用するためのクラスです。

model.add(Dense(512, input_dim=(784)))
＃Dense クラスのインスタンスを作成し、モデルに追加しています。この層は、512個のニューロン（ユニット）を持つ全結合層です。input_dim パラメータは入力の次元を指定しており、784次元の入力を受け取ることを示しています。

model.add(Activation(“relu”))
＃活性化関数としてReLU（Rectified Linear Unit）関数を適用する層をモデルに追加しています。ReLU関数は、入力が0未満の場合は0を、それ以外の場合は入力をそのまま出力する関数であり、非線形性を導入するためによく使用されます。

model.add(Dense(10))
＃2つ目の全結合層を追加しています。この層は10個のニューロンを持ち、出力層として機能します。入力次元は前の層から自動的に推定されるため、input_dim パラメータは省略されています。

model.add(Activation(“softmax”))
＃出力層にSoftmax活性化関数を適用する層を追加しています。Softmax関数は、クラス分類問題で各クラスに対する確率分布を生成するために使用されます。softmax関数によって、モデルの出力が各クラスに対する確率として解釈できるようになります。

モデルをコンパイル

モデルの損失関数としてカテゴリカルクロスエントロピー、最適化アルゴリズムとしてSGD、評価指標として正解率を設定していきます。（これらの設定作業をコンパイルといいます）

【AI/座学編】AIの損失関数３選！

Python

model.compile(loss="categorical_crossentropy", optimizer="sgd", metrics=["accuracy"])

model.compile(loss=”categorical_crossentropy”, optimizer=”sgd”, metrics=[“accuracy”])

＃model.compile　
: モデルをコンパイルするメソッドです。モデルをコンパイルすることで、損失関数や最適化アルゴリズムなどの設定が確定されます。

＃loss="categorical_crossentropy"　
: 損失関数を設定しています。この場合、カテゴリカルクロスエントロピー（categorical crossentropy）が損失関数として指定されています。カテゴリカルクロスエントロピーは、多クラス分類問題で使用される一般的な損失関数であり、予測と真のラベルの間の差異を測定します。

＃optimizer="sgd"　
：最適化アルゴリズムを指定しています。この場合、確率的勾配降下法（Stochastic Gradient Descent, SGD）が最適化アルゴリズムとして指定されています。SGDは、勾配を使ってモデルのパラメータを更新し、損失関数を最小化することを目指します。

＃metrics=["accuracy"]　
: モデルの評価指標を指定しています。この場合、正解率（accuracy）が指定されています。精度は、モデルが正確に予測した割合を示す指標です。

MNISTの前処理

正規化

Kerasでは0.0～1.0までの、float型の配列しか扱いません。また、Dense層が入力として受け取れるのは一次元配列のみです。つまり、MNISTデータセットの画像データ（28×28）を１次元の画像データ、784次元(28×28=784)のベクトルとして表現する必要があります。また、値の範囲を0から1の間に正規化する必要もあります。

＊画像データの次元数とベクトルの次元数は異なる概念です。

Python

X_train = X_train.reshape(60000, 784)/255

X_test = X_test.reshape(10000, 784)/255

X_train = X_train.reshape(60000, 784)/255
＃訓練用の画像データ X_train を再形成しています。元の画像データは28×28ピクセルの2次元配列であり、各ピクセルが0から255の値を取ります（白が0、黒が255）。
＃reshape(60000, 784) は、画像データを60000行784列の2次元配列に変形しています。これにより、各画像が28×28=784次元のベクトルとして表現されます。
＃また、/255 を使って画像のピクセル値を0から1の範囲にスケーリングしています。これは、ニューラルネットワークの入力として扱う際に、値の範囲を正規化するためです。

X_test = X_test.reshape(10000, 784)/255
＃テスト用の画像データ X_test も同様に、同じ処理を施しています。テスト用の画像データも同様に784次元のベクトルに変形され、0から1の範囲にスケーリングされます。

ラベルの修正

Kerasではラベルデータを「バイナリ型」にする必要があります。バイナリ型とはデータを0と１だけで表現することです。つまり、２進数にするということです。つまり、ラベルデータをone-hotエンコーディング形式に変換すればいいのです。

Python

from tensorflow.keras.utils import to_categorical

y_train = to_categorical(y_train)
y_test = to_categorical(y_test)

from tensorflow.keras.utils import to_categorical
＃Kerasの utils モジュールから np_utils をインポートしています。np_utils モジュールには、ニューラルネットワークの学習に使用される便利な関数やユーティリティが含まれています。

y_train = to_categorical(y_train)
＃訓練用のラベルデータ y_train をone-hotエンコーディング形式に変換しています。one-hotエンコーディングでは、各ラベルがベクトルの形式で表現され、対応するインデックスの要素が1であり、それ以外の要素が0となります。これにより、分類問題でのラベルの表現をより適切に扱うことができます。

y_test = to_categorical(y_test)
＃テスト用のラベルデータ y_test も同様に、同じ処理を施しています。すべてのラベルデータがone-hotエンコーディング形式に変換されます。

（Kerasのバージョン2.4.3以降では、keras.utils モジュールから np_utils モジュールが削除されました。そのため、最新のKerasバージョンでは np_utils を使うことはできません。代わりに、ここではkeras.utils モジュールから to_categorical 関数を使用することにしています。）

モデルの訓練

訓練が開始されると、各エポックごとに訓練データと検証データの損失と評価指標が計算され、hist オブジェクトに保存されるようにします。

Python

hist = model.fit(X_train, y_train, batch_size=200, verbose=1, 
                 epochs=3, validation_split=0.1)

hist = model.fit(X_train, y_train, batch_size=200, verbose=1,
epochs=10, validation_split=0.1)

＃hist = model.fit　
: モデルの訓練を開始するためのメソッドです。model は訓練するニューラルネットワークモデルを指します

＃X_train, y_train　
: 訓練用の入力データ X_train とそのラベルデータ y_train を指定しています。このデータはモデルの学習に使用されます。

＃batch_size=200　
: ミニバッチのサイズを指定しています。ミニバッチ学習では、全データセットを小さなバッチに分割し、各バッチごとにモデルのパラメータを更新します。batch_size は1回のパラメータ更新に使用するデータのサンプル数を指定します。

＃verbose=1　
: 訓練中にログメッセージを表示するかどうかを制御します。verbose=1 の場合、進捗バーが表示されます。表示した方がカッコいいですよ。（笑）

＃epochs=3　
: エポック数を指定しています。1つのエポックとは、全ての訓練データを1回学習することを指します。epochs パラメータは、モデルが訓練データを何回反復して学習するかを指定します。

#validation_split=0.1　
: 検証データの割合を指定しています。訓練データの一部を検証に使用します。この場合、訓練データの10%が検証に使用されます。訓練中にモデルの性能を監視し、過学習を防ぐために使用されます

モデルの評価

先ほど訓練したモデルをテストデータを使って評価していきます。

Python

score = model.evaluate(X_test, y_test, verbose=1)
print("正解率(acc)：", score[1])

学習の実行/中断

では、実行していきましょう。実行方法は人それぞれですが、私の場合はCMDでファイル名を入力することで実行しています。

Python

#実行
ファイル名.py

#中断する時は
CtrlキーとCキーを同時押ししましょう！

学習済みモデルの保存

Python

model.save("MNIST.h5")

保存したモデルを使うには

Python

from keras.models import load_model 

model = load_model("MNIST.h5")

hist = model.fit(X_train, y_train, batch_size=200, verbose=1, 
                 epochs=3, validation_split=0.1)

まとめ

おわり。お疲れさまでした。でも、意外と想像より簡単だったんじゃないですか？

また、今は100％の理解じゃなくもいいです。こーやって今日みたいに手を動かしていくことを繰り返していけば、必ず上達します。それがAscendBeyond式です。

ということで、これからもどんどん実践を積んでいきましょう！次回は畳み込み層を追加してより、画像処理の性能を向上させていきましょう！

【AI/実践編】CNNを構築【衝撃簡単②】

【AI/実践編】WebカメラとAIを連携【衝撃簡単③】

次々回

【AI/実践編】生成AI-GANを実装【衝撃簡単④】