抽象化するとユーザーの入力を読み込んで決まった処理して画像を作るだけなので、原理的にはHSPでも作れますが、
しかし、最近一般に使われてるような高性能な画像生成AIを全部自分で作るには、
ざっと見積もって専門の大学院生レベルの知識と数百〜数千万円くらいの計算資源が必要で、
現実的にはかなり厳しいです。
とはいえ既存のAIモデルやライブラリを利用してカスタマイズすることは可能です。
質問ではやりたいことや作りたいことや欲しいことが曖昧なので
既存のオープンソースのソフトを使ってみて、
どこか不満あるのか、どこかHSPでカスタマイズしたいのか、
あるいは勉強がてら全部実装したいのか、
AIモデルを学習したいのか、既にあるAIモデルの推論をしたいのかとか、
ある程度絞った質問だと答えやすいと思います。
画像生成のフリーソフト
https://github.com/AUTOMATIC1111/stable-diffusion-webui
画像生成用のPythonライブラリ
https://huggingface.co/docs/diffusers/ja/index
あと実際にAIモデルから自作するんだとすると
ゼロから作るDeep Learningシリーズとか
https://www.amazon.co.jp/dp/4814400594/
サーベイ論文とか
https://arxiv.org/abs/2209.04747v2
が良いかも。
例えば、↑のstable-diffusion-webuiはWeb API機能もあるので、ローカルで立ち上げておいて、
HSPでプロンプトや元画像を描いて、hspinetやhttploadで呼ぶのは、多分そんなに難しくありません。