HSPTV!掲示板

スレッド一覧 | 新規書き込み | 新着一覧 | 使い方 | 過去ログ

未解決

解決

停止

削除要請


	2021 0110	あっすん	テキストの書き込み速度について	2

あっすん

2021/1/10(Sun) 21:57:09|NO.92040

1行だいたい150文字程度で行数が平均で5000行、多い時は最高で60000行くらいになる
テキストデータの先頭から1行づつ読み込んで処理を加えて同データに上書き、
または別バッファに先頭から追加していく、と言う処理について質問なのですが、

最初は実験でnoteget命令で1行読み込んで読み込んだその1行を元のデータにnoteadd命令で
上書きと言う具合でやってみたのですが処理がとても遅かったので検索をしまして
http://www.hspcenter.com/hsptvm/archives/2007/03/hsp3_17.html
上記URLを参考にgetstr命令を使用して1行づつ読み込んだらとても早くて良かったのですが
読み込んだ1行に処理を加えたあと、同バッファへnoteadd命令で上書き、または
別バッファへ先頭から追加していく処理がどちらも相変わらず遅くて困っています。
何か早くなる方法がありますでしょうか？
ちなみに参考にしているソフトですと大体5000行くらいですと2、3秒程度で全ての処理が
終わってしまいます。そこまで早くなくともできれば今よりは早くなれば助かります。



	loop_cnt = 5000
	sdim text,10000

// 簡易的に5000行のテキストデータ作成

	repeat loop_cnt
		text = text + "aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa\n"
		title "" + cnt
	await
	loop


	button "実行！",*gogo

	stop

*gogo

	sdim aaa,10000

	repeat
	getstr data,text,index,0 ; １行づつ取り出す	
	index=index+strsize ; 次の取り出し位置に移動
	if strsize=0 : break ; サイズが0ならば終了

	aaa = aaa + "--" + data + "\n" ; 処理施してaaaバッファへ追加書き込み

	title "" + cnt
	await
	loop

	mes "終了"

	stop

この記事に返信する

ベイン

2021/1/10(Sun) 23:25:14|NO.92041

結論からいうと次のようにやると高速にできます。
(これは「簡易的に5000行のテキストデータ作成」の部分ですが、*gogo の方も同様です。)



	loop_cnt = 5000

	sdim text, 10000
	text_len = 0  ; text の長さ

	repeat loop_cnt
		; text に追加する文字列
		new_line = "aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa\n"
		new_line_len = strlen(new_line)

		; poke 命令で変数のサイズを超えて書き込むとエラーになるので、変数の領域を拡張する。
		if text_len + new_line_len >= varsize(text) {
			memexpand text, (text_len + new_line_len + 1) * 2
		}

		; text の末尾に文字列を書き込む。
		poke text, text_len, new_line
		text_len += new_line_len
	loop

	; 念のため 5000 行書かれたことを確認
	notesel text
	mes notemax

----

解説:

文字列を書き込む先の変数 text に加えて、
それの長さを覚えておくための変数 text_len を追加します。
常に strlen(text) == text_len が成り立つようにしておくことで、
strlen(text) の計算を省略するためです。
text を変更する際は text_len も同時に変更する必要があるので、注意してください。



	sdim text, 10000
	text_len = 0  ; text の長さ

次に、text に文字列を追記するときの処理です。
追記する文字列の長さを何度か使うので、変数 (new_line_len) に入れています。



	; text に追加する文字列
	new_line = "aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa\n"
	new_line_len = strlen(new_line)

後で poke 命令を使うのですが、これは変数のメモリを自動では拡張しないので、
追記した文字列が text の残りのメモリに収まらないとエラーになってしまいます。
そのため、 memexpand 命令を使って text のメモリを拡張します。
ここでは、文字列を追記した後に必要な大きさ (text_len + new_line_len + 1) がメモリサイズを超える場合は、
変数のメモリをその2倍の大きさまで拡張しています。(詳細は後述)



	; poke 命令で変数のサイズを超えて書き込むとエラーになるので、変数の領域を拡張する。
	if text_len + new_line_len >= varsize(text) {
		memexpand text, (text_len + new_line_len + 1) * 2
	}

最後に poke 命令を使って、text の末尾に文字列を書き込みます。
先ほど書いたように text_len も変更が必要です。



		; text の末尾に文字列を書き込む。
		poke text, text_len, new_line
		text_len += new_line_len

なぜこれが速いか:

noteadd 命令は文字列の末尾を探すために strlen(text) に相当する計算を行っているのですが、
これは text の長さに比例して時間がかかるので、文字列が長くなってくると遅いです。
poke は書き込む位置をパラメータで直接指定できるので、この計算を省略できる、というのが理由です。

----

memexpand のメモリの計算式について:

memexpand 命令自体は、文字列全体をコピーする可能性があるので時間がかかります。
変数のメモリをぴったりにしてしまうと、ループのたびに memexpand が実行されることになり、
全体としてかなり時間がかかります。
ここではメモリを倍々に拡張していくことで memexpand が必要になる機会を少なくしています。

----

詳細は以下の記事も参照:

[HSP3 文字列のひみつ](https://www.onionsoft.net/hsp/v36/doclib/hsp3str.htm)
[文字列の扱い](http://prograpark.ninja-web.net/HSP/other/proc_string.html)

あっすん

2021/1/12(Tue) 11:29:05|NO.92047

ベイン様
返信ありがとうございます！
教えて頂いたスクリプトを参考に今製作しているプログラムに組み込んだ所、
約60000行のテキストファイルも数秒で処理する事ができてあまりの速さに驚いております！！
教えて頂いて本当にありがとうございました！