def 小児科医():

かけだし小児科医が仕事の合間にプログラミングを勉強するブログです。

正規表現で論文のアブストラクトを見やすくする話。


前回学んだ正規表現でなんか作れないかなーと模索。

defpediatric.hatenablog.com

色々考えた結果、論文のアブストラクトをチョイみやすくする、くらいしか思い浮かばなかった。

 

www.nejm.jp例えばNEJMのアブストラクトを見てみると、

背景

動脈管開存症PDA)の乳児にはシクロオキシゲナーゼ阻害薬が用いられることが多いが,その利益は明らかにされていない.

方 法

多施設共同非劣性試験で,心エコーで PDA(動脈管径 1.5 mm 超,左右短絡を伴う)が確認された超早産児(在胎 28 週未満)を,待期的管理を行う群と,早期にイブプロフェン投与を行う群に無作為に割り付けた.主要転帰は,最終月経後週齢 36 週の時点での,壊死性腸炎(ベル分類 IIa 期以上),中等度~重度の気管支肺異形成症,死亡の複合とした.待期的管理の早期イブプロフェン投与に対する非劣性は,絶対リスク差の片側 95%信頼区間の上限が 10 パーセントポイントを下回る場合に示されることとした.

結 果

273 例が無作為化された.在胎期間の中央値は 26 週,出生体重の中央値は 845 g であった.主要転帰イベントは,待期的管理群では 136 例中 63 例(46.3%)に発生し,早期イブプロフェン群では 137 例中 87 例(63.5%)に発生した(絶対リスク差 -17.2 パーセントポイント,片側 95%信頼区間 [CI] の上限 -7.4,非劣性の P<0.001).壊死性腸炎は,待期的管理群の 136 例中 24 例(17.6%)と,早期イブプロフェン群の 137 例中 21 例(15.3%)に発生した(絶対リスク差 2.3 パーセントポイント,両側 95% CI -6.5~11.1).気管支肺異形成症は,それぞれ 117 例中 39 例(33.3%)と 112 例中 57 例(50.9%)に発生した(絶対リスク差 -17.6 パーセントポイント,両側 95% CI -30.2~-5.0).死亡は,それぞれ 136 例中 19 例(14.0%)と 137 例中 25 例(18.2%)に発生した(絶対リスク差 -4.3 パーセントポイント,両側 95% CI -13.0~4.4).その他の有害転帰の発生率は 2 群で同程度であった.

結 論

超早産児の PDA に対する待期的管理は,最終月経後週齢 36 週の時点での壊死性腸炎,気管支肺異形成症,死亡に関して,早期イブプロフェン投与に対して非劣性であった.(オランダ健康研究開発機構,ベルギーヘルスケアナレッジセンターから研究助成を受けた.BeNeDuctus 試験:ClinicalTrials.gov 登録番号 NCT02884219,EudraCT 登録番号 2017-001376-28)

 

まぁなんか改行されてないのと、カッコ書きが多くて見づらい。

本当に読む時は() 内の内容が大事だったりするんだけど、アブストラクト見て「なんか面白そうなのないかなー」と探している時にこれは見にくい。

 

んで今回書いたコードが

import re
import pyperclip

TEXT = pyperclip.paste()
line_regex = re.compile('.*?')
shape_line = line_regex.sub('', TEXT)
line_regex2 = re.compile(r'\')
shape_line2 = line_regex2.sub('\n', shape_line)
print(shape_line2)
TEXT = pyperclip.paste()

クリップボードにコピーした内容を取得

line_regex = re.compile('.*?')
shape_line = line_regex.sub('', TEXT)

まずはカッコ書きを消す。デフォルトでは貪欲マッチ(この場合最も長い文でマッチ)になってしまうので、最初の"("から文章の最後の")"まで全部消えてしまう。

なので"?"を入れることで非貪欲マッチにしておく。

line_regex2 = re.compile(r'\')
shape_line2 = line_regex2.sub('\n', shape_line)

次に"."を改行に変換。

 

以上のプログラムを実行。

 

背景

動脈管開存症の乳児にはシクロオキシゲナーゼ阻害薬が用いられることが多いが,その利益は明らかにされていない

方 法

多施設共同非劣性試験で,心エコーで PDAが確認された超早産児を,待期的管理を行う群と,早期にイブプロフェン投与を行う群に無作為に割り付けた
主要転帰は,最終月経後週齢 36 週の時点での,壊死性腸炎,中等度~重度の気管支肺異形成症,死亡の複合とした
待期的管理の早期イブプロフェン投与に対する非劣性は,絶対リスク差の片側 95%信頼区間の上限が 10 パーセントポイントを下回る場合に示されることとした

結 果

273 例が無作為化された
在胎期間の中央値は 26 週,出生体重の中央値は 845 g であった
主要転帰イベントは,待期的管理群では 136 例中 63 例に発生し,早期イブプロフェン群では 137 例中 87 例に発生した
壊死性腸炎は,待期的管理群の 136 例中 24 例と,早期イブプロフェン群の 137 例中 21 例に発生した
気管支肺異形成症は,それぞれ 117 例中 39 例と 112 例中 57 例に発生した
死亡は,それぞれ 136 例中 19 例と 137 例中 25 例に発生した
その他の有害転帰の発生率は 2 群で同程度であった

結 論

超早産児の PDA に対する待期的管理は,最終月経後週齢 36 週の時点での壊死性腸炎,気管支肺異形成症,死亡に関して,早期イブプロフェン投与に対して非劣性であった

まぁ、ちょっとだけみやすくなった?

なんか思ったより大したものは作れなかった。もっと勉強したら色々できるんかな。

 

そしてやっぱりPDAに予防的イブリーフは意味ないんだな。まぁ効果あったらインダシンいらなくなるけど。。。