間宮 様
ご助言ありがとうございます。soyogiです。
ML何年かぶりなので、返信方法間違ってたらすみません。
それと、差出人に名前出てるのでHNは意味なかったですね(^^;;
>てみたところではCookieやセッション情報の設定が見当たらないので、対応
>していない可能性がありそうです。
そうなのですよねぇ。
googleで検索して何年か前のHyperEstraierのMLの情報で、同じような内容だと
思われる「cookieを使うサイトのクローリング」というのがHITするのですが、
ページがNot foundで見れませんでした。
> Proxyは使えるみたいなのでそちらで回避させるか、wget等の認証対応して
> いるダウンローダで対象サイトを一旦HTML保存し、そのファイルをestcmdで
> 登録してはいかがでしょう?
wgetを試してみて、認証も通ってHTMLファイルとしてGET出来るようになった
のですが、よくよく考えると、コンテンツの二重管理になってしまうのですよね。
(先にも書きましたがXOOPSというCMSは、DBでコンテンツ内容を保持している為)
私も、会員側のコンテンツをHTMLとして保存してestcmdでやろうと一度考えたの
ですが、それと同じ意味になってしまいますよね。
会員側コンテンツも現状で数百ページなので、現実的ではないかもしれません…
あとは、インデックスを作る時だけ、XOOPSの管理画面で一旦会員権限を全ての
コンテンツから外した状態でestwaverをかける位でしょうか。。。
でも、ML見てご意見頂けて感謝しております。ありがとうございます。
>
> (2012/06/22 12:52), Masato Ogasawara wrote:
> > 初めて投稿させて頂きます。soyogiと申します。
> >
> > 過去記事をうまく検索できていない可能性もありますが、同様の記事が
> > 見当たらなかったので質問させて下さい。
> > (既出でしたらすみません)
> >
> > 現在、以下の環境で検証を行っております。
> > Windows Server 2008 SP2
> > Apache 2.0.64
> > HyperEstraier 1.4.13(Win版)
> > ここに、XOOPSというCMSを動かしており、公開側、会員側と分けた
> > コンテンツを管理しています。
> >
> > やりたい事は、「会員側ログインでHyperestraierを使えるようにして
> > PDFやコンテンツの検索を行いたい」のですが、認証がBASIC認証ではなく
> > idとpassを入れてuser.phpというものにsubmitしてログインする形になります。
> >
> > 公開側のXOOPSコンテンツはestwaverで取得できております。
> > 会員側もPDF文書に関しては、estcmdによってインデックス作成をしたので
> > WEB上(会員側で)で検索ができます。
> >
> > 問題は、会員側のXOOPSコンテンツをestwaverで取得できていないのです。
> > XOOPSコンテンツはHTMLではなくDBにあるためURLが
> > http://www.example.co.jp/index.php?content_id=xxx
> > という形になります。
> >
> > Apacheの.htaccessやrobots.txtにHyperestraierのUser-agentを指定して
> > 会員側フォルダにクロールする事はできたので試しに
> > estwaverのconf内、seedに会員側フォルダにテスト的に置いたHTMLを
> > 直指定したら取得はできました。
> >
> > estwaver fetch で、XOOPSのログインURLであるusr.phpに対してidとpassを
> > 引数で与えてcrawlさせたところ、login successfullにはなるのですが取得したい
> > ページへは遷移できません。
> >
> > DBから情報を抜き出してインデックス化する方法しかないでしょうか…
> >
> > もし、何かやり方や、こうやってみたらという方法がありましたら
> > お知恵を拝借できませんでしょうか。
> >
> > よろしくお願いいたします。
>
> --
> ----
> Kentarou Mamiya (Mami Tuchino)
> mami@...
> Twitter@...
>
> ---
> --
>
>
>
> ------------------------------------------------------------------------------
> Live Security Virtual Conference
> Exclusive live event will cover all the ways today's security and
> threat landscape has changed and how IT managers can respond. Discussions
> will include endpoint security, mobile security and the latest in malware
> threats. http://www.accelacomm.com/jaw/sfrnl04242012/114/50122263/
> _______________________________________________
> hyperestraier-users-ja mailing list
> hyperestraier-users-ja@...
> https://lists.sourceforge.net/lists/listinfo/hyperestraier-users-ja
|