1ノード構成でのインストール

構築の準備

  • マシンの要件に合わせた設定をしてください
  • CPU8 コアメモリ 32GB 以上を推奨します

構築ツールのセットアップ

  • インストール対象マシンにログインします。
  • sudo su -を実行し、root ユーザーになります
  • mkdir -p /var/lib/kamonohashi/ && cd /var/lib/kamonohashi/ を実行します
  • git clone https://github.com/KAMONOHASHI/deploy-tools.git -b 2.2.1.0 --recursiveを実行してデプロイスクリプトを入手します
  • /var/lib/kamonohashi/deploy-tools/に移動します
  • プロキシ環境下では次のファイルにプロキシ設定を記載してください
    • ./deepops/scripts/proxy.sh
    • no_proxy にはlocalhost,127.0.0.1,.cluster.local,使用するマシンのIPアドレス・ホスト名の記載をしてください
  • ./deploy-kamonohashi.sh prepareを実行して構築に必要なソフトウェアをインストールします
    • ansible でエラーが出る場合は ansible のアンインストールを実行してからprepareを実行してください
      • スクリプト実行中に適切な ansible がインストールされます

デプロイ構成の設定

./deploy-kamonohashi.sh configure single-nodeを実行します。

対話形式で聞かれる以下の内容を入力します

質問文 解説
SSH で利用するユーザー名: 構築時に使用する SSH ユーザーを指定します。構築ツールが SSH 経由で構築を行う仕様のため、指定が必要になります

入力内容に応じ、以下の設定ファイルに書き込みが行われます

  • deepops の設定ファイル(deepops/config/inventry)
  • kamonohashi の設定ファイル(kamonohashi/conf/settings.yml)

設定内容をカスタマイズする場合は次を参照し、設定ファイルの編集を行ってください。 カスタマイズ設定ガイド

デプロイの実行

./deploy-kamonohashi.sh deploy allを実行します。 この際にデプロイ構成の設定で指定したユーザーで SSH が実行されます。 指定したユーザーでの SSH にパスワードが必要な場合は-k、 指定したユーザーでの sudo にパスワードが必要な場合は-Kのオプションを指定します。

例: ./deploy-kamonohashi.sh deploy all -k -K

  • ssh キーを~/.ssh/id_rsa で配置している場合は、ペアの id_rsa.pub も~/.ssh に配置してください

実行後、対話形式で聞かれる以下の内容を入力します

質問文 解説
Admin Password を入力: KAMONOHASHI の admin アカウントで使用する 8 文字以上のパスワードです。数字のみのパスワードは使用不可となっているので注意してください。KAMONOHASHI Web UI ログイン・DB 接続、Object Storage へのログインに使用します。
一度構築に使用したパスワードはデプロイツールでは変更できません。パスワードを変える場合は、完全にデータを削除するか、パスワード変更手順を実施する必要があります。パスワード変更手順はkamonohashi-support@jp.nssol.nipponsteel.comにお問い合わせください。
SSH password: 構築時に使用する、ssh ユーザーのパスワードです。-k指定時のみ聞かれます
SUDO password[defaults to SSH password]: 構築時に使用する、ssh ユーザーの sudo パスワードです。-K指定時のみ聞かれます。

入力後に構築が始まります。

初回は GPU ドライバのインストール後に再起動されます。
再起動後 root ユーザーでログインしなおし、再度デプロイスクリプトを実行してください。

cd /var/lib/kamonohashi/
./deploy-kamonohashi.sh deploy all

構築には 20 分程かかります。

  • 構築時に次のエラーが出ることがあります

    fatal: [localhost]: FAILED! => {"changed": false, "msg": "Failed to get client due to HTTPConnectionPool(host='localhost', port=80): Max retries exceeded with url: /version (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x7f6f87772f10>: Failed to establish a new connection: [Errno 111] Connection refused'))"}
    

    これはdeepopsの依存パッケージのバグであり、次のコマンドを実行したのちにdeploy allを再実行すると構築が進みます

    source /opt/deepops/venv/bin/activate
    pip uninstall Kubernetes
    pip uninstall openshift
    pip install openshift==0.11.2
    
  • DGX 利用時のみ、構築後に次の作業を行ってください

rm /etc/systemd/system/docker.service.d/docker-override.conf

これは構築に使用する NVIDIA deepops のバグで、20.02.1 の次の deepops のリリースがされれば対応される見込みです。

構築後にアクセス用の URL が表示されるので、それをブラウザで開きます