因為組裡k8s大佬濃度不夠,最後用了Nomad來做容器編排。開個文章記錄一下踩過的坑:

network allocation配額沒有明確的提示

Nomad的文檔以及各種Grafana dashboard都沒有提到node上的network allocation其實是有上限的,雖然metrics里是有這一項的(nomad_client_allocated_network/nomad_client_unallocated_network)。具體如何計算尚不明確,可能需要看代碼。我們的EC2上有看到500Mb和1000Mb的上限。

如果不指定,默認每個task佔用100Mb的速度(見文檔),這是一個硬上限,如果node完全被allocate的時候,超過這個限制的容器會被限速。個人覺得Nomad的這個設計是坑爹的,網速這類資源相比於CPU和內存是更加體現突發的特性的,如果只能設置硬性上限,利用率顯然會非常低。這個是上個世紀的QoS了吧。

allocation啟動時的template re-render

這是一個bug:https://github.com/hashicorp/nomad/issues/5459。如果用了集成的consul-template來做服務發現,某些情況下可能在allocation啟動過程中觸發re-render,從而nomad client向容器發送信號;但當容器還沒起來的時候,nomad client會拒絕發送信號並且把這個容器幹掉,並且不會嘗試重新啟動

也不知道是哪個神仙想出來的這種奇葩設計。

system類型的task

如果一個task是system類型, 那它會在所有滿足條件的node上運行。但是它默認的restart參數很容易會因為一些臨時性的錯誤讓整個task掛掉,我們重新設置了restart參數

容器里的單個端口無法映射成多個端口

docker里我們可以把容器里的一個端口映射成任意多個端口;但是nomad無法做到,看起來像是處理job definition時的一個bug(issue鏈接)。

下面的配置,只有8001端口會被映射;http1這個端口在port_map里被http2覆蓋了。

下面的配置不會報錯,但是仍然只有8001會被映射。

解決的辦法是在容器內開多個端口,分別映射到不同的外部端口。