1號晚上聽到兩聲春雷,我覺得它是在告訴我,春天到了,該發點什麼了。
我說好啊好啊,這就來發博客。
我們先來看這段網頁:
因為組裡k8s大佬濃度不夠,最後用了Nomad來做容器編排。開個文章記錄一下踩過的坑:
Nomad的文檔以及各種Grafana dashboard都沒有提到node上的network allocation其實是有上限的,雖然metrics里是有這一項的(nomad_client_allocated_network/nomad_client_unallocated_network)。具體如何計算尚不明確,可能需要看代碼。我們的EC2上有看到500Mb和1000Mb的上限。
如果不指定,默認每個task佔用100Mb的速度(見文檔),這是一個硬上限,如果node完全被allocate的時候,超過這個限制的容器會被限速。個人覺得Nomad的這個設計是坑爹的,網速這類資源相比於CPU和內存是更加體現突發的特性的,如果只能設置硬性上限,利用率顯然會非常低。這個是上個世紀的QoS了吧。
這是一個bug:https://github.com/hashicorp/nomad/issues/5459。如果用了集成的consul-template來做服務發現,某些情況下可能在allocation啟動過程中觸發re-render,從而nomad client向容器發送信號;但當容器還沒起來的時候,nomad client會拒絕發送信號並且把這個容器幹掉,並且不會嘗試重新啟動。
也不知道是哪個神仙想出來的這種奇葩設計。
如果一個task是system類型, 那它會在所有滿足條件的node上運行。但是它默認的restart參數很容易會因為一些臨時性的錯誤讓整個task掛掉,我們重新設置了restart參數
1 2 3 4 5 6 |
restart { attempts = 60 # attempts no more than interval / delay mode = "delay" delay = "5s" interval = "5m" } |
docker里我們可以把容器里的一個埠映射成任意多個埠;但是nomad無法做到,看起來像是處理job definition時的一個bug(issue鏈接)。
下面的配置,只有8001埠會被映射;http1這個埠在port_map里被http2覆蓋了。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 |
job "test" { group "test" { task "test" { driver = "docker" config { image = "nginx:latest" port_map = { http1 = 80 http2 = 80 } } resources { network { port "http1" { static = 8000 } port "http2" { static = 8001 } } } } } } |
下面的配置不會報錯,但是仍然只有8001會被映射。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 |
job "test" { group "test" { task "test" { driver = "docker" config { image = "nginx:latest" port_map = { http1 = 80 } } resources { network { port "http1" { static = 8000 static = 8001 } } } } } } |
解決的辦法是在容器內開多個埠,分別映射到不同的外部埠。
遠古bug: https://github.com/hashicorp/terraform-provider-nomad/issues/1
如果在terraform外部修改了nomad的job定義,在terraform provider里是無法檢測到的。
不是很懂那我有它何用?
因為MaxMind不再更新v1版的GeoIP資料庫,所以自己從v2的CSV文件轉格式。
使用的工具是https://github.com/fffonion/geolite2legacy。
城市和ASN資料庫可以從這裡下載,每日更新。也可以直接使用cidr.me來查詢,使用方法可以參閱這篇文章。
ASN數據來自HE BGP toolkit,可以同時查詢上一級的ASN。使用的工具是https://github.com/fffonion/GeoIPASNum-Generator。
另外這個老哥也有(每月?)更新的資料庫,但是IPv6+IPv4的資料庫有問題,應該用的是上游的轉換腳本(騙了個PR)。
注意從2019年12月30日開始,需要使用License Key下載資料庫。
附更新腳本:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 |
#!/bin/bash D=$(dirname $(readlink -f $0)) T=$(mktemp -d) cd $T F=GeoLite2-City L=GeoLiteCityv6 # create license key from https://www.maxmind.com/en/accounts/current/license-key LICENSE=xxxxx wget "https://download.maxmind.com/app/geoip_download?edition_id=${F}-CSV&license_key=${LICENSE}&suffix=zip" -O ${F}-CSV.zip unzip ${F}-CSV.zip rm ${F}-CSV.zip cd ${F}-CSV_*/ tail -n+2 ${F}-Blocks-IPv4.csv | awk -F, '{ split($1,a,"/"); split(a[1],a1,"."); m = 96+a[2]; printf("::ffff:%02x%02x:%02x%02x/%d,%s,%s,%s,%s,%s,%s,%s,%s\n"),a1[1],a1[2],a1[3],a1[4],m,$2,$3,$4,$5,$6,$7,$8,$9}' >> ${F}-Blocks-IPv6.csv ls -lht cd $T zip ${F}-CSV.zip ${F}-CSV_*/* python $D/geolite2legacy/geolite2legacy.py -i $T/${F}-CSV.zip -o $T/GeoLiteCity.dat -f /home/wow/geolite2legacy/geoname2fips.csv python $D/geolite2legacy/geolite2legacy.py -i $T/${F}-CSV.zip -o $T/GeoLiteCityv6.dat -f /home/wow/geolite2legacy/geoname2fips.csv -6 for L in GeoLiteCityv6 GeoLiteCity; do if [[ -s $T/${L}.dat ]]; then cp $T/${L}.dat $D fi done rm -rf $T |