1号晚上听到两声春雷,我觉得它是在告诉我,春天到了,该发点什么了。
我说好啊好啊,这就来发博客。
我们先来看这段网页:
因为组里k8s大佬浓度不够,最后用了Nomad来做容器编排。开个文章记录一下踩过的坑:
Nomad的文档以及各种Grafana dashboard都没有提到node上的network allocation其实是有上限的,虽然metrics里是有这一项的(nomad_client_allocated_network/nomad_client_unallocated_network)。具体如何计算尚不明确,可能需要看代码。我们的EC2上有看到500Mb和1000Mb的上限。
如果不指定,默认每个task占用100Mb的速度(见文档),这是一个硬上限,如果node完全被allocate的时候,超过这个限制的容器会被限速。个人觉得Nomad的这个设计是坑爹的,网速这类资源相比于CPU和内存是更加体现突发的特性的,如果只能设置硬性上限,利用率显然会非常低。这个是上个世纪的QoS了吧。
这是一个bug:https://github.com/hashicorp/nomad/issues/5459。如果用了集成的consul-template来做服务发现,某些情况下可能在allocation启动过程中触发re-render,从而nomad client向容器发送信号;但当容器还没起来的时候,nomad client会拒绝发送信号并且把这个容器干掉,并且不会尝试重新启动。
也不知道是哪个神仙想出来的这种奇葩设计。
如果一个task是system类型, 那它会在所有满足条件的node上运行。但是它默认的restart参数很容易会因为一些临时性的错误让整个task挂掉,我们重新设置了restart参数
1 2 3 4 5 6 |
restart { attempts = 60 # attempts no more than interval / delay mode = "delay" delay = "5s" interval = "5m" } |
docker里我们可以把容器里的一个端口映射成任意多个端口;但是nomad无法做到,看起来像是处理job definition时的一个bug(issue链接)。
下面的配置,只有8001端口会被映射;http1这个端口在port_map里被http2覆盖了。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 |
job "test" { group "test" { task "test" { driver = "docker" config { image = "nginx:latest" port_map = { http1 = 80 http2 = 80 } } resources { network { port "http1" { static = 8000 } port "http2" { static = 8001 } } } } } } |
下面的配置不会报错,但是仍然只有8001会被映射。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 |
job "test" { group "test" { task "test" { driver = "docker" config { image = "nginx:latest" port_map = { http1 = 80 } } resources { network { port "http1" { static = 8000 static = 8001 } } } } } } |
解决的办法是在容器内开多个端口,分别映射到不同的外部端口。
远古bug: https://github.com/hashicorp/terraform-provider-nomad/issues/1
如果在terraform外部修改了nomad的job定义,在terraform provider里是无法检测到的。
不是很懂那我有它何用?
因为MaxMind不再更新v1版的GeoIP数据库,所以自己从v2的CSV文件转格式。
使用的工具是https://github.com/fffonion/geolite2legacy。
城市和ASN数据库可以从这里下载,每日更新。也可以直接使用cidr.me来查询,使用方法可以参阅这篇文章。
ASN数据来自HE BGP toolkit,可以同时查询上一级的ASN。使用的工具是https://github.com/fffonion/GeoIPASNum-Generator。
另外这个老哥也有(每月?)更新的数据库,但是IPv6+IPv4的数据库有问题,应该用的是上游的转换脚本(骗了个PR)。
注意从2019年12月30日开始,需要使用License Key下载数据库。
附更新脚本:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 |
#!/bin/bash D=$(dirname $(readlink -f $0)) T=$(mktemp -d) cd $T F=GeoLite2-City L=GeoLiteCityv6 # create license key from https://www.maxmind.com/en/accounts/current/license-key LICENSE=xxxxx wget "https://download.maxmind.com/app/geoip_download?edition_id=${F}-CSV&license_key=${LICENSE}&suffix=zip" -O ${F}-CSV.zip unzip ${F}-CSV.zip rm ${F}-CSV.zip cd ${F}-CSV_*/ tail -n+2 ${F}-Blocks-IPv4.csv | awk -F, '{ split($1,a,"/"); split(a[1],a1,"."); m = 96+a[2]; printf("::ffff:%02x%02x:%02x%02x/%d,%s,%s,%s,%s,%s,%s,%s,%s\n"),a1[1],a1[2],a1[3],a1[4],m,$2,$3,$4,$5,$6,$7,$8,$9}' >> ${F}-Blocks-IPv6.csv ls -lht cd $T zip ${F}-CSV.zip ${F}-CSV_*/* python $D/geolite2legacy/geolite2legacy.py -i $T/${F}-CSV.zip -o $T/GeoLiteCity.dat -f /home/wow/geolite2legacy/geoname2fips.csv python $D/geolite2legacy/geolite2legacy.py -i $T/${F}-CSV.zip -o $T/GeoLiteCityv6.dat -f /home/wow/geolite2legacy/geoname2fips.csv -6 for L in GeoLiteCityv6 GeoLiteCity; do if [[ -s $T/${L}.dat ]]; then cp $T/${L}.dat $D fi done rm -rf $T |