hostlist support in tpws

This commit is contained in:
bolvan 2018-06-06 20:58:07 +03:00
parent 690f50383f
commit 304da3fc2f
9 changed files with 334 additions and 119 deletions

Binary file not shown.

Binary file not shown.

Binary file not shown.

View File

@ -91,3 +91,7 @@ tpws : added options unixeol,methodeol,hosttab
v18 v18
tpws,nfqws : added hostnospace option tpws,nfqws : added hostnospace option
v19
tpws : added hostlist option

24
ipset/get_hostlist.sh Executable file
View File

@ -0,0 +1,24 @@
#!/bin/sh
# get domain list. not IP
SCRIPT=$(readlink -f $0)
EXEDIR=$(dirname $SCRIPT)
. "$EXEDIR/def.sh"
ZREESTR=$TMPDIR/zapret.txt
#ZURL=https://reestr.rublacklist.net/api/current
ZURL=https://raw.githubusercontent.com/zapret-info/z-i/master/dump.csv
curl -k --fail --max-time 300 --max-filesize 41943040 "$ZURL" >$ZREESTR ||
{
echo reestr list download failed
exit 2
}
dlsize=$(wc -c "$ZREESTR" | cut -f 1 -d ' ')
if test $dlsize -lt 204800; then
echo list file is too small. can be bad.
exit 2
fi
(cut -s -f2 -d';' $ZREESTR | grep -a . | sed -re 's/^\*\.(.+)$/\1/' | awk '{ print tolower($0) }' ; cat $ZUSERLIST ) | sort -u >$ZHOSTLIST
rm -f $ZREESTR

View File

@ -1,4 +1,4 @@
zapret v.17 zapret v.19
Для чего это надо Для чего это надо
----------------- -----------------
@ -100,6 +100,7 @@ nfqws
--qnum=200 ; номер очереди --qnum=200 ; номер очереди
--wsize=4 ; менять tcp window size на указанный размер --wsize=4 ; менять tcp window size на указанный размер
--hostcase ; менять регистр заголовка "Host:" по умолчанию на "host:". --hostcase ; менять регистр заголовка "Host:" по умолчанию на "host:".
--hostnospace ; убрать пробел после "Host:" и переместить его в конец значения "User-Agent:" для сохранения длины пакета
--hostspell=HoST ; точное написание заголовка Host (можно "HOST" или "HoSt"). автоматом включает --hostcase --hostspell=HoST ; точное написание заголовка Host (можно "HOST" или "HoSt"). автоматом включает --hostcase
Параметры манипуляции могут сочетаться в любых комбинациях. Параметры манипуляции могут сочетаться в любых комбинациях.
@ -117,9 +118,13 @@ tpws - это transparent proxy.
--hostspell=HoST ; точное написание заголовка Host (можно "HOST" или "HoSt"). автоматом включает --hostcase --hostspell=HoST ; точное написание заголовка Host (можно "HOST" или "HoSt"). автоматом включает --hostcase
--hostdot ; добавление точки после имени хоста : "Host: kinozal.tv." --hostdot ; добавление точки после имени хоста : "Host: kinozal.tv."
--hosttab ; добавление табуляции после имени хоста : "Host: kinozal.tv\t" --hosttab ; добавление табуляции после имени хоста : "Host: kinozal.tv\t"
--hostnospace ; убрать пробел после "Host:"
--methodspace ; добавить пробел после метода : "GET /" => "GET /" --methodspace ; добавить пробел после метода : "GET /" => "GET /"
--methodeol ; добавить перевод строки перед методом : "GET /" => "\r\nGET /" --methodeol ; добавить перевод строки перед методом : "GET /" => "\r\nGET /"
--unixeol ; конвертировать 0D0A в 0A и использовать везде 0A --unixeol ; конвертировать 0D0A в 0A и использовать везде 0A
--hostlist=<filename> ; действовать только над доменами, входящими в список из filename. поддомены автоматически учитываются. в файле должен быть хост на каждой строке.
; список читается 1 раз при старте и хранится в памяти в виде иерархической структуры для быстрого поиска.
; для списка РКН может потребоваться система с 128 Mb памяти ! расчитывайте требование RAM для процесса как 10-15 кратный размер файла списка.
Параметры манипуляции могут сочетаться в любых комбинациях. Параметры манипуляции могут сочетаться в любых комбинациях.
Есть исключения : split-pos заменяет split-http-req. hostdot и hosttab взаимоисключающи. Есть исключения : split-pos заменяет split-http-req. hostdot и hosttab взаимоисключающи.
@ -206,6 +211,17 @@ tiera : Требуется сплит http запросов в течение в
в отдельный ipset "ipban". Он может использоваться для принудительного завертывания всех в отдельный ipset "ipban". Он может использоваться для принудительного завертывания всех
соединений на прозрачный proxy "redsocks" или на VPN. соединений на прозрачный proxy "redsocks" или на VPN.
Фильтрация по именам доменов
----------------------------
Альтернативой ipset является использование tpws со списком доменов.
Список доменов РКН может быть получен скриптом ipset/get_hostlist.sh - кладется в ipset/zapret-hosts.txt.
Этот скрипт автоматически добавляет к списку РКН домены из zapret-hosts-user.txt.
tpws должен запускаться без фильтрации по ipset. Весь трафик http идет через tpws, и он решает нужно ли
применять дурение в зависимости от поля Host: в http запросе.
Это создает повышенную нагрузку на систему.
Сам поиск по доменам работает очень быстро, нагрузка связана с прокачиванием объема данных через процесс.
Вариант хорошо подходит для тех, у кого быстрая система с 128+ Мб памяти и провайдер применяет DPI.
Пример установки на debian 7 Пример установки на debian 7
---------------------------- ----------------------------
@ -263,7 +279,7 @@ apt-get --no-install-recommends install lsb-core
install : /usr/lib/lsb/install_initd zapret install : /usr/lib/lsb/install_initd zapret
remove : /usr/lib/lsb/remove_initd zapret remove : /usr/lib/lsb/remove_initd zapret
start : systemctl start zapret start : sytemctl start zapret
stop : systemctl stop zapret stop : systemctl stop zapret
status, output messages : systemctl status zapret status, output messages : systemctl status zapret

81
tpws/chartree.c Normal file
View File

@ -0,0 +1,81 @@
#include "chartree.h"
#include <string.h>
#include <stdlib.h>
static char *DupLower(const char *s)
{
char *sp,*sl = strdup(s);
if (!sl) return false;
for(sp=sl;*sp;sp++) *sp=tolower(*sp);
return sl;
}
static cptr *CharTreeInit(char c)
{
cptr *p;
p=(cptr *)calloc(1,sizeof(cptr));
if (p) p->chr = c;
return p;
}
void CharTreeDestroy(cptr *p)
{
if (p)
{
CharTreeDestroy(p->leaf);
CharTreeDestroy(p->next);
free(p);
}
}
static cptr *CharTreeFindChar(cptr *p,char c)
{
while (p)
{
if (p->chr==c) return p;
p = p->next;
}
return NULL;
}
bool CharTreeAddStr(cptr **pp,const char *s)
{
cptr *p;
if (*pp)
{
if (!(p=CharTreeFindChar(*pp,*s)))
{
// already present. append to list head
if (!(p = CharTreeInit(*s)))
return false;
p->next = *pp;
*pp = p;
}
}
else
if (!(p = *pp = CharTreeInit(*s))) return false;
if (!*s) return true;
return CharTreeAddStr(&p->leaf,s+1);
}
bool CharTreeCheckStr(cptr *p,const char *s)
{
p = CharTreeFindChar(p,*s);
if (!p) return false;
if (!*s) return true;
return CharTreeCheckStr(p->leaf,s+1);
}
bool CharTreeAddStrLower(cptr **pp,const char *s)
{
bool b;
char *sl = DupLower(s);
if (!sl) return false;
b=CharTreeAddStr(pp,sl);
free(sl);
return b;
}
bool CharTreeCheckStrLower(cptr *pp,const char *s)
{
bool b;
char *sl = DupLower(s);
if (!sl) return false;
b=CharTreeCheckStr(pp,sl);
free(sl);
return b;
}

16
tpws/chartree.h Normal file
View File

@ -0,0 +1,16 @@
#pragma once
#include <stdbool.h>
#include <ctype.h>
typedef struct cptr
{
char chr;
struct cptr *leaf,*next;
} cptr;
void CharTreeDestroy(cptr *p);
bool CharTreeAddStr(cptr **pp,const char *s);
bool CharTreeAddStrLower(cptr **pp,const char *s);
bool CharTreeCheckStr(cptr *p,const char *s);
bool CharTreeCheckStrLower(cptr *pp,const char *s);

View File

@ -23,6 +23,37 @@
#include "tpws.h" #include "tpws.h"
#include "tpws_conn.h" #include "tpws_conn.h"
#include "chartree.h"
bool LoadHostList(cptr **hostlist, char *filename)
{
char *p, s[256];
FILE *F = fopen(filename, "rt");
int ct = 0;
*hostlist = NULL;
if (!F)
{
fprintf(stderr, "Could not open %s\n", filename);
return false;
}
while (fgets(s, 256, F))
{
for (p = s + strlen(s) - 1; p >= s && (*p == '\r' || *p == '\n'); p--) *p = 0;
if (!CharTreeAddStrLower(hostlist, s))
{
CharTreeDestroy(*hostlist);
*hostlist = NULL;
fprintf(stderr, "Not enough memory to store host list\n", filename);
fclose(F);
return false;
}
ct++;
}
fclose(F);
printf("Loaded %d hosts from %s\n", ct, filename);
return true;
}
enum splithttpreq { split_none = 0, split_method, split_host }; enum splithttpreq { split_none = 0, split_method, split_host };
@ -38,6 +69,7 @@ struct params_s
enum splithttpreq split_http_req; enum splithttpreq split_http_req;
int split_pos; int split_pos;
int maxconn; int maxconn;
cptr *hostlist;
}; };
struct params_s params; struct params_s params;
@ -116,8 +148,9 @@ bool handle_epollin(tproxy_conn_t *conn, int *data_transferred) {
char *p, *pp, *pHost = NULL; char *p, *pp, *pHost = NULL;
ssize_t method_len = 0, split_pos = 0, pos; ssize_t method_len = 0, split_pos = 0, pos;
const char **method; const char **method;
bool bIsHttp=false; bool bIsHttp = false, bBypass = false;
char bRemovedHostSpace = 0; char bRemovedHostSpace = 0;
char Host[128];
bs = rd; bs = rd;
@ -135,6 +168,34 @@ bool handle_epollin(tproxy_conn_t *conn, int *data_transferred) {
{ {
printf("Data block looks like http request start : %s\n", *method); printf("Data block looks like http request start : %s\n", *method);
if (params.hostlist)
{
pHost = find_bin(buf, bs, "\nHost: ", 7);
if (pHost)
{
bool bInHostList = false;
p = pHost + 7;
while (p < (buf + bs) && (*p == ' ' || *p == '\t')) p++;
pp = p;
while (pp < (buf + bs) && (pp - p) < (sizeof(Host) - 1) && *pp != '\r' && *pp != '\n') pp++;
memcpy(Host, p, pp - p);
Host[pp - p] = '\0';
p = Host;
printf("Requested Host is : %s\n", Host);
while (p)
{
bInHostList = CharTreeCheckStrLower(params.hostlist, p);
printf("Hostlist check for %s : %s\n", p, bInHostList ? "positive" : "negative");
if (bInHostList) break;
p = strchr(p, '.');
if (p) p++;
}
bBypass = !bInHostList;
}
}
if (!bBypass)
{
if (params.unixeol) if (params.unixeol)
{ {
p = pp = buf; p = pp = buf;
@ -151,6 +212,7 @@ bool handle_epollin(tproxy_conn_t *conn, int *data_transferred) {
} }
pp = p; pp = p;
} }
pHost = NULL;
} }
if (params.methodspace) if (params.methodspace)
@ -162,6 +224,7 @@ bool handle_epollin(tproxy_conn_t *conn, int *data_transferred) {
memmove(p + 1, p, bs - pos); memmove(p + 1, p, bs - pos);
*p = ' '; // insert extra space *p = ' '; // insert extra space
bs++; // block will grow by 1 byte bs++; // block will grow by 1 byte
pHost = NULL;
} }
// search for Host only if required (save some CPU) // search for Host only if required (save some CPU)
@ -196,11 +259,7 @@ bool handle_epollin(tproxy_conn_t *conn, int *data_transferred) {
bRemovedHostSpace = 1; bRemovedHostSpace = 1;
} }
if (params.split_pos) if (!params.split_pos)
{
split_pos = params.split_pos < bs ? params.split_pos : 0;
}
else
{ {
switch (params.split_http_req) switch (params.split_http_req)
{ {
@ -244,13 +303,19 @@ bool handle_epollin(tproxy_conn_t *conn, int *data_transferred) {
} }
} }
else else
{
printf("Not acting on this request\n");
}
}
else
{ {
printf("Data block does not look like http request start\n"); printf("Data block does not look like http request start\n");
// this is the only parameter applicable to non-http block (may be https ?)
if (params.split_pos<bs) split_pos = params.split_pos;
} }
// this is the only parameter applicable to non-http block (may be https ?)
if (params.split_pos && params.split_pos < bs) split_pos = params.split_pos;
if (split_pos) if (split_pos)
{ {
printf("Splitting at pos %zd\n", split_pos); printf("Splitting at pos %zd\n", split_pos);
@ -442,7 +507,9 @@ void exithelp()
{ {
printf( printf(
" --bind-addr=<ipv4_addr>|<ipv6_addr>\n" " --bind-addr=<ipv4_addr>|<ipv6_addr>\n"
" --port=<port>\n --maxconn=<max_connections>\n" " --port=<port>\n"
" --maxconn=<max_connections>\n"
" --hostlist=<filename>\t; only act on host in the list (one host per line, subdomains auto apply)\n"
" --split-http-req=method|host\n" " --split-http-req=method|host\n"
" --split-pos=<numeric_offset>\t; split at specified pos. invalidates split-http-req.\n" " --split-pos=<numeric_offset>\t; split at specified pos. invalidates split-http-req.\n"
" --hostcase\t\t; change Host: => host:\n" " --hostcase\t\t; change Host: => host:\n"
@ -486,6 +553,7 @@ void parse_params(int argc, char *argv[])
{ "methodeol",no_argument,0,0 },// optidx=14 { "methodeol",no_argument,0,0 },// optidx=14
{ "hosttab",no_argument,0,0 },// optidx=15 { "hosttab",no_argument,0,0 },// optidx=15
{ "unixeol",no_argument,0,0 },// optidx=16 { "unixeol",no_argument,0,0 },// optidx=16
{ "hostlist",required_argument,0,0 },// optidx=17
{ NULL,0,NULL,0 } { NULL,0,NULL,0 }
}; };
while ((v = getopt_long_only(argc, argv, "", long_options, &option_index)) != -1) while ((v = getopt_long_only(argc, argv, "", long_options, &option_index)) != -1)
@ -584,6 +652,10 @@ void parse_params(int argc, char *argv[])
case 16: /* unixeol */ case 16: /* unixeol */
params.unixeol = true; params.unixeol = true;
break; break;
case 17: /* hostlist */
if (!LoadHostList(&params.hostlist, optarg))
exit(1);
break;
} }
} }
if (!params.port) if (!params.port)
@ -749,6 +821,8 @@ int main(int argc, char *argv[]) {
retval = event_loop(listen_fd); retval = event_loop(listen_fd);
close(listen_fd); close(listen_fd);
if (params.hostlist) CharTreeDestroy(params.hostlist);
fprintf(stderr, "Will exit\n"); fprintf(stderr, "Will exit\n");
if (retval < 0) if (retval < 0)