Wpisy z tagiem: WWW
piątek, 16 marca 2012
Trochę z rozpędu po ostatnim spojrzeniu na beznadziejną captchę na Blox, trochę zażenowany brakiem działania administratorów Blox w tak wydawałoby się prostej sprawie, trochę chcąc odkurzyć stare skrypty i znajomość Perla, trochę ze względu na zainteresowaniem tematem spamu, a w końcu trochę dla zabawy, postanowiłem zrobić przymiarkę do automatycznego wykrywania spamu na Blox. Chodzi o określanie, czy dany blog służy wyłącznie spamowaniu, oczywiście automatycznie, a co za tym idzie nie ze stuprocentową pewnością. Administratorzy zapowiedzieli, że captcha zostanie poprawiona w kwietniu (trzymam za słowo i liczę na to, zapewne nie tylko ja), więc spamblogów nie powinno od tej pory przybywać. Zatem postanowiłem skupić się nie na liście nowozałożonych blogów, tylko na liście nowych wpisów, czyli aktywnych spamblogach. Co prawda pierwotny plan zakładał przeiterowanie się po wszystkich blogach i określenie prawdopodobieństwa, czy jest to spamblog, ale nie znalazłem niestety listy wszystkich blogów na Blox. Owszem, można próbować robić rzeźbę pod tytułem "przeiterujmy się po tagach", ale nadal nie daje to gwarancji uzyskania listy wszystkich blogów - wystarczy, że ktoś nie taguje i system nie dotrze do jego bloga, więc stanęło na tym, że obserwuję listę nowych wpisów i stamtąd biorę dane. Przy okazji oceniam nie tyle cały blog, co poszczególne wpisy, co może być przydatne. Podejście pierwsze - pobierz i oceń. Na samym początku stwierdziłem, że będę pobierał wpis do oceny i oceniał na podstawie arbitralnych kryteriów. Pomysł szybko upadł - zmiany w algorytmie oceniania powodowały niekompatybilność z poprzednimi danymi, a zmiany były konieczne - wychodziły coraz to nowe kryteria i ich wagi. Wersjonowanie algorytmu przy ocenie nie pomagało, bo dane były tracone. OK, nie jest to wszystko aż tak proste, jak się wydawało na początku. Tutaj lista blogów, które sklasyfikowałem jako spamerskie z prawdopodobieństwem 80% i więcej. Format prawdopodobieństwo bycia spamem (%), spacja, link do bloga. Nie widzę (szybko patrząc) żadnego false positive, a wy? Aktualnie jest takich blogów 375 na 2404 wszystkich sprawdzonych blogów. Jasne, nie jest to cud techniki, ale przy dodaniu pewnych prostych whitelist myślę, że można spokojnie blokować automatem wszystkie blogi z prawdopodobieństwem od 70% w górę. Szczegółów badanych cech oraz algorytmu nie chcę na razie opisywać, bo po co spamerzy mają się bronić? Jak będzie utrudnione zakładanie nowych blogów, to pomyślę o tym. Na razie cały czas zbierają się dane... Gdyby byli chętni do przeglądania wyniku w celu wychwytywania false positive'ów (wpisujcie miasta, które przeglądają ;-)), to mogę pomyśleć o wystawianiu listy spamów automatem co jakiś czas. Całość napisana oczywiście w Perlu, główny moduł zbierający z użyciem WWW::Mechanize (genialna sprawa do crawlerów). UPDATE: Drobny update statystyk z dnia 27.04.2012 - 13481 unikatowe blogi (wcześniej chyba były unikatowe wpisy, ale mniejsza), w tym 1094 do natychmiastowego wycięcia (80% i więcej). Dla porządku 70% i więcej to 2438 sztuki. Listy nie zamieszczam, bo zainteresowanie było znikome. A captcha nadal nie została poprawiona, choć koniec kwietnia...
piątek, 07 października 2011
Niedawno znajomy napisał, na Facebooku zresztą, coś w stylu "wygląda, że Facebook chce przejąć rolę LinkedIn". Chodziło o to, że można dodać swoje miejsce pracy i wskazać, kto ze znajomych też tam pracuje. Czyli, upraszczając okrutnie, posocjalizować się na temat pracy. Jest to oczywiście prawdziwe, ale IMO niepełne. Facebook to, moim zdaniem, praktycznie państwo w państwie, Internet w Internecie. Nisza trochę na wzór wewnętrznych serwisów tworzonych przez Tora czy Freenet, z tą różnicą, że dostępna w prosty sposób, skrajnie nieanonimowa i... powszechna. Dodatkowo, co chyba najważniejsze, publiczna. O ile Tor czy Freenet tworzą wewnętrzne, separowane sieci, to FB wręcz przeciwnie - jest otwarty na wszystko i wszystko chce wchłonąć lub przyłączyć. Szybki przegląd serwisów/usług, które występują w wersji Facebookowej.
Coś pominąłem? Zapewne tak. Niezależnie od tego Facebook to taki Internet cyferka.zero (modna numeracja, mylę się w numerkach, nie wiem który dać ;-)) - wszyscy są zalogowani, monitorowani, uwierzytelnieni (zgodnie z regulaminem nie można mieć konta na nieprawdziwe dane, odpada problem multikont), bezpieczni... Wszystko pod pełną kontrolą - wiadomo dokładnie, który użytkownik co klika, kiedy klika, co pisze itd. Oczywiście najwięcej wiadomości ma sam Facebook - zna zainteresowania, wie, czym chcemy się z kim dzielić, z jakich IP i urządzeń się łączymy, dzięki widgetom na stronach WWW wie, jakie strony WWW odwiedzamy i to niekoniecznie w momencie, gdy jesteśmy zalogowani do Facebooka. Prywatność cierpi okrutnie, ale... chyba większości ludzi to nie przeszkadza. W komentarzach do wpisu na temat śmierci Steve'a Jobsa zasugerowałem, że Mark Zuckerberg już zasługuje na stawianie w szeregu z najlepszymi. I moim zdaniem dokładnie tak jest. Już w tej chwili, bo już tej chwili jesteśmy bliscy sytuacji, kiedy nowi użytkownicy mogą zacząć korzystać z Internetu właśnie przez Facebooka. I wyłącznie przez Facebooka (oczywiście także logując się do innych serwisów, pytanie na ile świadomie). Podobnie, jak kiedyś utożsamiano Internet z przeglądarką. Tylko o poziom dalej. Polecam też dzisiejszy ciekawy artykuł na Antyweb o Facebooku, o którym dowiedziałem się praktycznie po napisaniu tego wpisu (OK, zainspirował drobne zmiany).
środa, 22 lipca 2009
A raczej, możesz mieć problem, jeśli skonfigurowałeś router tak, by serwer WWW (zarządzania przez WWW) słuchał na zewnętrznym interfejsie. Jakiego typu problem? Zdalne wykonanie kodu z prawami roota. Bez konieczności jakiegokolwiek uwierzytelniania. Niestety, nawet ci, którzy skonfigurowali swój router tak, by serwer WWW nie słuchał na zewnętrznym interfejsie nie mogą spać spokojnie. Powodem jest niezałatana możliwość ataku przez CSRF. Co robić? Jeśli nie chcemy/możemy zmienić softu na Tomato czy OpenWrt - co byłoby najlepszym rozwiązaniem, bo brak doniesień o podobnych problemach w tych firmware'ach - to na pewno wyłączyć zarządzanie przez WWW na zewnętrznym interfejsie i unikać podejrzanych stron (mogących być źródłem ataku CSRF). Przynajmniej do czasu opublikowania poprawionej wersji firmware'u przez DD-WRT. Jeśli to możliwe, należy wyłączyć serwer WWW całkowicie, wtedy i CSRF nie będzie groźny. Źródło: DD-WRT (httpd service) Remote Command Execution Vulnerability UPDATE: Jeszcze link do wątku na forum DD-WRT nt. tej luki oraz link do poprawionego firmware'u.
sobota, 18 lipca 2009
Jeśli wierzyć w pełni artykułowi Opera niezadowolona, a w szczególności temu fragmentowi „Niewielkie przeróbki kodzie nie wpłyną na zwiększenie konkurencji na rynku przeglądarek” – uważa Hakon Wium Lie, szef działu technologicznego w Opera Software., Opera ma niezłe socjalistyczne zapędy. Ich produkt nie radzi sobie w starciu rynkowym, więc próbują wymusić na rządach promowanie ich produktu. Tymczasem równie niewspierany przez Microsoft Firefox ma - wg rankingu przeglądarek około 47%. Trudno Firefoksowi zarzucić monopol czy wsparcie ze strony MS, a tymczasem jego popularność nadal rośnie. Moim zdaniem, dopóki określoną przeglądarkę (w ogólności: program) można w prosty sposób wyłączyć lub odinstalować, a następnie w równie prosty sposób zastąpić ją innym programem, to problem nie istnieje. Nie wiem jak pod Windows, ale pod Linuksem wymiana przeglądarki jest bardzo prosta. Jeśli prawdą jest że przedstawiciele UE sugerują, aby Microsoft stworzył w ekranie powitalnym Windows możliwość wyboru kilku przeglądarek internetowych, które byłyby aktywowane to jest to IMO krok w bardzo złym kierunku. Po pierwsze, czemu tylko Microsoft ma coś takiego wprowadzać, a np. Apple nie? Po drugie, czemu niewolne (nie open source), mają być proponowane w wolnych systemach (np. w Debianie)? Konsekwentne wprowadzanie takiego rozwiązania dokładnie do czegoś takiego prowadzi. Dla jasności dodam, że uważam Operę mini za świetną przeglądarkę na urządzenia mobilne. Wersji desktopowej Opery używałem kiedyś (okolice wersji 7.5) i nie jest była to zła przeglądarka (była zdecydowanie lepsza od IE w tym czasie), natomiast Firefox w chwili obecnej wydaje mi się lepszy (mimo paru wad, choćby tego, że przy domyślnych ustawieniach narusza prywatność użytkownika). Wydaje mi się, że państwo powinno trzymać się z daleka od czegoś, co - jak widać po popularności Firefoksa - rynek potrafi doskonale regulować sam. |
Ostatnie wpisy
Subskrybcja RSS (wpisy)
Staty
Nawigacja
O mnie
Kontakt
Linkownia
SMSsender - skrypt do wysyłania SMSów
Przydatne polecenia Linux
Filtry Adblock by rozie
Zasady
Blogroll
| |||||||||||||||||||||||||||||||||||||||||||||||||