Зручний Та Ефективний Пошук В Інтернеті | Вебсайт Олександра Мілюхіна

Браузери §

просто бо без браузера сильно не побравзите, мої улюблені браузери:

Librewolf: загартований форк Firefox (більше конфіденційності)
qutebrowser: для любителів віму, але зле, що пайтон
lynx: для терміналів
браузер Tor: шоб переглядати сторінки через мережу Tor (зрештою, можна налаштувати проксі для будь-якого браузера й не користуватися браузером Tor, але розробники не радять)

більше гарних програм тут.

Індекси (списки посилань) §

У старому вебі було дуже зручно шукати гарні сайти, бо люди створювали сторінки з посиланнями на них, і так від одного сайту до іншого стрибали та знаходили класні джерела.

Зараз пошукові системи та чатсіцзіньпінь витіснили таку практику і постачають людям посередню інфу. Але якщо ви хочете знайти щось дійсно цінне, користуйтеся списками посилань на різних сайтах (можете почати з мого).

Трюки з пошуковими системами й метапошуковики §

Попередній текст не каже, шо треба відмовитись від пошукових систем (хоча від ґуґла варто), але треба їх зручно використовувати.

По-перше, корисні пошуковики §

librex
searx — тут у налаштуваннях, до речі, можете знайти ще пошуковики
wiby.me
duckduckgo

Два перші — метапошуковики, тобто вони агрегують результати інших пошукових систем. Це класно, бо:

ви отримуєте пістрявіші (“менш чи різнобоко заангажовані”) результати;
вас важче відстежити, бо сервіс метапошуку фактично виступає як такий собі проксі запитів;

а тепер хитрощі §

У популярних пошуковиках можна дописати site:<ім'я.сайту> та отримати результати тільки для певного сайту. Наприклад, якщо ви хочете шукати щось тільки на сайті ftrv.se, то так і пишете:

code site:ftrv.se

Поставивши - перед site, ми його “віднімемо”:

Можна додати до пошукового запиту -site:.com для отримання кращих результатів, адже 90% шлаку — сайти, в яких TLD .com. Я налаштував це в config.py qutebrowser-а ось так:
c.url.searchengines = {'DEFAULT': 'https://duckduckgo.com/?q={}+-site%3A.com'}
Тепер я значно частіше натрапляю на гарні сайти.

Взаємодія зі сторінками §

Тут буде очевидно

користуйтеся Ctrl + F чи іншою комбінацією клавіш, яка у вашому браузері відповідає за пошук тексту на сторінці.

Консоль розробника дає можливість дослідити структуру сайту для скрейпінгу, про який буде далі.

Фільтрація непотребу §

Не вся інформація корисна чи потрібна, і не варто забивати свою пам’ять усяким непотребом. Крім трюку з -site:.com, розглянемо більш глобальні штуки:

Блокування реклами §

Реклама — зло, зло — реклама. Щоб заблокувати її к чорту, я раджу:

uBlock Origin: блокувальник реклами
uMatrix (для qutebrowser — jMatrix): Блокує тупо всі запити, і дає можливість дозволяти потрібні вам
етичні фронтенди для неетичних сервісів: Invidious замість YouTube, nitter.net замість екс-твітера, …

Більше розширень для браузера я описав у своєму списку програм.

Блокування за доменами §

Звільніть провайдера від роботи — створіть власний фільтр хостів. За допомогою одного з цих файлів можна повністю перекрити собі доступ до порно, азартних ігор, поганих псевдосоціальних мереж або всього цього водночас!

Мережі та протоколи + видаліть VPN §

Хто сидить лиш у звичайному вебі, той втрачає дуже багато. Я полюбив даркнет саме через якість інформації, яку надають певні сервіси, тому вважаю, що кожен мусить користуватися мережею Tor, і може I2P. Я маю трохи посилань для занурення в темну мережу тута.

Крім того, якщо ви користуєтеся сервісом VPN і це не Mullvad чи ваш власний сервер, то це навіть гірше, ніж якби весь ваш трафік бачив провайдер, бо ви даєте ці дані компанії, яка крім того, що може їх усі збирати, ще й точно знає, хто ви є (на відміну від провайдера інтернету, який може тільки припускати, які люди користуються мережею).

Tor повністю заміняє VPN, ще й безкоштовно!

Звісно, варто підтримати проєкт пожертвою, або (що краще та базованіше) запустивши свій вузол. Ось відео про це:

Автоматизація та скрейпінг §

Дуже зручно мати локальні копії певних сайтів, бо не відомо, чи будуть вони жити вічно. Для завантаження я користуюсь curl та wget, а також раджу torsocks для торифікації трафіку, бо деякі сайти можуть заблокувати ваc.

ван-лайнер для створення більш-менш адекватного дзеркала сайту:

torsocks wget --mirror --convert-links --adjust-extension --page-requisites --no-parent --wait=0.1 --random-wait -q --show-progress <посилання>

Якщо сайт, наприклад, роблять за допомогою генератора статичних сайтів і його вихідні файли знаходяться під контролем версій (у публічному репозиторії git чи що), то можна натомість завантажити його — так у мене присутній репозиторій landchad.net.

скрейпінг §

Скрейпінг дозволяє вибирати тільки ті дані, які вам потрібні замість тупого завантаження всього підряд. Я посередньо ним володію, але поділюся тим, що знайшов на своєму шляху:

scrapy — це бібліотека python для (ясно шо) скрейпінгу.
На сайті www.trickster.dev є багато класних статей про скрейпінг.
варто зразу вкурити xpath (на вказаному вище сайті є файний посібник)

Знову-таки, пам’ятайте користуватися проксі чи скрейпити через Тор для уникнення блокувань та збереження анонімності. Також варто міняти User Agent-и (приклади скрейперів, які таке роблять, можна легко знайти в мережі — на тому ж ґітхабі їх повно).

←
Мова R математика зручно! →
Чому Godot Engine не проти України і вільні програми — це не їх розробники