구글 SEO (2편) - 구글 검색엔진 크롤링, 인덱싱, 랭킹 요소 알아보기

구글 서치(Google Search, 검색엔진)의 개념과 작동 프로세스를 알아봅니다. 크롤링과 인덱싱, 검색 순위(랭킹) 위주로 알아봅니다.

Feb 14, 2024

구글 SEO (2편) - 구글 검색엔진 크롤링, 인덱싱, 랭킹 요소 알아보기

Contents

검색 엔진(Search Engine)이란?검색 엔진은 어떻게 작동할까?크롤링(crawling)이란?인덱싱(indexing)이란?검색결과 게재(Ranking)는 어떻게 이루어질까?

검색 엔진(Search Engine)이란?

검색 엔진은 웹상에서 사용자가 특정 질문이나 키워드로 검색할 때, 해당 검색어와 관련된 정보를 찾아주는 프로그램입니다. 다시 말해 월드-와이드-웹(WWW, World-Wide-Web)에서 정보에 액세스하는 데 사용된다고 말할 수 있습니다.

특히, 지금부터 자세히 들여다보고자 하는 구글 서치 (Google Search)는 검색 엔진 시장의 91.47%를 소유하고 있는 인터넷 검색 엔진으로, 다른 검색 엔진보다 더 많은 트래픽 효과를 볼 수 있습니다.(image source: statcounter)

검색 엔진은 다음의 두 가지 주요 구성 요소로 구성되어 있습니다.

검색 색인 (Search index)는 웹페이지에 대한 정보의 디지털 라이브러리로, 웹 상의 다양한 콘텐츠를 수집하고 색인합니다.
검색 알고리즘 (Search argorithm)은 이러한 인덱스에서 결과를 매칭하는 프로그램으로, 사용자의 질의에 가장 관련성 높은 정보를 선별하여 제공합니다.

검색 엔진은 사용자에게 최상의 검색 결과를 제공하는 것을 목표로 하며, 이를 통해 사용자들이 원하는 정보를 빠르게 찾을 수 있도록 돕고, 사용자 경험을 향상시키는 것이 핵심입니다. 따라서 검색 엔진에 최적화(SEO)하기 위해서는 사용자가 원하는 정보를 가장 쉽게 발견할 수 있도록 웹사이트를 구성하고 콘텐츠를 관리하는 것이 중요합니다.

검색 엔진은 어떻게 작동할까?

구글 서치 (Google Search)는 웹 크롤러라는 완전 자동화 소프트웨어를 사용하며, 다음 세 단계로 작동합니다.(image source: researchgate):

크롤링 (Crawling):구글은 크롤러라는 자동화된 프로그램을 사용하여 인터넷에서 페이지를 찾고, 해당 페이지로부터 텍스트, 이미지, 동영상 등의 내용을 다운로드합니다. 크롤러는 웹상에 존재하는 페이지를 발견하고 새로운 페이지를 지속적으로 탐색함으로써 정보를 수집합니다.
인덱싱 (Indexing, 색인): 수집된 페이지의 텍스트, 이미지, 동영상 등의 내용을 분석하고, 이 정보를 대규모 데이터베이스인 구글 색인에 저장합니다. 각 페이지의 콘텐츠는 처리되어 구글이 해당 페이지의 주제와 내용을 이해할 수 있도록 태그가 부여됩니다. 이를 통해 검색 엔진은 사용자의 쿼리(Query, 데이터베이스에게 특정한 데이터를 보여달라는 클라이언트의 요청)와 가장 관련성 높은 페이지를 신속하게 찾을 수 있습니다.
검색결과 게재 (Ranking):사용자가 구글에서 검색을 실행하면, 구글은 검색 쿼리와 관련된 정보를 반환합니다. 검색 엔진은 색인된 페이지 중에서 가장 관련성 높은 결과를 식별하고, 이를 사용자에게 제공합니다. 페이지의 순위는 여러 요인에 따라 결정되며 콘텐츠의 양과 질, 백링크 수, 페이지가 포함하는 키워드 등이 고려됩니다.

이제 크롤링, 인덱싱, 검색결과 게재 각 항목별 개념과 프로세스에 대해 더 자세하게 살펴보도록 하겠습니다. 구글 검색 엔진의 작동 방식에 대해 더 자세히 알고 싶으신 분은 아래 구글 공식 문서를 참고해주세요.

➣ Google Search 공식 가이드 문서 읽기

크롤링(crawling)이란?

크롤링 (Crawling)은 검색 엔진이 웹상에 존재하는 새로운 페이지 및 업데이트된 콘텐츠를 발견하는 과정을 말합니다.

구글봇 (Googlebot, 또는 크롤러, 로봇, 봇, 스파이더)은 기존의 웹페이지를 가져와서 그 웹페이지의 링크를 따라 새로운 URL을 찾습니다. 이 URL 경로를 따라 이동함으로써 크롤러는 페이지를 방문(또는 '크롤링')하여 새로운 콘텐츠를 찾게 됩니다. 때문에 페이지 간 이동할 수 있는 링크 경로가 없거나 크롤러가 접근하기 어려운 방식으로 네비게이션을 구성한 페이지는 크롤링에 영향을 끼쳐 검색 결과에 나타나지 않을 수 있습니다. (image source: Moz)

이렇게 콘텐츠는 웹페이지, 이미지, 비디오, PDF 등 다양할 수 있지만 형식에 관계없이 링크 (URL)를 통해 발견되는 것입니다.

링크 경로를 따라 이동함으로써 크롤러는 새로운 콘텐츠를 찾고 발견된 URL의 거대한 데이터베이스인 인덱스 (index)에 추가합니다. 인덱싱에 대해서는 뒤에서 더 자세하게 설명하겠습니다.

결국 모든 것은 URL 목록에서부터 시작한다고 할 수 있습니다. 하지만 웹에는 어마어마한 정보가 계속해서 생성되므로 크롤러가 모든 URL과 페이지 내의 모든 세부 정보를 파악할 수는 없습니다. 따라서 구글은 구글 서치 콘솔 (Google Search Console)에서 사이트 소유자가 개별 URL의 크롤링을 요청할 수 있도록 URL 제출 기능을 제공하고, 웹사이트 내 중요한 페이지 정보와 구조를 빠르고 쉽게 이해할 수 있도록 정리한 XML 형식의 파일인 사이트맵(XML sitemap) 제출을 허용합니다.

크롤러가 URL을 발견하는 대표적인 방식들을 정리하면 아래와 같습니다:

백링크 (backlinks). 파악된 페이지에서 새로운 페이지로 링크가 걸려있는 경우에 크롤러가 이를 따라감으로써 발견.
사이트맵 (sitemaps). 사이트에서 중요하다고 생각되는 페이지 정보와 구조를 담은 파일을 제출함으로써 발견.
URL 제출. 사이트 소유자가 구글 서치 콘솔에 URL을 등록하여 개별 크롤링을 요청함으로써 발견.

한편 테스트 페이지와 같이 사이트 소유자가 크롤링을 허용하지 않는 페이지도 있고 사이트에 로그인해야 액세스할 수 있는 페이지 등 크롤러는 발견한 페이지를 모두 크롤링하는 것은 아닙니다. 크롤러는 로그인을 하지 못하기 때문에 사용자들이 특정 콘텐츠에 액세스하기 전에 로그인, 양식 작성 또는 설문 조사에 응답해야 한다면, 봇은 해당 보호된 페이지를 크롤링할 수 없습니다. 이렇듯 구글봇이 특정 페이지에 엑세스하지 못하도록 구글봇을 제어하기도 하는데, 이러한 규칙을 담은 파일이 robots.txt 입니다.

또한 구글은 크롤링 작업을 위해 막대한 수의 컴퓨터를 사용하여 웹에 있는 페이지 수십억 개를 크롤링하고 알고리즘 프로세스를 사용하여 크롤링할 사이트와 크롤링 빈도, 각 사이트에서 가져올 페이지 수를 결정하는데, 각 크롤러의 과부하를 방지하고 특정 목적에 따라 다양한 속도로 사이트에 액세스할 수 있도록 크롤링 속도를 제어하기도 합니다.

인덱싱(indexing)이란?

크롤러 봇은 위에서 언급한 방식을 통해 URL 링크 경로를 발견하고 따라 이동함으로써 새로운 콘텐츠를 찾는 크롤링 과정을 거쳐, 인덱스라고 하는 거대한 데이터베이스에 모든 콘텐츠를 저장합니다.

다시 말해 인덱스란 발견된 페이지가 저장되는 것으로, 크롤러가 페이지를 발견한 후, 검색 엔진은 브라우저가 하는 것처럼 해당 페이지를 렌더링하고 페이지 내용을 분석합니다. 이 단계를 색인 생성 (indexing)이라고 하며 타이틀 및 이미지 alt 태그, 이미지, 동영상 등 콘텐츠와 핵심 태그 요소들을 처리하고 분석하는 작업을 포함합니다. 그리고 그 모든 정보는 인덱스에 저장됩니다.

각 검색 엔진은 자체적인 검색 인덱스를 구축하는 프로세스를 가지고 있는데, 구글은 이러한 자신들의 새로운 수집체계 (indexing system) 이름을 카페인 (Caffeine)이라고 명명했습니다. (image source: Google)

인덱싱 과정에서 봇은 아래와 같이 하나의 페이지를 가리키는 여러 개의 URL이 존재할 때, 표준 URL로 인식되는 페이지를 가장 대표적인 페이지로 인식하여 검색 결과에 표시하게 되며, 이를 표준화(Canonicalization) 프로세스 라고 합니다.

https://www.inblog.ai/index.html
https://inblog.ai/index.html?page=1
http://m.inblog.ai/index.html

한편 검색 엔진이 사이트를 찾고 그 사이트의 페이지를 읽어올 수 있다고 해도 모든 페이지가 인덱스에 저장되는 것은 아닌데, 다음과 같은 케이스들의 경우에는 인덱스에 포함되지 않을 수 있습니다:

인덱싱이 차단된 경우

검색결과 게재(Ranking)는 어떻게 이루어질까?

구글의 전 검색 품질 책임자 Udi Manber는 다음과 같이 말한 바 있습니다:

"랭킹은 클릭 데이터에 영향을 받습니다. 특정 쿼리에 대해 80%의 사람이 #2를 클릭하고, 단 10%만이 #1을 클릭한다면, 얼마 후에 아마도 #2가 사람들이 원하는 것이라고 판단하여 순위가 바뀔 것입니다."

Google confirms watching clicks to evaluate results quality by Danny Sullivan in Twitter

또한 구글의 전 엔지니어인 E dmondLau 또한 클릭 데이터에 대해 다음과 같이 말한 바 있습니다:

"어떤 합리적인 검색 엔진도 자신의 결과에 대한 클릭 데이터를 사용하여 랭킹을 향상시키기 위해 다시 사용합니다.

Did Bing intentionally copy Google's search resutls? by Edmond Lau

Udi Manber와 Edmond Lau의 주장은 구글이 공식 문서에서 밝힌 콘텐츠의 품질과 사용자가 입력한 검색어와의 관련성을 기준으로 검색 결과를 반환하는 매커니즘에 대한 내용을 뒷받침합니다(image source: Google):

구글 서치는 인덱스에서 관련성이 높고 품질이 좋은 콘텐츠를 찾아 순위를 매겨 사용자에게 보여줍니다. 이렇듯 검색 엔진이 사용자가 검색을 수행할 때 일치하는 결과에 순위를 매기는 방법이 필요하며 이것이 바로 검색 알고리즘의 역할입니다.

하지만 구글이 검색 알고리즘이 순위를 부여하는 정확한 매커니즘을 전부 공개하지 않았으나, 구글 공식 문서의 내용에 의거하여 랭킹에 영향을 미치는 몇 가지 요소들을 이해하고 이를 콘텐츠와 웹사이트에 적용할 수 있습니다:

사용자 중심의 품질 좋은 콘텐츠. 구글 서치는 기본적으로 사람들에게 도움을 주기 위해 제작된 유용하고 신뢰할 수 있는 정보를 인기 검색결과로 표시하도록 설계되었습니다. (구글 문서 보기)

좋은 사용자 경험 제공. 낮은 이탈률(bounce rate), 높은 체류 시간, 높은 클릭 전환율(CTR)은 모두 사용자의 의도를 만족시키는 매력적인 콘텐츠로 평가할 수 있습니다. (구글 문서 보기)
검색 의도에 맞는 콘텐츠. 사람들이 궁금해 할 만한 키워드를 포함하는 콘텐츠는 이용자들의 문제를 해결해주는 양질의 콘텐츠로 인식될 수 있습니다.
웹 사이트 로딩 속도. 사용자가 웹 사이트에 접속했을 때 페이지가 로딩되는 시간이 길어지면 어떻게 될까요? 이탈할 가능성이 커지게 되며, 이는 검색 엔진이 안 좋은 경험을 제공하는 웹사이트로 인식하게 될 가능성이 높아집니다. (구글 문서 보기)
양질의 백링크. 좋은 콘텐츠는 널리 퍼지게 됩니다. 백링크가 여기저기 걸려있고 사방에서 트래픽이 발생한다면 신뢰성 있는 콘텐츠로 인식될 수 있는 가능성이 높아집니다. (구글 문서 보기)

이외에도 순위에 영향을 미치는 요소들은 무수히 많습니다. 하지만 구글은 검색 알고리즘의 랭킹 매커니즘에 대해 공개한 바가 없다는 것을 명심하셔야 합니다. SERPs 순위에 영향을 미치는 요소들을 소개하는 수 많은 콘텐츠들을 너무 맹신하지는 마세요.

SEO에 왕도는 없습니다.

구글이 공식 문서로 전달한 내용을 바탕으로 하여, 사용자들이 궁금해하는 문제에 대해 답을 주고 가치있는 콘텐츠를 생산하기 위해 머리를 싸매고, 웹사이트의 형식과 구조에 따른 유저들의 사용성을 생각하는 것이 정답입니다.

"When a user enters a query, our machines search the index for matching pages and return the results we believe are the highest quality and most relevant to the user's query."
⎯ Google

👉 구글 SEO 가이드(3) - 테크니컬 SEO (Technical SEO) 은 무엇인가요?

👉 구글 SEO 가이드(4) - SEO를 위한 키워드 분석과 리서치 방법 알아보기

Contents

검색 엔진(Search Engine)이란?검색 엔진은 어떻게 작동할까?크롤링(crawling)이란?인덱싱(indexing)이란?검색결과 게재(Ranking)는 어떻게 이루어질까?

SEO 가이드북

구글 SEO (2편) - 구글 검색엔진 크롤링, 인덱싱, 랭킹 요소 알아보기

구글 서치(Google Search, 검색엔진)의 개념과 작동 프로세스를 알아봅니다. 크롤링과 인덱싱, 검색 순위(랭킹) 위주로 알아봅니다.

Seongjoon Im

Feb 14, 2024

Contents

검색 엔진(Search Engine)이란?검색 엔진은 어떻게 작동할까?크롤링(crawling)이란?인덱싱(indexing)이란?검색결과 게재(Ranking)는 어떻게 이루어질까?

검색 엔진(Search Engine)이란?

검색 엔진은 다음의 두 가지 주요 구성 요소로 구성되어 있습니다.

검색 색인 (Search index)는 웹페이지에 대한 정보의 디지털 라이브러리로, 웹 상의 다양한 콘텐츠를 수집하고 색인합니다.
검색 알고리즘 (Search argorithm)은 이러한 인덱스에서 결과를 매칭하는 프로그램으로, 사용자의 질의에 가장 관련성 높은 정보를 선별하여 제공합니다.

검색 엔진은 어떻게 작동할까?

구글 서치 (Google Search)는 웹 크롤러라는 완전 자동화 소프트웨어를 사용하며, 다음 세 단계로 작동합니다.(image source: researchgate):

크롤링 (Crawling):구글은 크롤러라는 자동화된 프로그램을 사용하여 인터넷에서 페이지를 찾고, 해당 페이지로부터 텍스트, 이미지, 동영상 등의 내용을 다운로드합니다. 크롤러는 웹상에 존재하는 페이지를 발견하고 새로운 페이지를 지속적으로 탐색함으로써 정보를 수집합니다.
인덱싱 (Indexing, 색인): 수집된 페이지의 텍스트, 이미지, 동영상 등의 내용을 분석하고, 이 정보를 대규모 데이터베이스인 구글 색인에 저장합니다. 각 페이지의 콘텐츠는 처리되어 구글이 해당 페이지의 주제와 내용을 이해할 수 있도록 태그가 부여됩니다. 이를 통해 검색 엔진은 사용자의 쿼리(Query, 데이터베이스에게 특정한 데이터를 보여달라는 클라이언트의 요청)와 가장 관련성 높은 페이지를 신속하게 찾을 수 있습니다.
검색결과 게재 (Ranking):사용자가 구글에서 검색을 실행하면, 구글은 검색 쿼리와 관련된 정보를 반환합니다. 검색 엔진은 색인된 페이지 중에서 가장 관련성 높은 결과를 식별하고, 이를 사용자에게 제공합니다. 페이지의 순위는 여러 요인에 따라 결정되며 콘텐츠의 양과 질, 백링크 수, 페이지가 포함하는 키워드 등이 고려됩니다.

➣ Google Search 공식 가이드 문서 읽기

크롤링(crawling)이란?

크롤링 (Crawling)은 검색 엔진이 웹상에 존재하는 새로운 페이지 및 업데이트된 콘텐츠를 발견하는 과정을 말합니다.

이렇게 콘텐츠는 웹페이지, 이미지, 비디오, PDF 등 다양할 수 있지만 형식에 관계없이 링크 (URL)를 통해 발견되는 것입니다.

크롤러가 URL을 발견하는 대표적인 방식들을 정리하면 아래와 같습니다:

백링크 (backlinks). 파악된 페이지에서 새로운 페이지로 링크가 걸려있는 경우에 크롤러가 이를 따라감으로써 발견.
사이트맵 (sitemaps). 사이트에서 중요하다고 생각되는 페이지 정보와 구조를 담은 파일을 제출함으로써 발견.
URL 제출. 사이트 소유자가 구글 서치 콘솔에 URL을 등록하여 개별 크롤링을 요청함으로써 발견.

인덱싱(indexing)이란?

https://www.inblog.ai/index.html
https://inblog.ai/index.html?page=1
http://m.inblog.ai/index.html

인덱싱이 차단된 경우

검색결과 게재(Ranking)는 어떻게 이루어질까?

구글의 전 검색 품질 책임자 Udi Manber는 다음과 같이 말한 바 있습니다:

"랭킹은 클릭 데이터에 영향을 받습니다. 특정 쿼리에 대해 80%의 사람이 #2를 클릭하고, 단 10%만이 #1을 클릭한다면, 얼마 후에 아마도 #2가 사람들이 원하는 것이라고 판단하여 순위가 바뀔 것입니다."

또한 구글의 전 엔지니어인 E dmondLau 또한 클릭 데이터에 대해 다음과 같이 말한 바 있습니다:

"어떤 합리적인 검색 엔진도 자신의 결과에 대한 클릭 데이터를 사용하여 랭킹을 향상시키기 위해 다시 사용합니다.

사용자 중심의 품질 좋은 콘텐츠. 구글 서치는 기본적으로 사람들에게 도움을 주기 위해 제작된 유용하고 신뢰할 수 있는 정보를 인기 검색결과로 표시하도록 설계되었습니다. (구글 문서 보기)

좋은 사용자 경험 제공. 낮은 이탈률(bounce rate), 높은 체류 시간, 높은 클릭 전환율(CTR)은 모두 사용자의 의도를 만족시키는 매력적인 콘텐츠로 평가할 수 있습니다. (구글 문서 보기)
검색 의도에 맞는 콘텐츠. 사람들이 궁금해 할 만한 키워드를 포함하는 콘텐츠는 이용자들의 문제를 해결해주는 양질의 콘텐츠로 인식될 수 있습니다.
웹 사이트 로딩 속도. 사용자가 웹 사이트에 접속했을 때 페이지가 로딩되는 시간이 길어지면 어떻게 될까요? 이탈할 가능성이 커지게 되며, 이는 검색 엔진이 안 좋은 경험을 제공하는 웹사이트로 인식하게 될 가능성이 높아집니다. (구글 문서 보기)
양질의 백링크. 좋은 콘텐츠는 널리 퍼지게 됩니다. 백링크가 여기저기 걸려있고 사방에서 트래픽이 발생한다면 신뢰성 있는 콘텐츠로 인식될 수 있는 가능성이 높아집니다. (구글 문서 보기)

SEO에 왕도는 없습니다.

"When a user enters a query, our machines search the index for matching pages and return the results we believe are the highest quality and most relevant to the user's query."
⎯ Google

👉 구글 SEO 가이드(3) - 테크니컬 SEO (Technical SEO) 은 무엇인가요?

👉 구글 SEO 가이드(4) - SEO를 위한 키워드 분석과 리서치 방법 알아보기

Contents

검색 엔진(Search Engine)이란?검색 엔진은 어떻게 작동할까?크롤링(crawling)이란?인덱싱(indexing)이란?검색결과 게재(Ranking)는 어떻게 이루어질까?