Graph Woody 시작 마음가짐
1.GraphRAG 2.GraphMLOps 3.Hypergraph 4.Graph FDS 5.Neo4j 5가지 주제를 실용적으로 접근한 콘텐츠들을 작성해보려고 한다.
Dec 02, 2023
- Graph Woody두 가지 목표
- 그래프 기술을 통해 세상을 변화하는데 기여해보고싶다.
- 1.그래프로 강의를 촬영해 수익 대다수를 유기견 단체에 기부하고싶다.
- 2.SNS를 통해 사람들간 양극화가 심해지는 가운데 SNS의 부정적인 면이 부각되고있다. 분명 긍정적인 면도 있을거라 생각된다. 긍정적인 면을 찾아보기위해 네트워크 분석 기술을 활용해 긍정적인 SNS, 인간은 사회적인 동물이며 온라인 상에서도 모두 잘 지낼 수 있다. 라는 점을 보여주고싶다.
- 3.”그래프 기술이 실용적이며 필요하다” 라는 인식을 이 블로그를 찾아주신 분들에게 전달하여, 국내외 시장에 그래프 기술의 적용점이 될만한 부분들을 많이 배출해보고싶다.
- 키워드로 정리해보면 , ‘수익 기부’ , ‘SNS 분석을 통한 양극화 해소’, ’그래프 기술 101’ 3가지로 압축할 수 있다. 되게 추상적이지만, 글 작성할때마다 위 키워드를 되새기며 선한 영향력 전파 라는 그 중심을 잃지 않고 꾸준했으면 한다.
- 글또 8기에서 하지못한 말들을 풀어내보고싶다.
- 그래프 오마카세 라는 콘텐츠를 진행하며 뉴스레터를 1년간 가까이 진행했다. 저번기수에서 그래프 오마카세 뿐만아니라, 다른 그래프 기술도 병행하여 글로 적기로 마음을 먹었는데 그건 실패했다. 매주 3~6개의 논문을 읽고 리뷰하는데에 주말을 모두 쏟고나면 다른 글을 쓸 육체적 정신적 여유가 없었기 때문이다.
- 당초 그래프 오마카세 목적은 타 데이터 대비 생소하고 어렵게만 느껴질 그래프 데이터 기술에 나만의 색깔을 입혀 쉽고 재밌게 전달해보는거였다. 초기(22.11.01) 구독자 60명부터 현재(23.12.02) 300명까지 500% 정도 성장한 지금 어느 정도 소기의 목적을 달성했다라고 판단하여, 앞으로 그래프 오마카세에 대한 부담을 다른 두 분과 함께하기로 했다.
- 매 주 한 편정도의 논문만을 전달하면 되기에 일전의 그 부담은 훨씬 덜 할거라 생각한다. 이젠 이 Graph woody에 시간을 할애하여, 실제 어떻게 그래프를 활용하면 좋을지 실용적인 색깔이 강한 게시물들 위주로 작성해보고자 한다.
- GraphWoody 에서 다룰 콘텐츠들
- 일전에, 글또8기에서 유야무야됐던 글 콘텐츠들이 떠올라서 나름 Todolist 처럼 글 콘텐츠들을 선정해보았다. 선정 기준은 1.그래프가 실용적인 분야 2.글쓰는이가 재밌어하고 관심있어하는것 3.트렌드 였다. 욕심을 많이 내려놓은줄 알았지만, 아직도 성장에 대한 욕심은 많기에 어떻게하면 성장과 글쓰기를 동시에 할 수 있을까 라는 고민을 했고 아래 리스트들이 그 결과들이라고 할 수 있다.
- GraphRAG
- Retrieval Augmented Generation (RAG) 분야에 그래프를 접목하는 이야기를 적어보려고한다. 트렌드들이 빠르게 변화해가고 있다. 그 중심에 바로 RAG가 있는데, GNN 오픈채팅방 방장을 맡으며 어줍짢은 RAG 지식으로 채팅방 사람들의 질문에 답변을 하고자하니, 어느샌가 더닝 트루거 효과에서 오만의 끝에 있는 나를 발견하게되어 공부에 대한 필요성을 가장 많이 느낀 콘텐츠였다.
- 다시 돌아와서, RAG 라는 분야에 왜 그래프가 자주 언급이 되고 있는지를 살펴보면 바로 환각 현상에 대한 이슈인데, vector db 의 similairty 를 보완한다는 측면에서 knowledge graph 의 exact result 가 합리적이다 라고 사람들에게 인지되고 있기 때문이다. 근래 트렌드만 살펴보더라도 빅테크 클라우드 업체들(GCP , AWS)이 왜 자꾸 Neo4j 와 파트너쉽을 맺으며, 각자의 언어모델과 병행하여 그래프를 사용하는것을 강점으로 어필하며 마케팅하고 있다.
- GraphRAG 이를 위해 필요한건 5가지라 생각한다.
- 1.지시가 잘 되어있는 프롬프트 ,
- 2.적절한 답변을 도출할 예시들인 퓨샷러닝 ,
- 3.도메인에 특화된 데이터들을 학습하는 파인튜닝 ,
- 4.청킹된 문서들 가운데 시멘틱을 찾아 관계로 형성해 준 결과인 지식그래프,
- 5.GDB에 적절한 데이터를 조회하는 Cypher 질의문 생성
- 5가지에 대한 고찰과 실험을 통해 어떻게 하면 GraphRAG를 잘 구현할 수 있으며 잘 서비스 할 수 있을까에 대해 적어보려고 한다.
- GraphMLOps
- [10개프로젝트로 한 번에 끝내는 MLOps 파이프라인구현 초격차패키지Online]라는 강의를 수강하고 있다. FastAPI 와 MLflow 툴에 대해 공부하기로 했다가, 너무나도 많은 레퍼런스 때문에 무엇에 집중할 지 모르겠어서 제대로 된게 있으면 그걸로 시작하자 라는 생각을 늘 갖고있었는데 이 패키지가 그 생각에 부합한 강의같아 수강하게 되었다. 이걸 벤치마크 삼아 그래프 MLOps 강의를 차근차근 준비해보려 한다.
- LGFDS LAB
- 모두의 연구소 라는 기관에서 현재 9명과 함께 그래프가 왜 이상탐지거래에서 유용한지에 대해 실용적인 측면에서 고민하고 협업을 하고 있다. 그래프 라는 공통점이 있지만, 각기 다른 롤 (ML 엔지니어, DBA , 데이터 사이언티스트 , 데이터 분석가)들이 모여있기에 이 분들의 의견들과 경험이 합치된 인사이트가 굉장히 강력할거라 생각한다. 이를, Graph Woody 에 정리해보려고 한다.
- hypergraph
- 아픈 손가락인 콘텐츠다. 안그래도 그래프가 생소한데, 그래프에서도 생소한 하이퍼그래프라니. 하지만, category 형태의 데이터가 여전히 많이 발생하고 내에 복잡성을 그룹핑하여 시각적으로 직관적이다 라는 강점과 그룹 연산 효율성은 생소함이라는 핸디캡을 가볍게 무시해버릴만큼 강력한 기술이다. 오픈 데이터셋과 간단한 웹을 통해 이 강력함을 대중에게 어필해보려고 한다.
- Neo4j
- 회사에서 주로 활용하는 제품이다. 그래프 데이터 베이스라는 단어가 생소하겠으나, 나름 GDB 에서는 인지도가 가장 높은 제품이다. 국내 레퍼런스가 적어 회사 업무에 활용하는데 어려운 부분이 있는데, 이를 한글로 정리하여 실용적인 Neo4j 라는 콘셉트로 작성해보려고 한다.
Share article